结合语义扩展度和词汇链的关键词提取算法

被引:49
作者
刘端阳
王良芳
机构
[1] 浙江工业大学计算机科学与技术学院
关键词
同义词词林; 语义扩展度; 词汇链; 关键词提取; 语义分析;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对影响关键词提取质量的一词多义现象、同义词现象以及文章主题准确全面表达的难点,提出了一种基于语义的关键词提取算法KESELC,利用《同义词词林》语义词典和统计信息计算语义相似度和相关度,进而得出语义扩展度及其计算方法,将语义扩展度和词汇链方法相结合,对文本分别作预处理、多义词词义消歧、同义词合并、词汇链构建、有效特征选取及对权重综合计算的处理,提取出的关键词不仅避免了同义词冗余表达,而且较准确全面地覆盖文本的主题。通过实验对比分析,验证了基于KESELC的方法比基于TFIDF的方法以及基于词汇链的方法具有较优的提取效果,具有一定的实际应用价值。
引用
收藏
页码:264 / 269+291 +291
页数:7
相关论文
共 7 条
[1]
一种中文微博新闻话题检测的方法 [J].
郑斐然 ;
苗夺谦 ;
张志飞 ;
高灿 .
计算机科学, 2012, 39 (01) :138-141
[2]
MXDR:一种基于关键字的XML多文档分布式检索方法 [J].
李霞 ;
李战怀 ;
张利军 ;
陈群 ;
李宁 .
计算机科学, 2011, 38 (10) :152-156
[3]
基于同义词词林的词语相似度计算方法 [J].
田久乐 ;
赵蔚 .
吉林大学学报(信息科学版), 2010, 28 (06) :602-608
[4]
基于语义的关键词提取算法 [J].
方俊 ;
郭雷 ;
王晓东 .
计算机科学, 2008, (06) :148-151
[5]
基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[6]
结合语义相似度与相关度的概念扩展.[J].聂卉;龙朝晖;.情报学报.2007, 05
[7]
同义词词林.[M].梅家驹等编;.上海辞书出版社.1996,