基于语义词典和词汇链的关键词提取算法

被引:14
作者
刘端阳
王良芳
机构
[1] 浙江工业大学计算机科学与技术学院
关键词
同义词词林; 词汇链; 关键词提取; 语义分析; 共现率;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
关键词提取是文本挖掘领域中研究的核心技术之一.针对影响关键词提取质量的一词多义现象、同义词现象、文章主题准确全面表达的难点,提出了一种基于语义的关键词提取方法 KETCLC,将《同义词词林》语义词典和词汇链方法相结合,对文本分别作预处理、多义词词义消歧、同义词合并、词汇链构建、有效特征选取及对权重综合计算改进的处理,提取出的关键词不仅避免了同义词冗余表达,而且较准确全面地覆盖文本的主题.实验结果表明:基于KETCLC方法比基于TFIDF以及基于词汇链的方法具有较优的提取效果,具有一定的实际应用价值.
引用
收藏
页码:545 / 551
页数:7
相关论文
共 8 条
[1]   基于关键词抽取的自动文摘算法 [J].
蒋效宇 .
计算机工程, 2012, 38 (03) :183-186
[2]   MXDR:一种基于关键字的XML多文档分布式检索方法 [J].
李霞 ;
李战怀 ;
张利军 ;
陈群 ;
李宁 .
计算机科学, 2011, 38 (10) :152-156
[3]   基于同义词词林的词语相似度计算方法 [J].
田久乐 ;
赵蔚 .
吉林大学学报(信息科学版), 2010, 28 (06) :602-608
[4]   基于语义的关键词提取算法 [J].
方俊 ;
郭雷 ;
王晓东 .
计算机科学, 2008, (06) :148-151
[5]   一种基于复杂网络特征的中文文档关键词抽取算法 [J].
赵鹏 ;
蔡庆生 ;
王清毅 ;
耿焕同 .
模式识别与人工智能, 2007, 20 (06) :827-831
[6]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[7]  
同义词词林.[M].梅家驹等编;.上海辞书出版社.1996,
[8]   Using lexical chains for keyword extraction [J].
Ercan, Gonenc ;
Cicekli, Ilyas .
INFORMATION PROCESSING & MANAGEMENT, 2007, 43 (06) :1705-1714