基于语义联系的新闻网页关键词抽取

被引:10
作者
谢飞 [1 ,2 ]
吴信东 [1 ,3 ]
胡学钢 [1 ]
李星华 [1 ]
江兆中 [1 ]
机构
[1] 合肥工业大学计算机与信息学院
[2] 合肥师范学院计算机科学与技术系
[3] 佛蒙特大学计算机系
关键词
关键词抽取; 词汇链; 语义联系;
D O I
10.16088/j.issn.1001-6600.2009.01.033
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
提出一种基于语义联系的新闻网页关键词抽取方法,不仅考虑了词语在知识库《知网》中的语义相似度,还考虑词语在具体上下文中的相关性,用词汇链将词语语义联系表示成图形式,在此基础上抽取出新闻网页关键词。对从网易网站选取120篇有核心提示的新闻网页进行测试,实验结果表明,所提出的方法比基于词频的关键词抽取方法和基于《知网》语义相似度构建词汇链的关键词抽取方法,在准确率和召回率上有很大的提高,当抽取关键词个数为3时,比基于词频方法的准确率和召回率分别提高了27.77%和21.38%。
引用
收藏
页码:145 / 148
页数:4
相关论文
共 4 条
[1]   基于粗集理论的中文关键词短语构成规则挖掘 [J].
刘远超 ;
王晓龙 ;
徐志明 ;
刘秉权 .
电子学报, 2007, (02) :371-374
[2]   一种基于词汇链的关键词抽取方法 [J].
索红光 ;
刘玉树 ;
曹淑英 .
中文信息学报, 2006, (06) :25-30
[3]   关键词自动标引的最大熵模型应用研究 [J].
李素建 ;
王厚峰 ;
俞士汶 ;
辛乘胜 .
计算机学报, 2004, (09) :1192-1197
[4]   知网和汉语研究 [J].
董振东 ;
董强 .
当代语言学, 2001, (01) :33-44+77