基于词汇链的中文新闻网页关键词抽取方法

被引:22
作者
胡学钢 [1 ]
李星华 [1 ]
谢飞 [1 ,2 ]
吴信东 [1 ,3 ]
机构
[1] 合肥工业大学计算机与信息学院
[2] 合肥师范学院计算机科学与技术系
[3] Department of Computer Science,University of
关键词
词汇链; 关键词抽取; 歧义消解; 语义相似度;
D O I
10.16451/j.cnki.issn1003-6059.2010.01.019
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
词汇链是一种词语间语义关系引起的连贯性的外在表现,提供关于文本结构和主题的重要线索.文中在解决歧义消解问题的基础上提出利用词汇链,结合词频特征、位置特征和集聚特征抽取中文新闻网页关键词的方法.该方法根据词语在文档中语义联系将文档表示成词汇链形式,并在此基础上抽取关键词.对中文新闻网页和学术期刊文献两种语料进行实验,结果表明该方法可明显提高抽取的关键词质量.
引用
收藏
页码:45 / 51
页数:7
相关论文
共 10 条