基于相邻词的中文关键词自动抽取

被引:9
作者
王灿辉 [1 ]
张敏 [1 ]
马少平 [1 ]
黄宇 [2 ]
机构
[1] 清华大学信息科学技术学院
[2] 北京交通大学计算机与信息技术学院
关键词
相邻词; 关键词抽取; 信息检索;
D O I
10.16088/j.issn.1001-6600.2007.02.038
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文档关键词概括了文档的主题和内容,在信息检索、文本分类、文本聚类等领域有着重要应用。在总结前人研究成果的基础上,提出了一种基于相邻词的中文关键词自动抽取算法。在对50篇学术论文自动抽取关键词的实验中,采用精确匹配的评价获得了38.9%的精度和34.9%的召回率,采用近似匹配的评价获得了70.7%的精度和68.8%的召回率,能够为进一步的研究提供帮助。
引用
收藏
页码:161 / 164
页数:4
相关论文
共 2 条
[2]   关键词自动标引的最大熵模型应用研究 [J].
李素建 ;
王厚峰 ;
俞士汶 ;
辛乘胜 .
计算机学报, 2004, (09) :1192-1197