基于语义的文档关键词提取方法

被引:41
作者
姜芳 [1 ]
李国和 [1 ]
岳翔 [2 ]
机构
[1] 中国石油大学(北京)地球物理与信息工程学院油气数据挖掘北京市重点实验室
[2] 中海油研究总院信息数据中心
关键词
语义距离; 密度聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
以语义为基础实现文档关键词提取是提高自动提取准确度的有效途径。以中文文档为处理对象,通过《同义词词林》计算词语间语义距离,对词语进行密度聚类,得到主题相关类,并从主题相关类中选取中心词作为关键词。通过统计实验和打分实验,证明基于语义的文档关键词提取方法具有较高的准确率、召回率,并且提取的关键词具有较高的主题相关度。
引用
收藏
页码:142 / 145
页数:4
相关论文
共 5 条
[1]
基于语义的中文文本关键词提取算法 [J].
王立霞 ;
淮晓永 .
计算机工程, 2012, 38 (01) :1-4
[2]
基于粗集理论的中文关键词短语构成规则挖掘 [J].
刘远超 ;
王晓龙 ;
徐志明 ;
刘秉权 .
电子学报, 2007, (02) :371-374
[4]
关键词自动标引的最大熵模型应用研究 [J].
李素建 ;
王厚峰 ;
俞士汶 ;
辛乘胜 .
计算机学报, 2004, (09) :1192-1197
[5]
用于不同密度聚类的多阶段等密度线算法 [J].
赵艳厂 ;
宋梅 ;
谢帆 ;
宋俊德 .
北京邮电大学学报, 2003, (02) :42-47