基于联合权重的多文档关键词抽取技术

被引:17
作者
杨洁 [1 ]
季铎 [1 ]
蔡东风 [1 ]
林晓庆 [1 ,2 ]
白宇 [1 ]
机构
[1] 沈阳航空工业学院知识工程中心
[2] 辽东学院信息技术学院
关键词
计算机应用; 中文信息处理; ATF×PDF; 联合权重; 多文档; 语义相似度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
该文提出一种多文档关键词抽取方法,该方法提出ATF×PDF(Average Term Frequency×ProportionalDocument Frequency)来计算词语权重,并根据候选关键词之间的语义相似度,采用联合权重方法重新计算候选关键词的权重来抽取关键词。该方法综合考虑了词语的频率,词性以及词语之间的语义相似性等信息,实验表明,该方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率提高3%,召回率提高7%,F-measure提高4.4%。
引用
收藏
页码:75 / 79
页数:5
相关论文
共 3 条
[1]   一种基于词汇链的关键词抽取方法 [J].
索红光 ;
刘玉树 ;
曹淑英 .
中文信息学报, 2006, (06) :25-30
[2]   关键词自动标引的最大熵模型应用研究 [J].
李素建 ;
王厚峰 ;
俞士汶 ;
辛乘胜 .
计算机学报, 2004, (09) :1192-1197
[3]  
Topic Extraction from News Archive Using TF*PDF Algorithm .2 Khoo Khyou Bun,Mitsuru Ishizuka. Proceedings of the 3rd International Conference on Web Information Systems Engineering . 2002