一种基于LDA模型的关键词抽取方法

被引:15
作者
朱泽德 [1 ,2 ]
李淼 [2 ]
张健 [2 ]
曾伟辉 [2 ]
曾新华 [2 ]
机构
[1] 中国科学技术大学自动化系
[2] 中国科学院合肥智能机械研究所
关键词
信息抽取; 关键词抽取; LDA模型; 主题相似性;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信息排序和选择相邻词汇形成候选关键短语,再使用相似性排除隐含主题一致的冗余短语。此外,从文档统计信息、词汇链和主题分析3方面来进行关键词抽取的对比测试,实验在1 040篇中文摘要及5 408个关键词构成的测试集上展开。结果表明,算法有效地提高文档关键词抽取的准确率与召回率。
引用
收藏
页码:2142 / 2148
页数:7
相关论文
共 4 条
[1]   Tag-TextRank:一种基于Tag的网页关键词抽取方法 [J].
李鹏 ;
王斌 ;
石志伟 ;
崔雅超 ;
李恒训 .
计算机研究与发展, 2012, 49 (11) :2344-2351
[2]   基于词汇链的中文新闻网页关键词抽取方法 [J].
胡学钢 ;
李星华 ;
谢飞 ;
吴信东 .
模式识别与人工智能, 2010, 23 (01) :45-51
[3]   基于LDA模型的文本分割 [J].
石晶 ;
胡明 ;
石鑫 ;
戴国忠 .
计算机学报, 2008, (10) :1865-1873
[4]   关键词自动标引的最大熵模型应用研究 [J].
李素建 ;
王厚峰 ;
俞士汶 ;
辛乘胜 .
计算机学报, 2004, (09) :1192-1197