融合LDA与TextRank的关键词抽取研究

被引:65
作者
顾益军 [1 ]
夏天 [2 ,3 ]
机构
[1] 不详
[2] 中国人民公安大学网络安全保卫学院
[3] 不详
[4] 中国人民大学数据工程与知识工程教育部重点实验室
[5] 中国人民大学信息资源管理学院
[6] 不详
关键词
关键词抽取; LDA; TextRank; 图模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
【目的】通过将单一文档内部的结构信息和文档整体的主题信息融合到一起进行关键词抽取。【方法】利用LDA对文档集进行主题建模和候选关键词的主题影响力计算,进而对TextRank算法进行改进,将候选关键词的重要性按照主题影响力和邻接关系进行非均匀传递,并构建新的概率转移矩阵用于词图迭代计算和关键词抽取。【结果】实现LDA与TextRank的有效融合,当数据集呈现较强的主题分布时,可以显著改善关键词抽取效果。【局限】融合方法需要进行代价较高的多文档主题分析。【结论】关键词既与文档本身相关,也与文档所在的文档集合相关,二者结合是改进关键词抽取结果的有效途径。
引用
收藏
页码:41 / 47
页数:7
相关论文
共 5 条
[1]   词语位置加权TextRank的关键词抽取研究 [J].
夏天 .
现代图书情报技术, 2013, (09) :30-34
[2]   基于主题特征的关键词抽取 [J].
刘俊 ;
邹东升 ;
邢欣来 ;
李英豪 .
计算机应用研究, 2012, 29 (11) :4224-4227
[3]   中心网页中主题网页链接的自动抽取 [J].
夏天 .
山东大学学报(理学版), 2012, 47 (05) :25-31
[4]   基于扩展标记树的网页正文抽取 [J].
夏天 .
广西师范大学学报(自然科学版), 2011, 29 (01) :133-137
[5]   基于LDA模型的主题词抽取方法 [J].
石晶 ;
李万龙 .
计算机工程, 2010, 36 (19) :81-83