基于文档主题结构和词图迭代的关键词抽取方法研究

被引:22
作者
孙明珠
马静
钱玲飞
机构
[1] 南京航空航天大学经济与管理学院
关键词
关键词抽取; TextRank; LDA; 图模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
【目的】利用主题模型得到文本主题信息,将主题信息融入TextRank模型对其进行改进,提升文本关键词自动抽取的准确率和召回率。【方法】利用LDA对文档集进行主题建模,得到候选关键词的主题词分布和文档主题分布;结合候选关键词主题分布特征计算节点权重,加权文档–主题概率分布和主题–词概率分布特征作为节点的随机跳转概率;构建新的转移矩阵进行词图迭代,得到改进后的TextRank模型。【结果】采集南方周末网站1 559篇新闻文章进行实验。结果表明,本文模型的关键词抽取效果明显优于原始TextRank和TF-IDF模型;当抽取关键词个数为3时,本模型准确率比原始TextRank模型的准确率提升4.7%,比TF-IDF提升6.5%。【局限】融合算法的计算复杂度增加。【结论】融合主题信息的TextRank算法能够使关键词自动抽取效果更加显著。
引用
收藏
页码:68 / 76
页数:9
相关论文
共 10 条
[1]
自动关键词抽取研究综述 [J].
赵京胜 ;
朱巧明 ;
周国栋 ;
张丽 .
软件学报, 2017, 28 (09) :2431-2449
[2]
[3]
基于图和LDA主题模型的关键词抽取算法 [J].
刘啸剑 ;
谢飞 ;
吴信东 .
情报学报, 2016, (06) :664-672
[4]
一种基于LDA模型的关键词抽取方法 [J].
朱泽德 ;
李淼 ;
张健 ;
曾伟辉 ;
曾新华 .
中南大学学报(自然科学版), 2015, 46 (06) :2142-2148
[5]
融合LDA与TextRank的关键词抽取研究 [J].
顾益军 ;
夏天 .
现代图书情报技术, 2014, (Z1) :41-47
[6]
[7]
基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例 [J].
钱爱兵 ;
江岚 .
情报理论与实践, 2008, (06) :945-950
[8]
面向主题的关键词抽取方法研究 [D]. 
丁卓冶 .
复旦大学,
2013
[9]
基于改进的TFIDF关键词自动提取算法研究 [D]. 
杨凯艳 .
湘潭大学,
2015
[10]
Learning Algorithms for Keyphrase Extraction.[J] Peter D. Turney Inf. Retr. 2000,