改进的关键词提取算法研究

被引:17
作者
王涛
李明
机构
[1] 重庆师范大学计算机与信息科学学院
关键词
词向量; TextRank; 图模型; LDA;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
【目的】针对词主题信息与词相似性信息对关键词提取的影响进行了研究,提出一种改进的TextRank关键词提取方法。【方法】首先,使用隐含狄利克雷分布(Latent Dirichlet allocation,LDA)主题模型对文档建模计算词主题信息;其次,使用FastText生成词向量,并计算词相似性矩阵;最后,融合词主题信息与词相似性信息的综合权重来优化TextRank词汇节点的初始权重,并进行词图模型的迭代运算与关键词提取。【结果】实验表明,改进方法的提取结果优于传统方法。【结论】证明了考虑词主题信息的全局性与词相似性信息的局部性能有效提高TextRank算法提取关键词的性能。
引用
收藏
页码:98 / 104
页数:7
相关论文
共 13 条
[1]
Efficient sequential pattern mining with wildcards for keyphrase extraction.[J].Fei Xie;Xindong Wu;Xingquan Zhu.Knowledge-Based Systems.2017,
[2]
Keyword extraction and clustering for document recommendation in conversations.[J].Maryam Habibi;Andrei Popescu-Belis.IEEE/ACM Transactions on Audio; Speech and Langua.2015, 4
[3]
Keyword Extraction Based on tf/idf for Chinese News Document [J].
LI JuanziFAN QinaZHANG Kuo Department of Computer Science and TechnologyTsinghua UniversityBeijing China .
WuhanUniversityJournalofNaturalSciences, 2007, (05) :917-921
[4]
结合主题分布与统计特征的关键词抽取方法 [J].
刘啸剑 ;
谢飞 .
计算机工程, 2017, 43 (07) :217-222
[5]
一种基于TextRank的单文本关键字提取算法 [J].
柳林青 ;
余瀚 ;
费宁 ;
陈春玲 .
计算机应用研究, 2018, 35 (03) :705-710
[6]
[7]
基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类 [J].
阿力甫阿不都克里木 ;
李晓 .
计算机科学, 2016, 43 (12) :36-40
[8]
融合Word2vec与TextRank的关键词抽取研究 [J].
宁建飞 ;
刘降珍 .
现代图书情报技术 , 2016, (06) :20-27
[9]
基于图和LDA主题模型的关键词抽取算法 [J].
刘啸剑 ;
谢飞 ;
吴信东 .
情报学报, 2016, (06) :664-672
[10]
TF-IDF与规则相结合的中文关键词自动抽取研究 [J].
牛萍 ;
黄德根 .
小型微型计算机系统, 2016, 37 (04) :711-715