融合Word2vec与TextRank的关键词抽取研究

被引:65
作者
宁建飞
刘降珍
机构
[1] 罗定职业技术学院电子信息系
关键词
关键词抽取; Word2vec; TextRank; 图模型; 词向量;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之间的相似度和邻接关系进行非均匀分配,并构建对应的概率转移矩阵用于词汇图模型的迭代计算以及关键词抽取。【结果】实现Word2vec与Text Rank的有效融合,且当训练文档集词汇分布合理时,关键词抽取效果较明显。【局限】需要进行成本较高的文档集训练,获取词向量以及词关系矩阵。【结论】文档集中的词关系有助于修正单文档内部的词关系,提升单文档的关键词抽取准确性。
引用
收藏
页码:20 / 27
页数:8
相关论文
共 11 条
[1]   基于word2vec的关键词提取算法 [J].
李跃鹏 ;
金翠 ;
及俊川 .
科研信息化技术与应用, 2015, 6 (04) :54-59
[2]   Word2vec的工作原理及应用探究 [J].
周练 .
科技情报开发与经济, 2015, 25 (02) :145-148
[3]   融合LDA与TextRank的关键词抽取研究 [J].
顾益军 ;
夏天 .
现代图书情报技术 , 2014, (Z1) :41-47
[4]   词语位置加权TextRank的关键词抽取研究 [J].
夏天 .
现代图书情报技术, 2013, (09) :30-34
[5]   基于主题特征的关键词抽取 [J].
刘俊 ;
邹东升 ;
邢欣来 ;
李英豪 .
计算机应用研究, 2012, 29 (11) :4224-4227
[6]   基于LDA模型的主题词抽取方法 [J].
石晶 ;
李万龙 .
计算机工程, 2010, 36 (19) :81-83
[7]   基于组合词和同义词集的关键词提取算法 [J].
蒋昌金 ;
彭宏 ;
陈建超 ;
马千里 ;
严桂夺 .
计算机应用研究, 2010, 27 (08) :2853-2856
[8]   利用关联规则挖掘文本主题词的方法 [J].
刘菲 ;
黄萱菁 ;
吴立德 .
计算机工程, 2008, (07) :81-83
[9]   一种基于TFIDF方法的中文关键词抽取算法 [J].
徐文海 ;
温有奎 .
情报理论与实践, 2008, (02) :298-302
[10]   一种基于词共现图的文档主题词自动抽取方法 [J].
耿焕同 ;
蔡庆生 ;
于琨 ;
赵鹏 .
南京大学学报(自然科学版), 2006, (02) :156-162