词向量聚类加权TextRank的关键词抽取

被引:126
作者
夏天 [1 ,2 ]
机构
[1] 中国人民大学数据工程与知识工程教育部重点实验室
[2] 中国人民大学信息资源管理学院
关键词
抽取; 词向量; TextRank; Word2Vec;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
【目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank模型,改进单文档关键词抽取效果。【方法】利用Word2Vec模型基于维基百科中文数据,生成词向量模型,对TextRank词图节点的词向量进行聚类以调整簇内节点的投票重要性,结合节点的覆盖和位置因素,计算节点之间的随机跳转概率,生成转移矩阵,最终通过迭代计算获得节点的重要性得分,选取前TopN个词语生成关键词。【结果】当TopN≤7时,词向量聚类加权方法均优于对比方法;TopN=3时,F值取得最大值,比先前最优结果增量提升了3.374%;TopN>7时,结果与位置加权法相似。【局限】聚类分析使得计算开销变高。【结论】词向量聚类加权能够改善关键词抽取效果。
引用
收藏
页码:28 / 34
页数:7
相关论文
共 6 条
[1]
融合Word2vec与TextRank的关键词抽取研究 [J].
宁建飞 ;
刘降珍 .
现代图书情报技术 , 2016, (06) :20-27
[2]
基于图计算的论文审稿自动推荐系统 [J].
谢玮 ;
沈一 ;
马永征 .
计算机应用研究, 2016, 33 (03) :798-801
[3]
基于word2vec的关键词提取算法 [J].
李跃鹏 ;
金翠 ;
及俊川 .
科研信息化技术与应用, 2015, 6 (04) :54-59
[4]
融合LDA与TextRank的关键词抽取研究 [J].
顾益军 ;
夏天 .
现代图书情报技术, 2014, (Z1) :41-47
[5]
[6]
Tag-TextRank:一种基于Tag的网页关键词抽取方法 [J].
李鹏 ;
王斌 ;
石志伟 ;
崔雅超 ;
李恒训 .
计算机研究与发展, 2012, 49 (11) :2344-2351