基于word2vec的关键词提取算法

被引:43
作者
李跃鹏 [1 ,2 ]
金翠 [3 ]
及俊川 [1 ]
机构
[1] 中国科学院计算机网络信息中心
[2] 中国科学院大学
[3] 北京科技大学
关键词
word2vec; 关键词提取; 词向量;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
随着近些年深度学习的兴起,词语在计算机中的表示有了重大突破;而长期以来关键词提取算法均以词语作为特征进行计算,效果并不理想。因此,本文提出了一种基于深度学习工具word2vec的关键词提取算法。该算法首先使用word2vec将所有词语映射到一个更抽象的词向量空间中;然后基于词向量计算词语之间的相似度,最终通过词语聚类得到文章关键词。实验表明该算法对于篇幅长文章的关键词提取的准确率要明显高于其他算法。
引用
收藏
页码:54 / 59
页数:6
相关论文
共 5 条
[1]   基于语义的中文文本关键词提取算法 [J].
王立霞 ;
淮晓永 .
计算机工程, 2012, 38 (01) :1-4
[2]   基于高维聚类技术的中文关键词提取算法 [J].
高学东 ;
吴玲玉 .
中国管理信息化, 2011, 14 (09) :23-27
[3]   基于同义词链的中文关键词提取算法 [J].
张颖颖 ;
谢强 ;
丁秋林 .
计算机工程, 2010, 36 (19) :93-95
[4]   Discriminant sparse neighborhood preserving embedding for face recognition [J].
Gui, Jie ;
Sun, Zhenan ;
Jia, Wei ;
Hu, Rongxiang ;
Lei, Yingke ;
Ji, Shuiwang .
PATTERN RECOGNITION, 2012, 45 (08) :2884-2893
[5]  
PAT-tree-based keyword extraction for Chinese information retrieval[J] . Lee-Feng Chien.ACM SIGIR Forum . 1997 (SI)