基于图和LDA主题模型的关键词抽取算法

被引:36
作者
刘啸剑 [1 ]
谢飞 [2 ]
吴信东 [1 ,3 ]
机构
[1] 合肥工业大学计算机与信息学院
[2] 合肥师范学院计算机学院
[3] 佛蒙特大学计算机科学系
关键词
关键词抽取; LDA主题模型; TextRank; 图;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
关键词是表达文档核心内容的最小单元。自动抽取一篇或多篇文档的关键词,较传统的人工标注关键词,能节省大量的时间和人力消耗。本文提出了一种基于图和主题模型的关键词抽取算法,首先利用LDA主题模型,计算出词与词之间的相似性,作为词与词之间的权重并构建一个带权无向词图。与传统TextRank不同的是,图的节点不再是单个的词,而是选择短语作为图的节点。最后,再从这些短语节点中选择Top K个词作为文章的关键词。我们选择了两个公开数据集进行了实验,结果表明我们的算法优于现有的关键词抽取算法。
引用
收藏
页码:664 / 672
页数:9
相关论文
共 7 条
[1]   基于语义的中文文本关键词提取算法 [J].
王立霞 ;
淮晓永 .
计算机工程, 2012, 38 (01) :1-4
[2]   基于词汇链的中文新闻网页关键词抽取方法 [J].
胡学钢 ;
李星华 ;
谢飞 ;
吴信东 .
模式识别与人工智能, 2010, 23 (01) :45-51
[3]   基于语义联系的新闻网页关键词抽取 [J].
谢飞 ;
吴信东 ;
胡学钢 ;
李星华 ;
江兆中 .
广西师范大学学报(自然科学版), 2009, 27 (01) :145-148
[4]  
基于主题描述模型的相关性判断在网页信息抽取中的应用[J]. 谭胜,马静,吴一占.情报学报. 2011 (02)
[5]  
KP-Miner: A keyphrase extraction system for English and Arabic documents[J] . Samhaa R. El-Beltagy,Ahmed Rafea.Information Systems . 2008 (1)
[6]   Learning algorithms for keyphrase extraction [J].
Turney P.D. .
Information Retrieval, 2000, 2 (4) :303-336
[7]  
http://wanxiaojun1979.googlepages.com .