融合统计学和TextRank的生物医学文献关键短语抽取

被引:6
作者
魏赟
孙先朋
机构
[1] 上海理工大学光电信息与计算机工程学院
关键词
TextRank; 关键短语抽取; TF-IDF; 逆向文档频率;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
关键短语的抽取在文本聚类、分类、检索等方面有着重要的作用。利用经典的TF-IDF算法来提高文本关键短语抽取的质量。通过对TF-IDF算法的研究,发现TF-IDF可以综合利用单个文本信息和文本集合信息抽取文本关键词。在此基础上,提出一种综合TF-IDF、TextRank、统计学知识抽取关键短语的方法和利用候选关键短语逆向文档频率排序的方法。该方法在TextRank基础上,通过TF-IDF引入词的文本集合信息计算词之间权重得到词的得分。然后利用统计学知识从上一步选出词组成的短语筛选出候选关键短语。最后利用逆向文档频率的思想对候选关键短语排序。实验证明,该模型相比于经典TextRank模型准确率提高了2%,召回率提高了4.5%,F-measure提高了3.4%。
引用
收藏
页码:27 / 30
页数:4
相关论文
共 11 条
[1]  
Latent Dirichlet allocation. Blei D M,Ng A Y,Jordan M I. Journal of Machine Learning Research . 2003
[2]  
TextRank:bringing order into texts. MIHALCEA R,TARAU P. Conference on Empirical Methods in Natural Language Processing,EMNLP 2004,A Meeting of Sigdat,A Special Interest Group of the Acl,Held in Conjunction with ACL 2004 . 2004
[3]  
Parsing a Natural Language Using Mutual Information Statistics. Magerman D M,Marcus M P. National Conference on Artificial Intelligence . 1990
[4]   基于词频的优化互信息文本特征选择方法 [J].
刘海峰 ;
姚泽清 ;
苏展 .
计算机工程, 2014, 40 (07) :179-182
[5]   基于维基百科的领域历史沿革信息抽取 [J].
赵佳鹏 ;
林民 .
计算机应用, 2015, 35 (04) :1021-1025+1044
[6]   融合PAM和主题偏好TextRank的历史沿革信息抽取 [J].
田长波 ;
林民 ;
斯日古楞 .
计算机应用研究, 2017, 34 (01) :123-127
[7]   利用统计量和语言学规则提取多字词表达 [J].
刘荣 ;
王奕凯 .
太原理工大学学报, 2011, (02) :133-137
[8]  
Combination of Unsupervised Keyphrase Extraction Algorithms. Zhu Z,Li M,Chen L,et al. International Conference on Asian Language Processing . 2013
[9]  
Keyphrase Extraction Abstracts Instead of Full Papers. Popova S,Danilova V. International Workshop on Database and Expert Systems Applications . 2014
[10]  
NE-Rank:A Novel Graph-Based Keyphrase Extraction in Twitter. Bellaachia A,Aldhelaan M. IEEE/WIC/ACM International Joint Conferences on Web Intelligence . 2012