利用引用信息的关键词提取

被引:4
作者
陈翀
罗鹏程
汪十红
机构
[1] 北京师范大学信息管理系
关键词
关键词提取; 引用文本; Co-HITS;
D O I
10.13266/j.issn.0252-3116.2014.01.015
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
提出一种利用引用信息提取关键词的新方法,将候选词项与引用文献之间的关系抽象为二部图,使用Co-HITS方法迭代计算词项重要性得分至收敛,选出得分最高的词项作为关键词。用ACM数据库中主分类为"信息系统"的论文摘要作为数据集进行评测,结果显示本文所提出的方法优于同类基于图模型计算词项重要度的方法,适用于科学文献和其他具有链接关系的文本集合。在考虑引用信息的情况下,所提取的关键词不但概括原文还能体现原文受到外界关注的内容要点。
引用
收藏
页码:101 / 108+116 +116
页数:9
相关论文
共 5 条
[1]   Exploiting Neighborhood Knowledge for Single Document Summarization and Keyphrase Extraction [J].
Wan, Xiaojun ;
Xiao, Jianguo .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2010, 28 (02)
[2]   Authoritative sources in a hyperlinked environment [J].
Kleinberg, JM .
JOURNAL OF THE ACM, 1999, 46 (05) :604-632
[3]  
The anatomy of a large-scale hypertextual Web search engine[J] . Sergey Brin,Lawrence Page. Computer Networks and ISDN Systems . 1998 (1)
[4]  
A generalized co-hits algorithm and its application to bipartitegraphs .2 Deng H,Lyu M,King I. Proceedings of the15th ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining . 2009
[5]  
Graph-based keyword extraction for singledocument summarization .2 Litvak M,Last M. Proceedings of the Workshop on Multi-source Multilingual Information Extraction and Summarization . 2008