基于语义的关键词提取算法

被引:39
作者
方俊
郭雷
王晓东
机构
[1] 西北工业大学自动化学院
关键词
关键词提取; 语义相关度; 消歧;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
关键词1提供了文档内容的概要信息,它们被使用在很多数据挖掘的应用中。在目前的关键词提取算法中,我们发现词汇层面(代表意思的词)和概念层面(意思本身)的差别导致了关键字提取的不准确,比如不同语法的词可能有着相同的意思,而相同语法的词在不同的上下文有着不同的意思。为了解决这个问题,这篇文章提出使用词义代替词并且通过考虑关键候选词的语义信息来提高关键词提取算法性能的方法。与现有的关键词提取方法不同,该方法首先通过使用消歧算法,通过上下文得到候选词的词义;然后在后面的词合并、特征提取和评估的步骤中,候选词义之间的语义相关度被用来提高算法的性能。在评估算法时,我们采用一种更为有效的基于语义的评估方法与著名的Kea系统作比较。在不同领域间的实验中可以发现,当考虑语义信息后,关键词提取算法的性能能够得到很大的提高。在同领域的实验中,我们的算法的性能与Kea++算法的相近。我们的算法没有领域的限制性,因此具有更好的应用前景。
引用
收藏
页码:148 / 151
页数:4
相关论文
共 8 条
  • [1] KEA:Practical auto-matic keyphrase extraction. Witten I H,Paynter G W,Frank E,et al. Proc.DL’99 . 1999
  • [2] Thesaurus Based Automatic Keyph-rase Indexing. Medelyan O,Witten I H. Proc.of the Joint Conference on Digital Librar-ies2006 . 2006
  • [3] WordNet: An Electronic Lexical Database. Fellbaum, C. MIT Press . 1998
  • [4] Extended gloss overlaps as a measure of semantic relatedness. Banerjee S,Pedersen T. Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence . 2003
  • [5] Mining the Web for Lexical Knowledge to I mprove Keyphrase Extraction:Learning from Labeled and Unlabeled Data. Turney P D. Technical Report ERB-1096 . 2002
  • [6] Supervised and unsupervised discretization of continuous features. Dougherty J,Kohavi R,Sahami M. Proceeding of ICML-95,12th International Conference on Machine Learning . 1995
  • [7] Maxi mizing Semantic R-elatedness to Perform Word Sense Disambiguation. Pedersen T,Banerjee S,Patwardhan S. Supercom-puting institute research report umsi2005/25 . 2005
  • [8] Development of a stemming algorithm. Lovins,JB. Mechanical Translation and Computational Linguistics . 1968