科技论文关键词抽取技术的研究

被引:0
作者
严春风
机构
[1] 苏州大学
关键词
关键词抽取; PAT-Tree; 互信息; 同义词;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
本文以万方数据和会议集作为测试语料,重点介绍了基于PAT-Tree关键词的抽取方法和知网在关键词抽取中的应用。首先通过实验验证关键词具有的一些特征并介绍了常用的关键词的过滤方法。接着介绍了能够方便快捷地进行全文串频统计的PAT-Tree数据结构以及互信息。在此基础上提出了基于PAT-Tree关键词的抽取方法,抽取过程基于从原始文本中得到的统计信息,取出符合筛选条件的字符串。总体来说分为四个阶段,分别为:对文本进行预处理;在预处理过的文本上建立PAT-Tree,获取文章词频信息;在PAT-Tree上抽取候选关键词;对关键词过滤以及选取关键词。我们把抽取的重点放在了自动过滤符合统计条件的字符串,进一步精选候选关键词上面。我们在精选过程中采用了新的过滤手段,并借鉴了其它方法的优点,形成了一套综合的过滤手段,有效地提高了精确度,减少了计算量。本文的另外一个特色,考虑到会议集是领域语料,特别使用分治法的思想来处理密集计算,高效地建立PAT-Tree,一方面为抽取领域关键词提供了方便,另一方面也使得关键词抽取能够用分布式计算的方法来实现,提供了进一步扩大处理能力的空间。实验结果表明,采用此方法能够高效地抽取关键词,特别是领域关键词的抽取取得了良好的效果,达到了预期目的。最后,引入知网来计算同义词的相似度,以此来解决关键词集合中同义词同现问题和词语由于同义词问题不能进入关键词集合的问题。
引用
收藏
页数:72
共 12 条
[1]
一种基于TFIDF方法的中文关键词抽取算法 [J].
徐文海 ;
温有奎 .
情报理论与实践, 2008, (02) :298-302
[2]
国内外专利分析工具功能比较研究 [J].
张静 ;
刘细文 ;
柯贤能 ;
黎江 .
情报理论与实践, 2008, (01) :141-145
[3]
自动标引研究的回顾与展望 [J].
章成志 .
现代图书情报技术, 2007, (11) :33-39
[4]
基于关键短语的文本分类研究 [J].
刘华 .
中文信息学报, 2007, (04) :34-41
[5]
基于χ2统计量的kNN文本分类算法 [J].
印鉴 ;
谭焕云 .
小型微型计算机系统, 2007, (06) :1094-1097
[7]
关键词自动标引的最大熵模型应用研究 [J].
李素建 ;
王厚峰 ;
俞士汶 ;
辛乘胜 .
计算机学报, 2004, (09) :1192-1197
[8]
学术论文中关键词标引的常见问题剖析 [J].
张建蓉 ;
陈燕 .
编辑学报, 2003, (02) :104-105
[9]
中文全文标引的主题词标引和主题概念标引方法 [J].
韩客松 ;
王永成 .
情报学报, 2001, (02) :212-216
[10]
基于关键短语的文本内容标引研究 [D]. 
刘华 .
北京语言大学,
2005