面向中文文本本体学习概念抽取的研究

被引:0
作者
关键
机构
[1] 吉林大学
关键词
本体学习; 概念抽取; TFIDF; 模板匹配;
D O I
暂无
年度学位
2010
学位类型
硕士
摘要
目前,本体作为一种知识共享与重用的概念化模型在知识工程与人工智能等领域得到了广泛的应用,然而手工构建本体繁琐费时,容易造成知识获取瓶颈。因此,基于自然语言处理与机器学习等技术,自动、半自动的构建本体的本体学习技术成为当前研究的热点。领域概念的获取是本体学习的基础与重点,由于中文的词法构成复杂,所以对中文文本的本体学习中概念抽取较为困难。 本文针对单纯使用统计学方法无法抽取多词短语概念以及低频概念的不足,提出了一种基于语言学与统计学的多策略的概念抽取方法。本文主要工作如下:(1)对领域语料文档进行分词预处理,包括:分词、词性标注、过滤停用词;(2)针对传统词频反文档频率(TFIDF)方法可能抽取到仅出现在个别文档中的领域无关高频词的问题,通过引入信息熵考察词在领域文档的分布情况,对传统TFIDF方法进行了改进,提出了TFIDFE方法;(3)根据词性组合规则构建术语匹配模板,提出了模板匹配法。使用语言学的模板匹配法从领域文档中抽取多词短语概念以及低频概念;(4)通过模板匹配法与TFIDFE结合构建了多策略概念抽取验证系统。 实验结果表明本文提出的基于语言学的模板匹配法实现了对多词短语概念的抽取;而TFIDFE方法比传统的TFIDF方法抽取的领域概念准确性更高,更具有领域代表性;模板匹配法与TFIDFE方法相结合的多策略概念抽取方法解决了单纯使用统计学无法抽取多词短语概念和低频概念的不足,提高了概念抽取的准确度,对领域概念的抽取具有较好的效果。
引用
收藏
页数:59
共 15 条
[1]
一种面向文本的概念抽取方法的研究 [J].
孙继鹏 ;
贾民 ;
刘增宝 .
计算机应用与软件, 2009, 26 (09) :28-30
[2]
TFIDF算法研究综述 [J].
施聪莺 ;
徐朝军 ;
杨晓江 .
计算机应用, 2009, 29(S1) (S1) :167-170+180
[3]
本体构建研究综述 [J].
韩婕 ;
向阳 .
计算机应用与软件, 2007, (09) :21-23
[4]
本体学习研究综述 [J].
杜小勇 ;
李曼 ;
王珊 .
软件学报, 2006, (09) :1837-1847
[5]
基于层叠隐马尔可夫模型的中文命名实体识别 [J].
俞鸿魁 ;
张华平 ;
刘群 ;
吕学强 ;
施水才 .
通信学报, 2006, (02) :87-94
[6]
主要本体构建工具比较研究(上) [J].
李景 .
情报理论与实践, 2006, (01) :109-111+81
[7]
关键词抽取方法的研究 [J].
郑家恒 ;
卢娇丽 .
计算机工程, 2005, (18) :194-196
[8]
基于多策略的专业领域术语抽取器的设计 [J].
杜波 ;
田怀凤 ;
王立 ;
陆汝占 .
计算机工程, 2005, (14) :159-160
[9]
面向知识网格的本体学习研究 [J].
刘柏嵩 ;
高济 ;
不详 .
计算机工程与应用 , 2005, (20) :1-5
[10]
基于层叠隐马模型的汉语词法分析 [J].
刘群 ;
张华平 ;
俞鸿魁 ;
程学旗 .
计算机研究与发展, 2004, (08) :1421-1429