基于Web挖掘的中文本体学习研究

被引:0
作者
王栋
机构
[1] 太原理工大学
关键词
本体; 本体学习; 互信息; 句法分析;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用,而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如WordNet和CyC,但是一方面用手工方式构建本体需要耗费大量的人力和时间,另一方面,这些通用本体只包含非常少的领域概念。同时,由于本体中俘获的知识是流变的,它总是在不断地发展和更新。为避免本体成为过期的无用信息,这就意味着本体不能像字典一样以手工方式构造,否则它的发布之日就已过时。而且建造完成后,本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时,由于本体是未来语义网的基础,本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题,我们需要自动化或半自动化工具来构建本体。 本体学习技术是当前的一个热点,其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体,本体学习任务主要包括本体所包含的各个元素的自动或半自动获取,例如概念学习以及概念之间的关系学习等。目前,国外已经出现了许多半自动的本体构建工具,如OntoLearn,Text-To-Onto等,这些工具虽然支持了从不同结构化文档中半自动化地提取本体,但是存在了不同程度的对通用词典或核心本体的依赖性,在国内,对于从中文文档中进行本体学习的研究还相对薄弱,已有的研究也或多或少存在着上述问题。同时,目前还没有一个支持中文的本体学习工具;本研究的主要目标是,采用知识获取及句法分析技术从中文web文档中自动获取领域术语及关系,降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴,语义描述要能够为计算机方便利用。因此,它的任务是把共同约定、共同享用的知识(词语的语义规范),用计算机容易处理的形式表达出来。 针对以上现有方法的不足,本文在词频分析和语法分析的基础上,充分利用Web页面半结构化的特点,加入浅层语义分析;同时,本文不依赖于领域词典,采用基于ICTCLAS对文档进行初步的分词和词性标注,利用互信息统计模型计算待识别中文字串的内部结合强度,进行候选术语的抽取,利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择,充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念;以上方法一方面保持算法简单,同时又极大地提高本体概念抽取的速度和准确性;最后,本文用基于规则和句法分析的方法来抽取概念之间的关系,提高了概念关系抽取的准确性,并可以对抽取出的关系进行度量。
引用
收藏
页数:70
共 16 条
[1]
多学科领域本体设计方法的研究 [D]. 
顾芳 .
中国科学院研究生院(计算技术研究所),
2004
[2]
本体学习研究综述 [J].
杜小勇 ;
李曼 ;
王珊 .
软件学报, 2006, (09) :1837-1847
[3]
一种基于概率上下文无关文法的汉语句法分析 [J].
林颖 ;
史晓东 ;
郭锋 .
中文信息学报, 2006, (02) :1-7+32
[4]
关键词抽取方法的研究 [J].
郑家恒 ;
卢娇丽 .
计算机工程, 2005, (18) :194-196
[5]
利用JNI实现ICTCLAS系统的Java调用 [J].
夏天 ;
樊孝忠 ;
刘林 .
计算机应用, 2004, (S2) :177-178+182
[6]
论本体与本体语言及其在信息检索领域的应用 [J].
曹树金 ;
马利霞 .
情报理论与实践, 2004, (06) :632-637
[7]
《计算机研究与发展》各类参考文献的著录格式及示例.[J]..计算机研究与发展.2004, 09
[8]
Ontology研究综述 [J].
邓志鸿 ;
唐世渭 ;
张铭 ;
杨冬青 ;
陈捷 .
北京大学学报(自然科学版), 2002, (05) :730-738
[9]
基于隐马尔可夫模型(HMM)的词性标注的应用研究 [J].
胡春静 ;
韩兆强 ;
不详 .
计算机工程与应用 , 2002, (06) :62-64
[10]
A Clustering Algorithm for Chinese Adjectives and Nouns..Yang Wen;Chunfa Yuan;Changning Huang;..2000,