基于文本的中文本体知识获取的研究

被引:0
作者
杨柳
机构
[1] 中国科学院研究生院(计算技术研究所)
关键词
本体; 中文本体学习; 句型规则; 自举; 本体同构假设;
D O I
暂无
年度学位
2006
学位类型
硕士
摘要
随着新一代互联网——语义Web——研究的不断深入,作为其基础的本体的地位日益提高。相应的,对于语义Web在中国的推广和应用而言,中文本体的获取是至关重要的。如何从现有的各领域的大量中文文献中获得本体,同时提高所得本体的质量使其能给被有效利用,成为语义Web在中文环境下推广的一个重要课题。 本文围绕中文本体的获取展开了讨论和研究。首先我们针对中文本体学习这一领域存在的问题提出了基于句型规则的自举本体学习方法,介绍了整个方法的框架,并对在这个框架下的几个关键的技术问题,包括语料获取和预处理、本体片断的定义、句型规则的语法,分别作了更为详细的介绍。 为了提高本体学习的质量,我们提出了本体同构假设,从而充分的利用已有本体之中的结构信息,指导本体学习的过程,特别是在结构方面提高本体学习的水平。为了验证这个假设,我们给出了本体中公共的有意义的结构的精确定义,并称之为最大同构公共导出子本体(MICISO)。基于这一系列定义,我们给出了这个假设的命题表述形式,使得可以用实验来对它做验证。 接着,我们提出了从已有本体中挖掘最大公共同构导出子本体的MICISO挖掘问题,然后我们给出了解决MICISO挖掘问题的算法,最后我们基于这个算法构建了MICISO挖掘工具,并用它对一些已有本体作挖掘,得到了一些有意义的结果,初步验证了本体同构假设,另外我们分析了影响结果的因素。 基于对中文本体学习以及提高本体学习质量的分析,我们已经开发了基于中文本体学习的实用工具,支持手工编辑本体,基于句型规则的本体学习和对已有本体中可重用结构的发现和再利用。该工具已被集成到知识管理平台KMSphere之中,为平台上的知识服务提供必需的非结构化的本体获取。 最后,我们基于文章的核心——基于句式规则的自举本体学习以及本体同构假设,对进一步工作做了探讨和展望。
引用
收藏
页数:70
共 9 条
[1]
语义Web的逻辑基础 [J].
史忠植 ;
董明楷 ;
蒋运承 ;
张海俊 .
中国科学E辑:信息科学, 2004, (10) :1123-1138
[2]
智能互联网 [J].
史忠植 ;
董明楷 ;
蒋运承 ;
盛秋戬 ;
张海俊 .
计算机科学, 2003, (09) :1-4+10
[3]
动作和进化的模型论基础 [J].
田启家 ;
史忠植 .
中国科学E辑:技术科学, 1997, (03) :282-288
[4]
中文信息处理若干重要问题.[M].徐波等主编;.科学出版社.2003,
[5]
知识发现.[M].史忠植著;.清华大学出版社.2002,
[6]
智能主体及其应用.[M].史忠植著;.科学出版社.2000,
[7]
高级人工智能.[M].史忠植编著;.科学出版社.1998,
[8]
人工智能.[M].陆汝钤编著;.科学出版社.1989,
[9]
An experimental evaluation of integrating machine learning with knowledge acquisition [J].
Webb, GI ;
Wells, J ;
Zheng, ZJ .
MACHINE LEARNING, 1999, 35 (01) :5-23