基于Web的通用本体学习研究

被引:0
作者
刘柏嵩
机构
[1] 浙江大学
关键词
本体; 本体学习; 本体评价; 本体工程; 语义Web;
D O I
暂无
年度学位
2007
学位类型
博士
导师
摘要
语义Web提出以来,本体(Ontology)正在成为人工智能和知识工程中一种重要的工具,在知识的获取、表示、分析和应用等方面具有重要的意义。从本体开发的角度来说,由于借助本体编辑器(如Protégé)手工开发本体是一个繁重和棘手的任务,极易导致知识获取的瓶颈。因此,Web本体的可获取性已被学术界公认为是制约语义Web成功的巨大挑战之一。从现有信息源,包括文本、词典、遗留知识库、WWW文档等,获取领域知识、以自动方式构建或扩充本体,即所谓的本体学习(OntologyLearning),是开发本体的有效途径。 目前国际上在本体学习方面的研究非常活跃,虽然已经提出了很多本体学习方法,但大部分方法都不理想。由于缺乏统一的本体学习体系结构概念和方法,虽然开发了一些本体学习方法,但这些方法难以被其他系统重用。当前本体学习系统工具多是原型系统,不能大规模实时处理网上海量信息源,也缺乏中文语料处理能力。同时,目前还缺乏有效的评价本体学习结果的标准和方法,不利于本体学习方法和工具的进一步发展。 本文就是在开放的网络环境下,综合运用机器学习和自然语言处理方法,按照分层技术原理,提出了一种新的分层本体学习方法体系,并实现了一种基于Web的多策略本体学习工具GOLF,然后讨论了本体演化和评价方法,并对本体学习框架GOLF进行了实验和评价。本文的主要研究内容如下: (1)提出了一种分层本体学习方法体系,其中包括术语自动抽取、概念学习、实例学习和分类关系学习和非分类关系学习多种关键技术。在对现有学习方法做大量改进的基础上,完全实现了本体学习全过程的无缝集成,并且在本体学习系统中集成了本体评价模块。 (2)开发了基于Web的多语种通用本体学习工具GOLF,并采用Web文档作为本体学习源,进行了跨领域、多语种实验。同时,实现本体学习过程中的本体演化管理,并对学习结果进行评价和反馈。 (3)在本体学习中引入多策略学习方法,以提高学习质量。各学习算法的组合框架采用概率组合分布,可根据不同的语料特征为每个算法设定权值,从而增强了对不同领域语料的适应性。通过实验对比分析,在学习结果的准确率和召回率方面,GOLF系统都比著名的Text2Onto系统更好。 (4)实现了中文语料的本体学习。本文所提出的方法和工具能够很好地处理多语种语料,与同类系统(大多只能处理西文文本)相比,对中文的处理能力明显加强;特别针对中文的语言学特征,引入HowNet语义词典,添加了对应于中文文本的语言学模式和停用词表,性能有明显改善。 (5)提出了一种新的基于贝叶斯决策理论的本体评价方法RiMOE,并采用RiMOE
引用
收藏
页数:143
共 20 条
[1]
基于文本的中文本体知识获取的研究 [D]. 
杨柳 .
中国科学院研究生院(计算技术研究所),
2006
[2]
The combination of text classifiers using reliability indicators [J].
Bennett, PN ;
Dumais, ST ;
Horvitz, E .
INFORMATION RETRIEVAL, 2005, 8 (01) :67-100
[3]
A study of approaches to hypertext categorization [J].
Yang, YM ;
Slattery, S ;
Ghani, R .
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS, 2002, 18 (2-3) :219-241
[4]
An algorithm that learns what's in a name [J].
Bikel, DM ;
Schwartz, R ;
Weischedel, RM .
MACHINE LEARNING, 1999, 34 (1-3) :211-231
[5]
Knowledge acquisition via incremental conceptual clustering.[J].Douglas H. Fisher.Machine Learning.1987, 2
[6]
一种结合术语部件库的术语提取方法 [J].
何燕 ;
穗志方 ;
段慧明 ;
俞士汶 .
计算机工程与应用, 2006, (33) :4-7
[7]
通用本体学习框架研究(英文) [J].
刘柏嵩 ;
高济 .
Journal of Southeast University(English Edition), 2006, (03) :381-384
[8]
本体学习研究综述 [J].
杜小勇 ;
李曼 ;
王珊 .
软件学报, 2006, (09) :1837-1847
[9]
SemreX中基于语义的文档参考文献元数据信息提取 [J].
郭志鑫 ;
金海 ;
陈汉华 .
计算机研究与发展, 2006, (08) :1368-1374
[10]
Ontology自动构建平台OntoAGS [J].
李林 ;
刘贺欢 ;
刘椿年 .
计算机工程, 2006, (13) :212-214