近年来,本体在信息检索和语义网等领域中发挥着越来越重要的作用。但是手工构造本体却是一项繁琐的工作。如何从大量中文文献中自动或半自动地获得本体,成为本体在中文环境下推广、应用的一个重要课题。
本体学习是指利用人工智能、自然语言处理等众多学科技术来实现本体的半自动构建。本体学习任务主要包括本体所包含的各个元素的自动或半自动获取,例如概念获取以及概念间关系的获取等。
本文在借鉴国内外现有本体学习理论、方法的基础上,结合中文自然语言的研究成果,针对特定领域的中文文本文档,对领域本体概念获取和概念间关系的获取展开了研究。在概念的获取方面,本文提出以一种多策略中文本体概念获取方法,综合统计、中文分词等技术半自动地提取领域概念,并以领域一致度、领域相关度等统计方法筛选提取的概念。在提取概念关系方面,本文重点研究以语境模式的方法提取概念间关系。本文对语境模式进行了较深入的研究,提出单句模式、多句模式和段模式三种不同的语境模式。另外,对语境模式的半自动生成作初步的研究,并提出了若干算法。最后,本文实现了一个中文本体学习系统用以试验本文提出的方法的可行性。