领域本体的主干是领域概念上下位关系,即领域本体概念层级关系。目前主要是以手工的方式组织领域概念上下位关系,同时也需要领域知识工程师修改和校订,并生成领域本体主干。而因特网上存在大量领域知识文本,这些领域知识文本包含许多领域概念上下位关系,采用手工方式组织领域本体主干是费时费力的,自动构建的方式是未来的趋势和重要的研究方向。本文将从领域本体概念上下位关系的抽取、领域本体概念上下位关系的组织及在旅游领域中的应用,开展了以下几个方面的研究。
1)领域本体概念上下位关系的抽取。本文提出了一种抽取领域本体概念上下位关系的方法,是以自由文本为抽取对象,采用层叠条件随机场算法抽取领域本体概念上下位关系,低层条件随机场先识别出领域概念,把抽取的概念顺序组合,结合模板定义特征得到概念对;高层模型对成对概念进行上下位(UD)语义标注,识别出领域本体概念之间的上下位关系。
2)领域本体概念上下位关系的组织。本文提出了一种自动组织领域本体概念上下位关系的方法,该方法是以抽取网页中的概念上下位关系为目标,抽取到的概念间的上下位关系都以离散的形式呈现,将其训练成相应的模型,即概念上下位关系模型,把训练的模型与本体描述语言OWL对概念的关系描述相对应,即抽取的概念上下位关系用类与类的关系表示,最后生成了本体模型的基本主干。
3)测试系统的构建。该系统可以为本文抽取概念上下位关系提供分词、语料标注、自动处理为条件随机场(CRFs)训练格式、自动生成条件随机场(CRFs)训练的模型、自动抽取概念上下位关系、自动组织领域本体主干等技术。