本体(ontology)是一种用来描述概念以及概念和概念之间关系的模型,自提出以来就引起了国内外众多科研人员的关注,并在计算机的许多领域得到了广泛应用。作为本体应用研究的一项基础性工作——本体的构建方法,也吸引了国内外众多科研人员的关注。虽然现有本体构建工具的编辑环境已经可以满足建立本体的需求,但是完全靠人工搜集概念及概念之间的关系来构建本体,仍然是一项费时费力的工作,使得基于本体的应用难以推广。
本文将统计自然语言处理和文本挖掘等相关技术应用到领域本体的构建过程中,进行了领域本体的半自动构建的研究。通过对于领域语料库文本的处理,从语料中自动抽取领域的相关概念和概念之间的部分关系,最后通过人工校验来修正结果。在人工构建本体时,将经过校验后的机器处理所得到的结果加入到要构建的本体中,加快了本体的构建过程。
论文的结构组织如下:第一章引言;第二章介绍本体的相关概念和领域本体的构建过程;第三章讨论如何通过对领域文本的处理,提取领域中相关的概念;第四章讨论怎样从领域文本中提取概念之间的关系;第五章介绍原型系统的实现并通过对特定领域进行的实际测试,验证本文提出的各个算法的正确性;最后是总结与展望。