随着社会的发展,人们对数字信息的需求越来越强烈,信息技术面临着种种挑战,如信息的表示、知识的共享、软件的复用等等。如何对网络上的海量信息组织、管理、维护和复用并为企业用户等提供有效迅捷的服务已经成为科研领域一个广泛关注的问题。本体作为一种共享的概念化模型,已经越来越为人们所关注,并在人工智能、知识工程、语义检索等很多领域都得到广泛的应用。但手工构建本体是一件繁琐辛苦的任务,需要耗费大量的时间和资源,尤其构建领域本体还需要领域专家的参与,是本体发展的一大瓶颈。为解决该问题,人们开始尝试自动或者半自动构建本体,即本体学习。
本体学习是利用统计、机器学习、自然语言处理等技术半自动或者自动地从已有的文本、HTML文档、数据库等数据源中获得期望本体的技术,目前的研究重点在于概念以及关系的提取。传统的本体学习方法多采用基于统计的方法,而本体中概念、关系之间更多侧重的是语义聚合性,由于忽略了语义因素对抽取结果的影响,对于概念和概念间关系的提取准确性欠缺。
针对以上问题,本文提出了一种基于过滤机制的本体学习方法,采用词汇上下文构造概念向量空间模型,利用余弦法计算相似度来表示词汇之间的语义相关度。利用语义相关度对提取的概念、概念关系对进行过滤,以达到提高准确率的目的。
另外,在概念关系学习的基础上,本文对分类关系的获取方法进行了探索:采用术语包含法获取分类关系,并设置了置信度度量公式,对获取的分类关系赋予可信度度量指标。
为验证模型的有效性,本文完成了一个本体学习系统,将传统本体学习模型与基于语义过滤的本体学习进行对比实验。在对实验结果的评价中,本文引入Hownet词汇相似度计算软件,通过计算词汇之间的语义相似度来构建参照标准本体,增强了实验结果评价的客观性。实验结果表明,改进的模型能够有效的提高概念、关系的查准率,证实了基于语义过滤的本体学习模型的有效性。