企业中的文本随着企业的不断发展而呈现爆炸式的增长,如何在海量数据中检索需要的文本是企业知识管理中的一个重要的研究课题;而本体提供对某个领域知识的共同理解,提供基于语义的知识获取和共享,因此可以借助于本体,通过定义和共享共同的领域知识来促进用户和信息服务器对领域知识的共同理解,提高知识检索的层次,以提高文本检索的查准率和查全率。
本文首先研究分析了本体的概念、分类、功能、描述语言、理论和应用研究现状,并把目前的文本信息检索技术分成了四个流派,综合分析比较了目前文本信息检索技术的原理、优缺点;然后具体研究分析了目前基于本体的信息检索方法研究的现状,针对其不足之处提出了一个基于本体的企业文本检索模型。在这个模型中,本文提出了以文本自然段作为检索对象,通过信息抽取以本体描述符来表示文本自然段和检索要求,重点研究了领域本体建设方法、本体描述符相似度的计算、文档模糊聚类分析,并在其后给出了相似度和模糊聚类分析的计算实例。