随着网络和信息技术的飞速发展,搜索引擎作为主要的互联网信息检索工具,使用频率变得越来越高。在网络用户想要精确查找所需的信息过程中,用户的检索目标并不是很明确,然而现有的大多数传统的搜索引擎采用基于关键字匹配的检索技术,返回的检索结果中出现许多无关信息和漏检的情况,查全率和查准率较低。如何提高搜索引擎的语义处理能力,准确的理解用户的检索目的成为了研究的一个热点和难点
词语的语义相关度表示两个词语间相互关联的程度,侧重于反映词语间的组合特点而不是聚合特点。词语语义相关度的研究已经广泛的运用于自然语言处理领域,在信息检索中的歧义消除,查询扩展,提高信息检索的正确率和召回率等方面都有着重要的应用价值。在搜索引擎检索技术中引入词语语义相关度目的是为了提高搜索引擎的语义处理能力,从而提高搜索引擎的智能性以及检索效率。
本文以旅游领域为背景,在基于旅游本体的旅游信息搜索引擎基础上,将领域本体中基于概念格的词语语义相关度计算应用到检索技术中,使得搜索引擎通过对语义的理解以及词语相关度计算将一些在语法上无关而在语义上相关的关键词推荐给用户,为用户明确检索目的提供参考。实现了该引擎中的相关搜索功能。
本文所完成的主要工作有:
(1)介绍本体的基础知识,将领域本体引入到搜索引擎中。重点介绍和分析领域本体的组成结构、OWL2本体描述语言以及本体的构建方法。结合Web旅游信息的特点,根据搜索引擎的设计需求采用本体构建工具Protege按照七步法构建了一个旅游资源本体。
(2)研究了汉语词语语义相关度及其算法,分析了语义相关度计算的实现及引用。
(3)提出了一种在领域本体中基于概念格的语义相关度计算方法,该方法利用领域本体在知识描述、语义关系及其推理机制的优势和概念格对知识进行聚类的结构特点。通过实验证明,该方法计算相关度是可行、有效的。
(4)将该方法应用到基于旅游本体搜索引擎系统中,为该系统提供了相关搜索功能。