搜索引擎作为获取因特网上海量信息的重要手段,是信息检索领域重要的研究课题,随着信息技术的不断发展,因特网上的信息量也与日剧增,内容庞大,组织松散。因此如何优化搜索引擎在该领域备受关注。垂直搜索引擎作为针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,通用搜索引擎的性质决定了其不能满足特殊领域,特殊人群的精确化信息需求服务。本文研究了本体和垂直搜索引擎技术,提出了一种基于本体的语义垂直搜索引擎,建立了语义查询扩展方法,并对Lucene原有结果排序算法进行优化。
本文研究了垂直搜搜引擎的基本概念和设计理论,本体相关知识以及其在信息检索方面的应用,分析了国内外搜索引擎的现状以及存在的不足,以及本体技术与垂直搜索引擎相结合的意义和必要性。在对目前主要的本体构建方法进行分析比较后,选用Protege3.4.5作为构建本体的编辑工具,OWL作为本体描述语言建立了一个数码产品领域本体。运用数码产品领域本体将用户的查询请求划分为本体类概念,本体实例,本体属性和普通查询,着重研究了本体实例和普通查询的扩展方法,对于本体实例从继承关联和路径关联两个方面进行扩展,对于普通查询采用基于词语共现的语义查询扩展方法,提出了一种基于本体适合垂直搜索引擎的语义查询扩展算法。为了克服Lucene原有结果排序算法只考虑关键词和网页相关度不能反映网页本身重要程度的缺点,提出引入基于链接分析的PageRank算法对其进行优化。
最后实现了基于本体的语义垂直搜索引擎原型DPOVSE,设计了相关实验,并与原有的查询方式和排序算法进行了实验对比分析。实验结果分析表明本文的研究内容可提高搜索引擎的查准率。