随着World Wide Web的飞速发展,其中蕴含了海量的信息可供我们利用。整个Web看似庞然无序,但按其蕴涵信息的“深度”,可以将其划分为Surface Web和Deep Web两大部分。相比Surface Web, Deep Web具有信息量更大、信息质量更好、主题更专一以及结构性更强等特点。
目前,关于Deep Web信息集成的研究越来越受到关注,而Deep Web查询结果处理技术正是这项研究的核心内容之一。从对Deep Web数据集成的现状分析可知,尽管本体很早就应用于语义Web中,但其在Deep Web数据集成系统中的实际应用效果并没有得到很好的体现。本文研究的Deep Web查询结果处理系统属于Deep Web数据集成系统的一个子系统,该系统在原有研究成果的基础上做了很大的改进,不仅把领域本体技术应用到系统中,并引入了概念模式和结果模式等计算机领域前沿技术,而且还对系统进行了科学详细的设计,把这些前沿技术合理地融入到系统中去,有效解决了异构数据之间的融合问题。论文主要的研究工作以及创新点如下:
(1)本文重点介绍了本体相关知识并分析了领域本体的组成结构,根据领域本体的构建方法,并结合旅游领域相关Web数据库的结果记录的特征,以OWL 2作为编码语言,构建了旅游领域本体。
(2)本文提出了一种基于概念模式的Deep Web查询结果处理技术,通过样本查询生成结果模式,能够对源于不同Web数据库的异构结果记录进行规范,使查询得来的数据在概念式下变得统一规范,这样使得对结果记录的合并、排序、去重以及进一步处理与利用变得十分方便。
(3)本文介绍了属性、概念以及实例的相似度计算方法,并结合本体中概念的层次特点与语义关系,对相似度计算方法进行了适当的改进,大大提高了模式匹配的准确率,从而达到提升结果融合效果的目的。
(4)本文在前人研究的基础上,对面向旅游领域的Deep Web查询结果处理系统进行详细设计和科学改进,把领域本体和结果模式等技术合理地融入到系统中去,从而大大改善了系统的性能。