随着互联网的迅猛发展和Web 信息资源的迅速膨胀,搜索引擎已成为Web上不可缺少的工具。本文围绕基于语义的中文搜索引擎的关键技术,重点研究了网络中站点爬行、检索、中文分词和概念检索技术及其在搜索引擎中的应用。
本文在介绍了搜索引擎的发展现状的基础上,首先,研究了搜索引擎的整体结构,并介绍了各种检索功能及特点。其次,概要分析了语义万维网――人工智能领域和web技术相互结合的产物,语义web的组成框架。然后,使系统加入概念检索能力,即扩大同义扩展检索和相关概念联想检索功能,前者能够提高检索的召回率,而后者能够加强系统与人的交互。最后,在详细分析站点爬行中使用的HTTP 协议的基础上递归搜集网页,使普通web页面利用概念检索达到语义万维网的类似效果,并且能够协同语义网的搜索,从而提高搜索引擎的工作效率,实现基于语义的中文搜索引擎。