随着Internet网上的知识呈几何级数式的增长,搜索引擎作为一个查询用户所需信息的工具,其作用性越来越受到人们的重视;目前,一个优秀的搜索引擎能够大大地提高一个网站的点击率,搜索引擎已经成为一个网站的门户。简单地讲:搜索引擎通过一个称之为“网络蜘蛛”的程序,将网页上的内容按一定的方式存放在自己的数据库里,并昼夜不停地维护、更新着该数据库,当用户提交查询时,就从自己的数据库中找出与该关键字信息,并返回给用户。
与其它的技术一样,搜索引擎的发展也离不开对其理论基础的研究。本文在对检索模型分析的基础上,重点对当前流行的搜索引擎中的几大技术(知识库的建立、中文切分、自动文摘的生成、检索结果的排序、多级智能检索代理的实现)的原理、实现进行了分析和探讨;
目前,全文本搜索技术作为一种比较成熟的技术,其查全率方面已经做得比较好,但它的查询精度确有待进一步提高,究其原因是:“中文切分”和“自动文摘的生成”这二项技术有待突破,本文中,对“中文切分”提出了切分算法加局部调整技术,对“自动文摘的生成”提出了“概念化的文档摘要”,以期能够起到抛砖引玉的作用。
智能化是搜索引擎的发展方向,当前,这方向的研究还处于起步、探索阶段,某些方面在理论上还需要有所突破,本文最后一章对搜索引擎将来的发展方向进行了展望。