垂直搜索引擎中网络蜘蛛的设计与实现

被引:0
作者
薛建春
机构
[1] 中国地质大学(北京)
关键词
搜索引擎; 网络蜘蛛; 信息采集; 搜索策略;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
随着Internet的迅速发展,网络成为当今世界最大的信息库,它为信息共享和资源共享提供了一个良好的平台。然而大量的网页资源和网页的动态特性要求信息搜索系统不断升级,同时人们对获取信息的时效性、针对性、准确性等方面有了新的要求。因此基于各专业的搜索系统也应运而生。如何能更快速、更准确的得到网络中的有用信息资源是网络用户面临的一个重要问题,而搜索引擎技术恰好能解决此难题。搜索引擎主要由搜索器、索引器、检索器和用户接口四部分组成。搜索器旨在研究开发出一个智能化的搜索软件,自动的在网络中的网页上爬行,进行信息的发现和抽取,建立本地的索引数据库,向用户提供查询服务。垂直搜索引擎是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎与传统的网页搜索引擎最大的区别就是将网页中的信息进行结构化的提取。使得信息在提取的时候就建立了分类,更好的适应查询需求。 本文从研究和设计的角度对WWW搜索引擎的相关技术作了详细的分析和讨论,论述了目前搜索引擎的国内外发展现状和发展趋势。分析了搜索引擎的工作原理及其各部分主要功能,抓住如何评价页面的主题相关性和设计高效的爬行策略这两个关键问题,提出一个基于图书专业的定题搜索器,它是垂直搜索引擎的核心。在文章的主体部分,以搜索引擎的设计流程为主线,从HTML页面解析的一般概念入手,结合网页之间的超链接分析(HITS算法),按照搜索引擎系统的要求,采用深度优先的搜索策略设计一个适合中小型网站专业网页信息获取的网络蜘蛛,并给出此网络蜘蛛的爬行算法,使用C++ Builder工具实现程序。另外,为了保证数据库中的信息不重复,还设计了一个专门用于数据查重的程序以保证资源准确。在此基础上采用数据库索引和检索工具Lucene相结合的方法建立索引、为检索结果排序。保证为用户提供更加准确的信息,更好的满足用户的检索要求。这种搜索方法对其他的专业搜索引擎系统的建立具有指导意义。 最后的软件功能测试表明,此Spider程序算法准确、稳定、不会引起本地资源耗尽;它支持按指定站点搜索,按给定Url范围进行搜索的搜索策略。可以完成指定信息的自动搜索和下载。
引用
收藏
页数:70
共 9 条
[1]
分布式多搜索引擎系统的研究与实现 [J].
陈旭春 ;
赵明生 .
微计算机信息, 2005, (20) :37-38+129
[2]
用有向图法解决网页爬行中循环链接问题 [J].
赫枫龄 ;
左万利 .
吉林大学学报(理学版), 2004, (03) :402-404
[3]
智能化网页资源收集工具的设计与实现 [J].
康平波 ;
田永鸿 ;
黄铁军 .
计算机工程, 2004, (04) :88-89+92
[4]
搜索引擎的性能评价 [J].
马彪 ;
李恒 .
新世纪图书馆, 2003, (06) :41-44
[5]
搜索引擎的定性、定量评价研究与合理选择 [J].
徐群岭 .
情报杂志, 2003, (03) :32-33
[6]
搜索引擎Robot技术实现的原理分析 [J].
洪光宗 ;
王皓 .
现代图书情报技术, 2002, (01) :48-50
[7]
中文搜索引擎的原理剖析及开发实现技术 [J].
李志蜀 ;
李果 .
计算机应用研究, 2001, (11) :96-99
[8]
汉语自动分词方法 [J].
殷建平 .
计算机工程与科学, 1998, (03)
[9]
汉语自动分词中的神经网络技术研究 [J].
林亚平 ;
李彦 ;
童调生 ;
尹锋 .
湖南大学学报(自然科学版), 1997, (06)