基于WEB挖掘的网络蜘蛛的研究与实现

被引:0
作者
詹晶晶
机构
[1] 厦门大学
关键词
Web挖掘; 网络蜘蛛; 搜索引擎;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
搜索引擎是从WWW上快速而有效地获取信息资源的捷径,而网络蜘蛛技术则是搜索引擎的关键。本文围绕WEB信息挖掘这一前沿性研究领域课题,结合搜索引擎框架的总体要求,实现了网络蜘蛛在互联网中的漫游,并将网页数据存储在本地数据库中,为以后网页搜索引擎的实现打下了良好的基础。 本文首先从搜索引擎的分类和组成出发,对搜索引擎的内部运行机制进行了了初步的了解,然后详细分析了网络蜘蛛技术实现的功能和搜索的策略。最后本文实现了一个网络蜘蛛在网络中的漫游,并能将网页数据存储在本地数据库中。 研究内容主要包含: 首先分析搜索引擎的工作原理,实现搜索引擎工作中的第一步一从互联网上抓取网页。其次详细阐述和分析了所用到的技术,特别是本文实现中所用到的HTTP协议、正则表达式、多线程和ADO.NET等技术。在已有网络蜘蛛技术的基础上,对网络蜘蛛的系统进行分析和设计,采用广度优先的搜索策略,结合多线程机制,实现了对内网和外网页面的抓取和页面内容分析的算法。 本文的创新点在于,首先,把正则表达式技术应用到WEB网页内容提取里面,快速有效地提取网页中的URL,实现了对内网和外网页面的抓取和页面内容分析的算法。最后使用Zlib数据压缩算法对网页数据进行压缩并存入本地数据库。其次,在读取网页信息模块的设计中,为了提高网页获取的速度,采用了一个特殊的错误URL处理策略,即通过服务器的响应时间来取决函数是否返回HTTP页面,把超时的URL放入错误队列,等待错误处理进程的处理。会使蜘蛛根据网络状况来快速处理服务器响应时间快的URL,从而提高蜘蛛的整体速度。 然后,通过在校园网上进行实验,并且读取存储在数据库中的网页数据,验证了该网络蜘蛛的可行性,证明系统己达到了预期的目标。 最后,对本课题下一步的主要工作内容进行系统的总结并做出简单的展望。
引用
收藏
页数:67
共 7 条
[1]
Web文本挖掘技术 [J].
郭庚麒 .
计算机与网络, 2004, (Z1) :114-116
[2]
Web挖掘研究 [J].
韩家炜 ;
孟小峰 ;
王静 ;
李盛恩 .
计算机研究与发展, 2001, (04) :405-414
[3]
一个应用模糊方法的智能搜索引擎的构建 [J].
罗三定 ;
黄勇 .
计算机工程, 2000, (12) :113-115
[4]
从WEB文档中构造半结构化信息的抽取器 [J].
黄豫清 ;
戚广志 ;
张福炎 .
软件学报, 2000, (01) :73-78
[5]
基于WWW的文本信息挖掘 [J].
邹涛 ;
黄源 ;
张福炎 .
情报学报, 1999, (04) :289-293
[6]
...http://www.9238.net/searchengine.htm.,
[7]
Authoritative sources in a hyperlinked environment [J].
Kleinberg, JM .
JOURNAL OF THE ACM, 1999, 46 (05) :604-632