垂直搜索引擎数据采集技术的研究与实现

被引:0
作者
海涛
机构
[1] 华北电力大学(北京)
关键词
垂直搜索引擎; 主题爬虫; 网络蜘蛛; PageRank;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
垂直搜索引擎是针对通用搜索引擎的信息量大、查询不准确、深度不够等问题提出来的新的搜索引擎服务模式。本文在查阅了大量的国内外文献的基础上,对垂直搜索引擎的系统结构、工作原理、搜索策略、链接去重和网页更新等关键技术和主要算法进行了深入的学习和研究。重点讨论了垂直搜索引擎数据采集系统的搜索策略和主题相关性算法,并对链接去重和网页更新等算法进行了改进,在此基础上对垂直搜索引擎进行了总体设计,设计实现了一个电子商务垂直搜索引擎的信息采集系统。实验结果表明,该系统具有较高的采集效率,采集的页面具有较好的主题相关度,达到了预期的设计目标。该系统具有较好的实用价值和应用前景。
引用
收藏
页数:50
共 14 条
[1]
基于主题的Web信息采集技术研究 [D]. 
李盛韬 .
中国科学院研究生院(计算技术研究所),
2002
[2]
Google搜索引擎的PageRank技术及其优化研究 [J].
黄知义 ;
周宁 ;
不详 .
图书馆学研究 , 2005, (08) :21-23
[3]
主题爬虫的设计与实现 [J].
汪涛 ;
樊孝忠 .
计算机应用, 2004, (S1) :270-272
[4]
一种基于非贪婪策略的网络蜘蛛搜索算法 [J].
李学勇 ;
田立军 ;
谭义红 ;
欧阳柳波 ;
李国徽 .
计算技术与自动化, 2004, (02) :35-39
[5]
两种对URL的散列效果很好的函数 [J].
李晓明 ;
凤旺森 .
软件学报, 2004, (02) :179-184
[6]
Web页面排序算法研究 [J].
郑建华 ;
赵政 .
微处理机, 2003, (05) :33-35
[7]
万维网的链接结构分析及其应用综述 [J].
王晓宇 ;
周傲英 .
软件学报, 2003, (10) :1768-1780
[8]
Web超链分析算法研究 [J].
朱炜 ;
王超 ;
李俊 ;
潘金贵 .
计算机科学, 2003, (09) :89-93+140
[9]
Google的PageRank技术剖析 [J].
曹军 .
情报杂志, 2002, (10) :15-18
[10]
自动主题搜索的应用研究 [D]. 
陈定权 .
中国科学院研究生院(文献情报中心),
2003