垂直搜索引擎的抓取技术研究

被引:0
作者
刘迟
机构
[1] 浙江大学
关键词
垂直搜索; 可扩展; 隐蔽网; 时效性;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
垂直搜索引擎的概念,是针对某一特定行业领域提供有一定价值的信息和相关服务,它是搜索引擎的细分和延伸,是为用户提供符合专业用户操作行为的全新信息服务方式,本文是对垂直搜索引擎的抓取技术研究,主要关注垂直搜索引擎的抓取中所遇到的隐蔽网抓取、时效性以及性能和效率问题。 本文首先介绍了垂直搜索抓取系统的体系结构,提出了一种分布式和基于可扩展插件的垂直搜索抓取系统框架,其分布式特性和插件模式都便于将来的扩展。然后讨论了垂直搜索抓取系统中隐蔽网抓取的三个问题,并针对隐蔽网抓取中结果消重的问题提出了一种自学习的中文地址判重方法;接下来针对垂直搜索的时效性问题提出了一种基于查询驱动的实时抓取方式;讨论了并比较了影响垂直搜索抓取系统的抓取模式、抓取策略和抓取频率,在本文的系统中采用了稳定持续模式、及时替换式更新、实时抓取与固定频率相结合的方式。 本文最后进行了关于判重问题和时效性问题实验,通过实验,证明了本文提出的方法在应用中能获得更好的效果和用户体验。
引用
收藏
页数:74
共 8 条
[1]
Deep Web查询接口的自动判定 [J].
高岭 ;
赵朋朋 ;
崔志明 .
计算机技术与发展, 2007, (05) :148-151
[2]
领域相关的Web网站抓取方法 [J].
李刚 ;
周立柱 ;
郭奇 ;
林玲 .
计算机科学, 2007, (02) :137-140+148
[3]
聚焦爬虫技术研究综述 [J].
周立柱 ;
林玲 .
计算机应用, 2005, (09) :1965-1969
[4]
主题爬虫的解决方案 [J].
刘林 ;
汪涛 ;
樊孝忠 .
华南理工大学学报(自然科学版), 2004, (自然科学版) :137-141
[5]
Invisible Web研究综述 [J].
黄晓冬 .
情报科学 , 2004, (09) :1144-1148
[6]
分布式Web Crawler的研究:结构、算法和策略 [J].
叶允明 ;
于水 ;
马范援 ;
宋晖 ;
张岭 .
电子学报, 2002, (S1) :2008-2011
[7]
Dynamics of Bid Optimization in Online Advertisement Auctions..Christian Borgs;Jennifer Chayes;Omid Etesami;Nicole Immorlica;Kamal Jain;Mohammad Mahdian;.WWW 2007.,
[8]
Discussing aspects of AOP [J].
Elrad, T ;
Aksit, M ;
Kiczales, G ;
Lieberherr, K ;
Ossher, H .
COMMUNICATIONS OF THE ACM, 2001, 44 (10) :33-38