主题爬虫搜索策略研究

被引:0
作者
陈丛丛
机构
[1] 山东大学
关键词
主题搜索引擎; 爬行策略; 爬行算法; 内容分析; 链接分析;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
随着Web多元化信息的增长,传统的搜索引擎,即通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,以提供数据更全面精确、时间复杂度更低的因特网搜索服务。 在主题搜索引擎中,网络蜘蛛以何种搜索策略访问Web,以提高效率,是近年来主题搜索引擎研究中的热点问题之一。Web的动态性、异构性和复杂性要求网络蜘蛛能够高效率地实现Web链接信息抓取。 首先,本文基于现阶段国内外网络爬虫的研究进展,在分析和比较现有主题网络爬虫搜索策略的优缺点的基础上,探讨了网络爬虫主题价值预测的准确性、重要性。 其次,作为主题网络蜘蛛搜索策略的核心部分,本文对主题信息的表示和主题相关性判断算法做了详细介绍。对于网页的主题相关性判别,使用目前较为常用的向量空间模型进行判别。 再次,本文提出了HITS改进算法Topic-HITS,把主题特征加入到HITS算法中,网页的链接结构从主题这个更细化的粒度进行链接分析,针对每一个页面,引入主题权威值向量,并进一步讨论了网站级别的权威值和中心值向量计算公式。 最后,为了提高网络爬虫的自适应性,本文针对传统网络爬虫存在的价值评价标准单一的问题,提出了一种基于综合价值的综合爬行策略,此策略根据不同的搜索阶段选择采用符合实际情况的最优搜索策略。本研究采用改进的HITS算法和自行设计的综合爬行策略相结合,实现了一个基于多种搜索策略的主题搜索引擎网络爬虫系统原型。实验结果表明,在此系统上不仅能够准确、自动地爬行到主题相关网页,而且还可节约网络带宽,具有良好的稳定性。
引用
收藏
页数:69
共 31 条
[1]
A basis for information retrieval in context [J].
Melucci, Massimo .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2008, 26 (03)
[2]
Interpreting TF-IDF term weights as making relevance decisions [J].
Wu, Ho Chung ;
Luk, Robert Wing Pong ;
Wong, Kam Fai ;
Kwok, Kui Lam .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2008, 26 (03)
[3]
Automatic classification of Web queries using very large unlabeled query logs [J].
Beitzel, Steven M. ;
Jensen, Eric C. ;
Lewis, David D. ;
Chowdhury, Abdur ;
Frieder, Ophir .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2007, 25 (02)
[4]
Interest-based personalized search [J].
Zhongming, M. A. ;
Pant, Gautam ;
Sheng, Olivia R. Liu .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2007, 25 (01)
[5]
Evaluating implicit feedback models using searcher simulations [J].
White, RW ;
Ruthven, I ;
Jose, JM ;
Van Rijsbergen, CJ .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2005, 23 (03) :325-361
[6]
The anatomy of a large-scale hypertextual Web search engine.[J].Sergey Brin;Lawrence Page.Computer Networks and ISDN Systems.1998, 1
[7]
基于PageRank的页面排序改进算法 [J].
王冬 ;
雷景生 ;
李壮 .
计算机工程与设计, 2008, (22) :5921-5923+5927
[8]
基于搜索引擎调用的主题搜索设计与实现 [J].
陈财森 ;
王韬 ;
郑伟 ;
陈建泗 .
计算机工程与设计, 2008, (21) :5627-5629
[9]
基于VSM的文本相似度计算的研究 [J].
郭庆琳 ;
李艳梅 ;
唐琦 .
计算机应用研究, 2008, (11) :3256-3258
[10]
搜索引擎PageRank算法研究 [J].
蔡建超 ;
蔡明 .
计算机应用与软件, 2008, (09) :59-60+82