Nave Bayes分类器制导的专业网页爬取算法

被引:3
作者
韩国辉
陈黎
梁时木
唐小棚
王亚强
于中华
机构
[1] 四川大学计算机学院
关键词
计算机应用; 中文信息处理; 搜索引擎; 专业爬虫; Nave Bayesian Classifier; 链接前后文;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Nave Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法。以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Nave Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率。
引用
收藏
页码:32 / 38+62 +62
页数:8
相关论文
共 8 条
[1]   一种基于超链接引导的主题搜索的主题敏感爬行方法 [J].
蒋宗礼 ;
徐学可 ;
李帅 .
计算机应用, 2008, (04) :942-944+950
[2]   主题搜索引擎中网络爬虫的搜索策略研究 [J].
李勇 ;
韩亮 .
计算机工程与科学, 2008, (03) :4-6+56
[3]   聚焦爬虫技术研究综述 [J].
周立柱 ;
林玲 .
计算机应用, 2005, (09) :1965-1969
[4]  
搜索引擎[M]. 科学出版社 , 李晓明, 2005
[5]  
统计自然语言处理基础[M]. 电子工业出版社 , (美)ChristopherD.Manning, 2005
[6]   Authoritative sources in a hyperlinked environment [J].
Kleinberg, JM .
JOURNAL OF THE ACM, 1999, 46 (05) :604-632
[7]  
Focused crawling: a new approach to topic-specific Web resource discovery[J] . Soumen Chakrabarti,Martin van den Berg,Byron Dom.Computer Networks . 1999 (11)
[8]  
Link Contexts in Classifier-Guided Topical Crawlers .2 Gautam Pant,Padmini Srinivasan. IEEE Transactions on Knowledge and Data Engineering . 2006