主题爬虫设计与实现

被引:7
作者
郭世龙
王晨升
机构
[1] 北京邮电大学自动化学院
关键词
主题爬虫; 文本相似度; 特征提取; 文本排重;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
海量网页的存在及其数量的急速增长使得通用搜索引擎难以满足面向主题或领域的用户需求。本文研究的主题爬虫致力于收集主题相关信息,达到极大降低网页处理量的目的,本文给出了主题爬虫中url处理、文本信息处理、文本特征训练等全部设计流程。实验结果充分论证了其可行性与实用性,为进行主题搜索引擎设计和个性化推荐系统设计提供相关主题信息采集的良好基础。
引用
收藏
页码:107 / 109
页数:3
相关论文
共 8 条
[1]   主题爬虫的解决方案 [J].
刘林 ;
汪涛 ;
樊孝忠 .
华南理工大学学报(自然科学版), 2004, (S1) :137-141
[2]  
A cross-language focused crawling algorithm based on multiple relevance prediction strategies[J] . Zhumin Chen,Jun Ma,Jingsheng Lei,Bo Yuan,Li Lian,Ling Song. &nbspComputers and Mathematics with Applications . 2008 (6)
[3]  
Topic-specific crawling on the Web with the measurements of the relevancy context graph[J] . Ching-Chi Hsu,Fan Wu. &nbspInformation Systems . 2005 (4)
[4]  
Learnable topic-specific web crawler[J] . A. Rungsawang,N. Angkawattanawit. &nbspJournal of Network and Computer Applications . 2004 (2)
[5]  
Focused crawling: a new approach to topic-specific Web resource discovery[J] . Soumen Chakrabarti,Martin van den Berg,Byron Dom. &nbspComputer Networks . 1999 (11)
[6]   复杂信息系统结构脆弱性分析方法研究 [J].
韩丹 ;
郭燕慧 ;
杨义先 .
新型工业化, 2012, 2 (10) :35-41
[7]   一种基于语义分析的主题爬虫算法 [J].
蒋宗礼 ;
田晓燕 ;
赵旭 .
计算机工程与科学, 2010, 32 (09) :145-147+151
[8]   基于概念分析的主题爬虫设计 [J].
汪涛 ;
樊孝忠 ;
顾益军 ;
刘林 .
北京理工大学学报, 2004, (10) :890-893