支持Gzip压缩和编码转换的网络爬虫设计

被引:2
作者
陈鹤年
季文天
王成
李俊青
机构
[1] 海南软件职业技术学院
关键词
Gzip; 编码; 网络爬虫; 搜索引擎;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
搜索引擎是互联网上最热门的基础应用之一,搜索引擎主要有三部分组成,网页抓取(Web Crawler),建立索引(Indexing)和搜索(Searching)。该文阐述了网页爬取部分爬虫的设计,并就其中两项关键技术Gzip解压和UTF-8编码进行了详细的阐述,解决了网页爬的通用型问题,并为第三部分搜索提供直接支持。
引用
收藏
页码:8485 / 8486+8497 +8497
页数:3
相关论文
共 1 条
[1]  
走进搜索引擎.[M].梁斌; 编著.电子工业出版社.2007,