行业动态信息采集系统关键问题解决方案

被引:2
作者
黎柯
蔡永香
干佳林
王居远
杨鼎
胡森勇
机构
[1] 长江大学地球科学学院
关键词
Heritrix和Lucene; 信息爬取; 网页清洗; 全文检索;
D O I
10.16251/j.cnki.1009-2307.2016.03.032
中图分类号
TP391.3 [检索机]; P208 [测绘数据库与信息系统];
学科分类号
070503 ; 081603 ; 0818 ; 081802 ;
摘要
为了解决行业动态信息采集系统中网页定向爬取、网页清洗、信息检索等关键问题,文章提出一套基于Heritrix、Jsoup和Lucene的解决方案,并以测绘地理动态信息系统为例进行验证,结果证明该方法能够较好完成测绘地理信息的定向爬取,实现对不同风格网站网页的清洗,并建立索引提供信息检索机制,给测绘行业人士提供准确可靠的信息服务,为相关研究提供参考。
引用
收藏
页码:161 / 166
页数:6
相关论文
共 14 条