共 14 条
行业动态信息采集系统关键问题解决方案
被引:2
作者:
黎柯
蔡永香
干佳林
王居远
杨鼎
胡森勇
机构:
[1] 长江大学地球科学学院
来源:
关键词:
Heritrix和Lucene;
信息爬取;
网页清洗;
全文检索;
D O I:
10.16251/j.cnki.1009-2307.2016.03.032
中图分类号:
TP391.3 [检索机];
P208 [测绘数据库与信息系统];
学科分类号:
070503 ;
081603 ;
0818 ;
081802 ;
摘要:
为了解决行业动态信息采集系统中网页定向爬取、网页清洗、信息检索等关键问题,文章提出一套基于Heritrix、Jsoup和Lucene的解决方案,并以测绘地理动态信息系统为例进行验证,结果证明该方法能够较好完成测绘地理信息的定向爬取,实现对不同风格网站网页的清洗,并建立索引提供信息检索机制,给测绘行业人士提供准确可靠的信息服务,为相关研究提供参考。
引用
收藏
页码:161 / 166
页数:6
相关论文