共 4 条
基于Heritrix的网络学术文献获取研究
被引:2
作者:
白如江
王效岳
亢丽芸
机构:
[1] 山东理工大学科技信息研究所
来源:
关键词:
Heritrix;
学术文献;
文件格式;
PDF;
文档抓取;
D O I:
暂无
中图分类号:
G250.73 [网络资源开发与利用];
学科分类号:
1205 ;
120501 ;
摘要:
通过分析研究网络学术文献的主要来源、常用文件格式及Heritrix的工作原理,制定基于Heritrix的网络学术文献获取方案,从种子站点选择或抓取任务配置、文件类型和大小过滤以及学术文献判定等方面对整体方案进行具体设计和分析,并搭建实验平台,编写相关程序进行实验以验证该方案的可行性,最后指出后续研究方向。
引用
收藏
页码:99 / 104+108
+108
页数:7
相关论文