基于Heritrix的网络学术文献获取研究

被引:2
作者
白如江
王效岳
亢丽芸
机构
[1] 山东理工大学科技信息研究所
关键词
Heritrix; 学术文献; 文件格式; PDF; 文档抓取;
D O I
暂无
中图分类号
G250.73 [网络资源开发与利用];
学科分类号
1205 ; 120501 ;
摘要
通过分析研究网络学术文献的主要来源、常用文件格式及Heritrix的工作原理,制定基于Heritrix的网络学术文献获取方案,从种子站点选择或抓取任务配置、文件类型和大小过滤以及学术文献判定等方面对整体方案进行具体设计和分析,并搭建实验平台,编写相关程序进行实验以验证该方案的可行性,最后指出后续研究方向。
引用
收藏
页码:99 / 104+108 +108
页数:7
相关论文
共 4 条
[1]   综合搜索引擎与垂直搜索引擎的比较研究 [J].
刘畅 .
情报科学, 2007, (01) :97-102
[2]   获取图书情报类外文免费网络学术资源的十大途径 [J].
吴娟仙 .
图书馆建设, 2006, (05) :91-94
[3]   开放存取出版的两种主要实现途径 [J].
李武 .
大学图书馆学报, 2005, (04) :58-63
[4]   网络学术资源全文文件格式比较分析 [J].
高淑琴 .
图书馆界, 2004, (02) :28-33