基于正则表达式批量提取CNKI文献元数据技术探究

被引:3
作者
曹俊 [1 ,2 ]
万晓云 [2 ]
廖顺宝 [1 ,2 ]
机构
[1] 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室
[2] 中国科学院研究生院
关键词
CNKI; 元数据; 正则表达式; 批量提取;
D O I
暂无
中图分类号
G353 [情报资料的处理];
学科分类号
1205 ;
摘要
介绍一种仅仅依靠中国知网文献磁盘文件提取元数据的方法。根据已下载的CNKI文献提取元数据,构建个人文献信息数据库,进而能建立个人文献信息管理系统。虽然CNKI文献库没有提供外界的数据库访问接口,但是文献的元数据都以web页面的方式展现。通过分析与文献绑定的属性页面的结构,利用正则表达式提取文献元数据,可以将其批量导入到数据库中。
引用
收藏
页码:111 / 114
页数:4
相关论文
共 5 条
[1]   C#中利用正则表达式提高数据录入效率 [J].
张雪冰 ;
韦璐 .
安徽建筑工业学院学报(自然科学版), 2007, (06) :92-94
[2]   基于正则式的CNKI网页全自动包装器 [J].
胡立辉 ;
张健 ;
陈曦 .
长沙理工大学学报(自然科学版), 2006, (02) :58-63
[3]   应用正则式抽取Google网页内容 [J].
张健 ;
欧红 .
现代图书情报技术, 2005, (09) :50-53
[4]   数据库技术发展趋势 [J].
孟小峰 ;
周龙骧 ;
王珊 .
软件学报, 2004, (12) :1822-1836
[5]   Web内容抽取及其数据管理方法 [J].
张成洪 ;
肖军建 ;
张诚 .
复旦学报(自然科学版), 2001, (02) :177-183