基于正则式的CNKI网页全自动包装器

被引:3
作者
胡立辉 [1 ]
张健 [2 ]
陈曦 [1 ]
机构
[1] 长沙理工大学计算机与通信工程学院
[2] 长沙理工大学图书馆
关键词
正则式; CNKI; 包装器;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
当数据源的查询和访问能力受到限制时,如何设计与实现自动化的网页包装器是一个值得研究和需要解决的问题.分析了CNK I网页的结构,描述了网页元素的标记与内容特征,给出了一组匹配CNK I网页内容的正则式,并用V isual C++实现了一个包装器.实际应用结果表明,基于正则式匹配方法的全自动包装器可以精确抽取CNK I网页的全部检索内容.
引用
收藏
页码:58 / 63
页数:6
相关论文
共 5 条
[1]   应用正则式抽取Google网页内容 [J].
张健 ;
欧红 .
现代图书情报技术, 2005, (09) :50-53
[2]   数据库技术发展趋势 [J].
孟小峰 ;
周龙骧 ;
王珊 .
软件学报, 2004, (12) :1822-1836
[3]   CW IWSK——从半结构化中抽取信息的归纳规则方法 [J].
黄红华 ;
俞勇 .
上海交通大学学报, 2003, (03) :424-427
[4]   Web内容抽取及其数据管理方法 [J].
张成洪 ;
肖军建 ;
张诚 .
复旦学报(自然科学版), 2001, (02) :177-183
[5]  
C#字符串和正则表达式参考手册.[M].[法]FrancoisLiger等著;刘乐亭译;.清华大学出版社.2003,