学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于正则式的CNKI网页全自动包装器
被引:3
作者
:
论文数:
引用数:
h-index:
机构:
胡立辉
[
1
]
论文数:
引用数:
h-index:
机构:
张健
[
2
]
论文数:
引用数:
h-index:
机构:
陈曦
[
1
]
机构
:
[1]
长沙理工大学计算机与通信工程学院
[2]
长沙理工大学图书馆
来源
:
长沙理工大学学报(自然科学版)
|
2006年
/ 02期
关键词
:
正则式;
CNKI;
包装器;
D O I
:
暂无
中图分类号
:
TP393.092 [];
学科分类号
:
080402 ;
摘要
:
当数据源的查询和访问能力受到限制时,如何设计与实现自动化的网页包装器是一个值得研究和需要解决的问题.分析了CNK I网页的结构,描述了网页元素的标记与内容特征,给出了一组匹配CNK I网页内容的正则式,并用V isual C++实现了一个包装器.实际应用结果表明,基于正则式匹配方法的全自动包装器可以精确抽取CNK I网页的全部检索内容.
引用
收藏
页码:58 / 63
页数:6
相关论文
共 5 条
[1]
应用正则式抽取Google网页内容
[J].
论文数:
引用数:
h-index:
机构:
张健
;
欧红
论文数:
0
引用数:
0
h-index:
0
机构:
长沙理工大学图书馆,湖南图书馆长沙,长沙
欧红
.
现代图书情报技术,
2005,
(09)
:50
-53
[2]
数据库技术发展趋势
[J].
孟小峰
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民大学信息学院
孟小峰
;
周龙骧
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民大学信息学院
周龙骧
;
王珊
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民大学信息学院
王珊
.
软件学报,
2004,
(12)
:1822
-1836
[3]
CW IWSK——从半结构化中抽取信息的归纳规则方法
[J].
黄红华
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系
黄红华
;
俞勇
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系
俞勇
.
上海交通大学学报,
2003,
(03)
:424
-427
[4]
Web内容抽取及其数据管理方法
[J].
论文数:
引用数:
h-index:
机构:
张成洪
;
肖军建
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学管理学院!上海
肖军建
;
论文数:
引用数:
h-index:
机构:
张诚
.
复旦学报(自然科学版),
2001,
(02)
:177
-183
[5]
C#字符串和正则表达式参考手册.[M].[法]FrancoisLiger等著;刘乐亭译;.清华大学出版社.2003,
←
1
→
共 5 条
[1]
应用正则式抽取Google网页内容
[J].
论文数:
引用数:
h-index:
机构:
张健
;
欧红
论文数:
0
引用数:
0
h-index:
0
机构:
长沙理工大学图书馆,湖南图书馆长沙,长沙
欧红
.
现代图书情报技术,
2005,
(09)
:50
-53
[2]
数据库技术发展趋势
[J].
孟小峰
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民大学信息学院
孟小峰
;
周龙骧
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民大学信息学院
周龙骧
;
王珊
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民大学信息学院
王珊
.
软件学报,
2004,
(12)
:1822
-1836
[3]
CW IWSK——从半结构化中抽取信息的归纳规则方法
[J].
黄红华
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系
黄红华
;
俞勇
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系
俞勇
.
上海交通大学学报,
2003,
(03)
:424
-427
[4]
Web内容抽取及其数据管理方法
[J].
论文数:
引用数:
h-index:
机构:
张成洪
;
肖军建
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学管理学院!上海
肖军建
;
论文数:
引用数:
h-index:
机构:
张诚
.
复旦学报(自然科学版),
2001,
(02)
:177
-183
[5]
C#字符串和正则表达式参考手册.[M].[法]FrancoisLiger等著;刘乐亭译;.清华大学出版社.2003,
←
1
→