学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
HTML数据内容的抽取与集成
被引:46
作者
:
欧建雄
论文数:
0
引用数:
0
h-index:
0
机构:
华东理工大学计算机科学与工程系,华东理工大学计算机科学与工程系上海,上海
欧建雄
论文数:
引用数:
h-index:
机构:
张礼平
机构
:
[1]
华东理工大学计算机科学与工程系,华东理工大学计算机科学与工程系上海,上海
来源
:
华东理工大学学报
|
2003年
/ 06期
关键词
:
XML;
HTML;
数据抽取;
D O I
:
10.14135/j.cnki.1006-3080.2003.06.017
中图分类号
:
TP393.09 [];
学科分类号
:
摘要
:
在XML基础上,利用HTMLTidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTMLTidy提供的标准类库,净化HTML文档,借助DOM生成树对HTML元素结构做进一步分析,最后通过XSL、XPATH等自动提取转换。
引用
收藏
页码:613 / 616
页数:4
相关论文
共 3 条
[1]
多信息块Web页面的信息抽取
[J].
王庆一
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室 江苏南京
王庆一
;
王继成
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室 江苏南京
王继成
;
周源远
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室 江苏南京
周源远
;
袁春风
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室 江苏南京
袁春风
.
计算机应用研究,
2002,
(10)
:23
-26
[2]
一种基于内容的HTML到XML转换策略
[J].
论文数:
引用数:
h-index:
机构:
李青山
;
论文数:
引用数:
h-index:
机构:
陈平
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学软件工程研究所! 西安
不详
.
计算机工程与应用 ,
2001,
(09)
:30
-32
[3]
Web数据管理研究综述
[J].
论文数:
引用数:
h-index:
机构:
孟小峰
.
计算机研究与发展,
2001,
(04)
:385
-395
←
1
→
共 3 条
[1]
多信息块Web页面的信息抽取
[J].
王庆一
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室 江苏南京
王庆一
;
王继成
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室 江苏南京
王继成
;
周源远
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室 江苏南京
周源远
;
袁春风
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室,南京大学软件新技术国家重点实验室 江苏南京
袁春风
.
计算机应用研究,
2002,
(10)
:23
-26
[2]
一种基于内容的HTML到XML转换策略
[J].
论文数:
引用数:
h-index:
机构:
李青山
;
论文数:
引用数:
h-index:
机构:
陈平
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学软件工程研究所! 西安
不详
.
计算机工程与应用 ,
2001,
(09)
:30
-32
[3]
Web数据管理研究综述
[J].
论文数:
引用数:
h-index:
机构:
孟小峰
.
计算机研究与发展,
2001,
(04)
:385
-395
←
1
→