学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
网上表格数据到XML的自动转换
被引:10
作者
:
论文数:
引用数:
h-index:
机构:
张瑞
论文数:
引用数:
h-index:
机构:
李石君
机构
:
[1]
武汉大学计算机学院
来源
:
计算机工程与应用
|
2007年
/ 02期
关键词
:
HTML表格;
信息提取;
Web;
XML;
D O I
:
暂无
中图分类号
:
TP311.10 [];
学科分类号
:
摘要
:
互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文利用HTML表格属性,在表格中插入冗余单元,使HTML表格规范化;对没有标志表头的HTML表格,采用格式化的信息的量化值识别网上表格的表头。在此基础上,提出了通过获取表格属性与值对应的语义层次,自动转换HTML表格数据为XML文挡的新方法。
引用
收藏
页码:190 / 192
页数:3
相关论文
共 2 条
[1]
一种基于树结构的Web数据自动抽取方法
[J].
胡东东
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民大学信息学院,中国人民大学信息学院北京,北京
胡东东
;
论文数:
引用数:
h-index:
机构:
孟小峰
.
计算机研究与发展,
2004,
(10)
:1607
-1613
[2]
基于Ontology的Web内容二阶段半自动提取方法
[J].
论文数:
引用数:
h-index:
机构:
高军
;
论文数:
引用数:
h-index:
机构:
王腾蛟
;
论文数:
引用数:
h-index:
机构:
杨冬青
;
唐世渭
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学信息科学技术学院,北京大学视觉与听觉处理国家重点实验室北京,北京
唐世渭
.
计算机学报,
2004,
(03)
:310
-318
←
1
→
共 2 条
[1]
一种基于树结构的Web数据自动抽取方法
[J].
胡东东
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民大学信息学院,中国人民大学信息学院北京,北京
胡东东
;
论文数:
引用数:
h-index:
机构:
孟小峰
.
计算机研究与发展,
2004,
(10)
:1607
-1613
[2]
基于Ontology的Web内容二阶段半自动提取方法
[J].
论文数:
引用数:
h-index:
机构:
高军
;
论文数:
引用数:
h-index:
机构:
王腾蛟
;
论文数:
引用数:
h-index:
机构:
杨冬青
;
唐世渭
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学信息科学技术学院,北京大学视觉与听觉处理国家重点实验室北京,北京
唐世渭
.
计算机学报,
2004,
(03)
:310
-318
←
1
→