网上表格数据到XML的自动转换

被引:10
作者
张瑞
李石君
机构
[1] 武汉大学计算机学院
关键词
HTML表格; 信息提取; Web; XML;
D O I
暂无
中图分类号
TP311.10 [];
学科分类号
摘要
互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文利用HTML表格属性,在表格中插入冗余单元,使HTML表格规范化;对没有标志表头的HTML表格,采用格式化的信息的量化值识别网上表格的表头。在此基础上,提出了通过获取表格属性与值对应的语义层次,自动转换HTML表格数据为XML文挡的新方法。
引用
收藏
页码:190 / 192
页数:3
相关论文
共 2 条
[1]
一种基于树结构的Web数据自动抽取方法 [J].
胡东东 ;
孟小峰 .
计算机研究与发展, 2004, (10) :1607-1613
[2]
基于Ontology的Web内容二阶段半自动提取方法 [J].
高军 ;
王腾蛟 ;
杨冬青 ;
唐世渭 .
计算机学报, 2004, (03) :310-318