HTML数据内容的抽取与集成

被引:46
作者
欧建雄
张礼平
机构
[1] 华东理工大学计算机科学与工程系,华东理工大学计算机科学与工程系上海,上海
关键词
XML; HTML; 数据抽取;
D O I
10.14135/j.cnki.1006-3080.2003.06.017
中图分类号
TP393.09 [];
学科分类号
摘要
在XML基础上,利用HTMLTidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTMLTidy提供的标准类库,净化HTML文档,借助DOM生成树对HTML元素结构做进一步分析,最后通过XSL、XPATH等自动提取转换。
引用
收藏
页码:613 / 616
页数:4
相关论文
共 3 条
[1]
多信息块Web页面的信息抽取 [J].
王庆一 ;
王继成 ;
周源远 ;
袁春风 .
计算机应用研究, 2002, (10) :23-26
[2]
一种基于内容的HTML到XML转换策略 [J].
李青山 ;
陈平 ;
不详 .
计算机工程与应用 , 2001, (09) :30-32
[3]
Web数据管理研究综述 [J].
孟小峰 .
计算机研究与发展, 2001, (04) :385-395