HTML数据内容的抽取与集成

被引：46

作者：

欧建雄

张礼平

机构：

[1] 华东理工大学计算机科学与工程系,华东理工大学计算机科学与工程系上海,上海

来源：

关键词：

XML; HTML; 数据抽取;

D O I：

10.14135/j.cnki.1006-3080.2003.06.017

中图分类号：

TP393.09 [];

学科分类号：

摘要：

在XML基础上,利用HTMLTidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTMLTidy提供的标准类库,净化HTML文档,借助DOM生成树对HTML元素结构做进一步分析,最后通过XSL、XPATH等自动提取转换。

引用

页码：613 / 616

页数：4