一种基于XML的Web数据抽取的实现

被引：3

作者：

李雪竹

机构：

[1] 合肥工业大学计算机与信息学院

来源：

科学技术与工程 | 2008年 / 09期

关键词：

XML标记语言; HTML; Web挖掘; 数据抽取;

D O I：

暂无

中图分类号：

TP311.11 [];

学科分类号：

081202 ; 0835 ;

摘要：

Web数据挖掘的研究越来越广泛,对Web数据的抽取则是研究的前提和必要的步骤。而当前Web信息大多数都是HTML格式的,存在很多缺陷。针对目前研究,简单地介绍了XML及它的特点,并且对HTMLandXML从开放性、可操作性等几个方面做了比较,显示出了XML的优越性。最后利用一个实例简述了基于XML的数据抽取过程。

引用

页码：2473 / 2476

页数：4