基于DOM的Web信息提取

被引：94

作者：

李效东

顾毓清

机构：

[1] 中国科学院软件研究所

来源：

计算机学报 | 2002年 / 05期

关键词：

归纳学习; 文档对象模型; 路径表达式; XML;

D O I：

暂无

中图分类号：

TP311.52 [];

学科分类号：

摘要：

当前 ,Web已经成为人们获取信息的主要渠道之一 .然而 ,用于表达 Web页面信息的 HTML语言存在着与生俱来的缺点 .HTML 的“标记”只是告诉浏览器软件如何显示所定义的信息 ,却不包含任何语义 .因此由HTML语言所表述的 Web页面经过浏览器分析后只适合人们浏览 ,不适合作为一种数据交换的方式由机器处理 .该文以文档对象模型 DOM为基础 ,把所要提取的信息在 DOM层次结构中的路径作为信息抽取的“坐标”,并以这个基本原理为基础设计了一种归纳学习算法来半自动地生成提取规则 ,然后根据提取规则生成 Java类 .生成的 Ja-va类可以作为 Web数据源包装器组成的重要构件 .

引用

页码：526 / 533

页数：8