基于HTML模式代数的Web信息提取方法

被引：17

作者：

李石君 ^{[1
]}

于俊清 ^{[2
]}

欧伟杰 ^{[1
]}

机构：

[1] 武汉大学计算机学院

[2] 华中科技大学计算机科学与技术学院

来源：

计算机研究与发展 | 2006年 / 09期

关键词：

Web信息提取; 包装器归纳学习; Web挖掘;

D O I：

暂无

中图分类号：

TP312.2 [];

学科分类号：

摘要：

高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集,再由多个模式组成的一致模式集提取数据,适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的表结构网页和层次结构网页,其有效性在原型系统中通过实验得到验证.

引用

页码：1644 / 1650

页数：7

共 6 条

[1]

基于对象代理模型的工作流视图实现 [J].