基于HTML模式代数的Web信息提取方法

被引:17
作者
李石君 [1 ]
于俊清 [2 ]
欧伟杰 [1 ]
机构
[1] 武汉大学计算机学院
[2] 华中科技大学计算机科学与技术学院
关键词
Web信息提取; 包装器归纳学习; Web挖掘;
D O I
暂无
中图分类号
TP312.2 [];
学科分类号
摘要
高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集,再由多个模式组成的一致模式集提取数据,适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的表结构网页和层次结构网页,其有效性在原型系统中通过实验得到验证.
引用
收藏
页码:1644 / 1650
页数:7
相关论文
共 6 条
[1]
基于对象代理模型的工作流视图实现 [J].
彭智勇 ;
罗义 ;
单喆 ;
李青 .
计算机学报, 2005, (04) :651-660
[2]
一种基于树结构的Web数据自动抽取方法 [J].
胡东东 ;
孟小峰 .
计算机研究与发展, 2004, (10) :1607-1613
[3]
基于Ontology的Web内容二阶段半自动提取方法 [J].
高军 ;
王腾蛟 ;
杨冬青 ;
唐世渭 .
计算机学报, 2004, (03) :310-318
[4]
XML数据的路径表达式查询优化技术 [J].
吕建华 ;
王国仁 ;
于戈 .
软件学报, 2003, (09) :1615-1620
[5]
基于DOM的Web信息提取 [J].
李效东 ;
顾毓清 .
计算机学报, 2002, (05) :526-533
[6]
从WEB文档中构造半结构化信息的抽取器 [J].
黄豫清 ;
戚广志 ;
张福炎 .
软件学报, 2000, (01) :73-78