基于样本实例的Web信息抽取

被引：21

作者：

张绍华

徐林昊

杨文柱

薛文玲

李天柱

机构：

[1] 河北大学数学与计算机学院

[2] 河北大学数学与计算机学院河北保定

[3] 河北保定

来源：

河北大学学报(自然科学版) | 2001年 / 04期

关键词：

HTML; 模式; 抽取器; 信息抽取; Web查询;

D O I：

暂无

中图分类号：

TP393 [计算机网络];

学科分类号：

081201 ; 1201 ;

摘要：

主要研究了基于HTML文档的信息抽取 ,提出了一种基于样本实例的Web信息抽取的方法 .用户首先选定样本页面和预先定义模式 (基于O -R模型 ) ,然后对样本页面和其中的样本记录进行标记、学习 ,形成信息抽取规则 ,并存入知识库 ;利用知识库对其他同类页面自动抽取所需的信息 ,存入数据库中 .本方法可用于Web查询 ,也可用于信息集成的包装器 .

引用

页码：431 / 437

页数：7