基于样本实例的Web信息抽取

被引:21
作者
张绍华
徐林昊
杨文柱
薛文玲
李天柱
机构
[1] 河北大学数学与计算机学院
[2] 河北大学数学与计算机学院 河北保定
[3] 河北保定
关键词
HTML; 模式; 抽取器; 信息抽取; Web查询;
D O I
暂无
中图分类号
TP393 [计算机网络];
学科分类号
081201 ; 1201 ;
摘要
主要研究了基于HTML文档的信息抽取 ,提出了一种基于样本实例的Web信息抽取的方法 .用户首先选定样本页面和预先定义模式 (基于O -R模型 ) ,然后对样本页面和其中的样本记录进行标记、学习 ,形成信息抽取规则 ,并存入知识库 ;利用知识库对其他同类页面自动抽取所需的信息 ,存入数据库中 .本方法可用于Web查询 ,也可用于信息集成的包装器 .
引用
收藏
页码:431 / 437
页数:7
相关论文
共 1 条
[1]   从WEB文档中构造半结构化信息的抽取器 [J].
黄豫清 ;
戚广志 ;
张福炎 .
软件学报, 2000, (01) :73-78