共 1 条
基于样本实例的Web信息抽取
被引:21
作者:
张绍华
徐林昊
杨文柱
薛文玲
李天柱
机构:
[1] 河北大学数学与计算机学院
[2] 河北大学数学与计算机学院 河北保定
[3] 河北保定
来源:
关键词:
HTML;
模式;
抽取器;
信息抽取;
Web查询;
D O I:
暂无
中图分类号:
TP393 [计算机网络];
学科分类号:
081201 ;
1201 ;
摘要:
主要研究了基于HTML文档的信息抽取 ,提出了一种基于样本实例的Web信息抽取的方法 .用户首先选定样本页面和预先定义模式 (基于O -R模型 ) ,然后对样本页面和其中的样本记录进行标记、学习 ,形成信息抽取规则 ,并存入知识库 ;利用知识库对其他同类页面自动抽取所需的信息 ,存入数据库中 .本方法可用于Web查询 ,也可用于信息集成的包装器 .
引用
收藏
页码:431 / 437
页数:7
相关论文