基于多层模式的多记录网页信息抽取方法

被引:5
作者
朱明
王军
王俊普
机构
[1] 中国科技大学自动化系
[2] 中国科技大学自动化系 合肥
[3] 合肥
基金
安徽省自然科学基金;
关键词
半结构化数据; 信息抽取; 模式识别;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
为有效解决网页信息抽取所需知识的获取问题,提出了一种基于多层模式的网页信息抽取方法(简称HPIE方法)。将网页信息抽取知识分为若干层,由抽象到具体逐层描述信息识别模式知识。HPIE方法能够利用各抽取对象之间存在的相互联系,以及抽取过程与结果所形成的新学习样本,不断完善多层模式的知识内容,并帮助最终从多个信息内容类似但其描述格式各异的HTML网页中,抽取出所需的多记录信息内容。有关多个(美国大学教员)论文目录网页的抽取实验结果表明,HPIE方法具有较强的网页信息自适应抽取能力。
引用
收藏
页码:40 / 42
页数:3
相关论文
共 3 条
[1]   从WEB文档中构造半结构化信息的抽取器 [J].
黄豫清 ;
戚广志 ;
张福炎 .
软件学报, 2000, (01) :73-78
[2]  
Wrapper induction: Efficiency and expressiveness[J] . Nicholas Kushmerick.Artificial Intelligence . 2000 (1)
[3]  
Conceptual-model-based data extraction from multiple-record Web pages[J] . D.W. Embley,D.M. Campbell,Y.S. Jiang,S.W. Liddle,D.W. Lonsdale,Y.-K. Ng,R.D. Smith.Data & Knowledge Engineering . 1999 (3)