从WEB文档中构造半结构化信息的抽取器

被引:42
作者
黄豫清
戚广志
张福炎
机构
[1] 南京大学多媒体计算机研究所!南京
关键词
启发式规则; 数据抽取格式; 对象交换模型;
D O I
10.13328/j.cnki.jos.2000.01.009
中图分类号
TP311 [程序设计、软件工程];
学科分类号
081202 ; 0835 ;
摘要
为了对 WEB上不规则的、动态的信息按照数据库的方式集成和查询 ,采用对象交换模型 (object ex-change model,简称 OEM)建立了 WEB信息模型 .为了将页面中各个部分表示为对应的 OEM对象 ,设计了半结构化信息的抽取算法 ,并给出测试结果 .该方法可以抽取结构化和半结构化的信息 ,比现有的抽取方法通用性更强 .
引用
收藏
页码:73 / 78
页数:6
相关论文
共 1 条
[1]  
Wrapper generation for semi-structured Internet sources[J] . Naveen Ashish,Craig A. Knoblock.ACM SIGMOD Record . 1997 (4)