构造Web文档中半结构化信息的技术

被引:3
作者
黄豫清
戚广智
张福炎
机构
[1] 南京大学多媒体计算机研究所!南京
关键词
启发式规则; 数据抽取格式; OEM模型;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
为了对 Web上不规则的、动态的信息按照数据库的方式集成和查询 ,采用对象交换模型 (OEM)建立了Web上信息模型 .为了将页面中各个部分表示为对应的 OEM对象 ,设计了半结构化信息的抽取算法 ,并给出测试结果 .该方法可以抽取结构化和半结构化的信息 ,比现有的抽取方法通用性更强 .
引用
收藏
页码:230 / 234
页数:5
相关论文
共 1 条
[1]  
Wrapper generation for semi-structured Internet sources[J] . Naveen Ashish,Craig A. Knoblock.ACM SIGMOD Record . 1997 (4)