学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
从WEB文档中构造半结构化信息的抽取器
被引:42
作者
:
黄豫清
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学多媒体计算机研究所!南京
黄豫清
戚广志
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学多媒体计算机研究所!南京
戚广志
论文数:
引用数:
h-index:
机构:
张福炎
机构
:
[1]
南京大学多媒体计算机研究所!南京
来源
:
软件学报
|
2000年
/ 01期
关键词
:
启发式规则;
数据抽取格式;
对象交换模型;
D O I
:
10.13328/j.cnki.jos.2000.01.009
中图分类号
:
TP311 [程序设计、软件工程];
学科分类号
:
081202 ;
0835 ;
摘要
:
为了对 WEB上不规则的、动态的信息按照数据库的方式集成和查询 ,采用对象交换模型 (object ex-change model,简称 OEM)建立了 WEB信息模型 .为了将页面中各个部分表示为对应的 OEM对象 ,设计了半结构化信息的抽取算法 ,并给出测试结果 .该方法可以抽取结构化和半结构化的信息 ,比现有的抽取方法通用性更强 .
引用
收藏
页码:73 / 78
页数:6
相关论文
共 1 条
[1]
Wrapper generation for semi-structured Internet sources[J] . Naveen Ashish,Craig A. Knoblock.ACM SIGMOD Record . 1997 (4)
←
1
→
共 1 条
[1]
Wrapper generation for semi-structured Internet sources[J] . Naveen Ashish,Craig A. Knoblock.ACM SIGMOD Record . 1997 (4)
←
1
→