学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于实例的Web信息抽取
被引:0
作者
:
张绍华
论文数:
0
引用数:
0
h-index:
0
机构:
河北大学
河北大学
张绍华
机构
:
[1]
河北大学
关键词
:
HTML,模式,信息抽取,装配器,实例学习;
D O I
:
暂无
年度学位
:
2001
学位类型
:
硕士
导师
:
李天柱;
摘要
:
随着Internet的迅猛发展,Web已经成为全球传播与共享科研、教 育、商业和社会信息等最重要和最具潜力的巨大信息源。由于Web信 息的动态性,不规则性,信息量巨大,给信息搜索和查询带来了很大 困难,Web搜索和查询是目前WWW和DB界研究的热点。本文提出 了一种基于实例的快速从HTML页面中抽取信息的方法,该方法将抽 取信息按对象关系模型进行重组存放在数据库中,以支持查询及各种 应用。将信息抽取过程划分为两个阶段:学习阶段和抽取阶段,同时 在抽取阶段中分为两个部分:抽取部分和集成部分。通过用户的少量 参与,选定样本实例,预先定义模式,生成具有特点和高效的各种抽 取规则(左右边界规则、文本特征、前导标识和关联规则),并保存在 知识库中,然后根据知识库自动进行信息的抽取。基于这种抽取方法 的原型系统可直接应用于Web查询和搜索,也可用于其它应用(例如 数据仓库和数据挖掘等)的数据准备,抽取效果良好。
引用
收藏
页数:39
共 10 条
[1]
数据库系统概论.[M].萨师煊;王珊[编著];.高等教育出版社.2000,
[2]
中文搜索引擎概念检索初探
[J].
李蕾
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,首都信息发展有限公司网络多媒体实验室!北京,北京工业大学计算机学院!北京
李蕾
;
王楠
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,首都信息发展有限公司网络多媒体实验室!北京,北京工业大学计算机学院!北京
王楠
;
张剑
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,首都信息发展有限公司网络多媒体实验室!北京,北京工业大学计算机学院!北京
张剑
;
钟义信
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,首都信息发展有限公司网络多媒体实验室!北京,北京工业大学计算机学院!北京
钟义信
;
郭祥昊
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,首都信息发展有限公司网络多媒体实验室!北京,北京工业大学计算机学院!北京
郭祥昊
;
贾自燕
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,首都信息发展有限公司网络多媒体实验室!北京,北京工业大学计算机学院!北京
贾自燕
.
计算机工程与应用,
2000,
(06)
:1
-3+11
[3]
半结构化数据的模式发现
[J].
刘芳
论文数:
0
引用数:
0
h-index:
0
机构:
华中理工大学计算机学院应用系!博士生武汉
刘芳
;
胡和平
论文数:
0
引用数:
0
h-index:
0
机构:
华中理工大学计算机学院应用系!博士生武汉
胡和平
.
微型电脑应用,
2000,
(02)
:13
-15
[4]
从WEB文档中构造半结构化信息的抽取器
[J].
黄豫清
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学多媒体计算机研究所!南京
黄豫清
;
戚广志
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学多媒体计算机研究所!南京
戚广志
;
论文数:
引用数:
h-index:
机构:
张福炎
.
软件学报,
2000,
(01)
:73
-78
[5]
网际网上半结构化数据抽取与知识发现方法及其实现
[J].
论文数:
引用数:
h-index:
机构:
陈恩红
;
论文数:
引用数:
h-index:
机构:
范焱
;
论文数:
引用数:
h-index:
机构:
王行甫
;
论文数:
引用数:
h-index:
机构:
蔡庆生
.
计算机科学,
1999,
(10)
:49
-52
[6]
基于标记图的Web数据模型
[J].
论文数:
引用数:
h-index:
机构:
陈滢
;
徐宏炳
论文数:
0
引用数:
0
h-index:
0
机构:
东南大学计算机科学与工程系
徐宏炳
;
论文数:
引用数:
h-index:
机构:
王能斌
.
计算机学报,
1999,
(03)
[7]
基于Web的数据仓库的研究
[J].
何雪梅
论文数:
0
引用数:
0
h-index:
0
机构:
四川联合大学计算机系
何雪梅
;
唐常杰
论文数:
0
引用数:
0
h-index:
0
机构:
四川联合大学计算机系
唐常杰
;
王利强
论文数:
0
引用数:
0
h-index:
0
机构:
四川联合大学计算机系
王利强
;
张天庆
论文数:
0
引用数:
0
h-index:
0
机构:
四川联合大学计算机系
张天庆
.
计算机应用,
1998,
(10)
[8]
WWW分布数据源研究——数据模型和查询语言
[J].
论文数:
引用数:
h-index:
机构:
陈滢
;
徐宏炳
论文数:
0
引用数:
0
h-index:
0
机构:
东南大学计算机科学与工程系
徐宏炳
;
论文数:
引用数:
h-index:
机构:
王能斌
.
软件学报,
1998,
(08)
[9]
数据库集成系统中数据语义和属性不一致问题的解决方法
[J].
王晓军
论文数:
0
引用数:
0
h-index:
0
机构:
南京邮电学院信息网络技术研究所
王晓军
.
南京邮电学院学报,
1998,
(03)
[10]
WWW上的信息发现与搜索引擎技术
[J].
张晓辉
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学软件中心
张晓辉
;
论文数:
引用数:
h-index:
机构:
邵华
;
论文数:
引用数:
h-index:
机构:
常桂然
.
小型微型计算机系统,
1998,
(06)
←
1
→
共 10 条
[1]
数据库系统概论.[M].萨师煊;王珊[编著];.高等教育出版社.2000,
[2]
中文搜索引擎概念检索初探
[J].
李蕾
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,首都信息发展有限公司网络多媒体实验室!北京,北京工业大学计算机学院!北京
李蕾
;
王楠
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,首都信息发展有限公司网络多媒体实验室!北京,北京工业大学计算机学院!北京
王楠
;
张剑
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,首都信息发展有限公司网络多媒体实验室!北京,北京工业大学计算机学院!北京
张剑
;
钟义信
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,首都信息发展有限公司网络多媒体实验室!北京,北京工业大学计算机学院!北京
钟义信
;
郭祥昊
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,首都信息发展有限公司网络多媒体实验室!北京,北京工业大学计算机学院!北京
郭祥昊
;
贾自燕
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,北京邮电大学信息工程系!北京,首都信息发展有限公司网络多媒体实验室!北京,北京工业大学计算机学院!北京
贾自燕
.
计算机工程与应用,
2000,
(06)
:1
-3+11
[3]
半结构化数据的模式发现
[J].
刘芳
论文数:
0
引用数:
0
h-index:
0
机构:
华中理工大学计算机学院应用系!博士生武汉
刘芳
;
胡和平
论文数:
0
引用数:
0
h-index:
0
机构:
华中理工大学计算机学院应用系!博士生武汉
胡和平
.
微型电脑应用,
2000,
(02)
:13
-15
[4]
从WEB文档中构造半结构化信息的抽取器
[J].
黄豫清
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学多媒体计算机研究所!南京
黄豫清
;
戚广志
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学多媒体计算机研究所!南京
戚广志
;
论文数:
引用数:
h-index:
机构:
张福炎
.
软件学报,
2000,
(01)
:73
-78
[5]
网际网上半结构化数据抽取与知识发现方法及其实现
[J].
论文数:
引用数:
h-index:
机构:
陈恩红
;
论文数:
引用数:
h-index:
机构:
范焱
;
论文数:
引用数:
h-index:
机构:
王行甫
;
论文数:
引用数:
h-index:
机构:
蔡庆生
.
计算机科学,
1999,
(10)
:49
-52
[6]
基于标记图的Web数据模型
[J].
论文数:
引用数:
h-index:
机构:
陈滢
;
徐宏炳
论文数:
0
引用数:
0
h-index:
0
机构:
东南大学计算机科学与工程系
徐宏炳
;
论文数:
引用数:
h-index:
机构:
王能斌
.
计算机学报,
1999,
(03)
[7]
基于Web的数据仓库的研究
[J].
何雪梅
论文数:
0
引用数:
0
h-index:
0
机构:
四川联合大学计算机系
何雪梅
;
唐常杰
论文数:
0
引用数:
0
h-index:
0
机构:
四川联合大学计算机系
唐常杰
;
王利强
论文数:
0
引用数:
0
h-index:
0
机构:
四川联合大学计算机系
王利强
;
张天庆
论文数:
0
引用数:
0
h-index:
0
机构:
四川联合大学计算机系
张天庆
.
计算机应用,
1998,
(10)
[8]
WWW分布数据源研究——数据模型和查询语言
[J].
论文数:
引用数:
h-index:
机构:
陈滢
;
徐宏炳
论文数:
0
引用数:
0
h-index:
0
机构:
东南大学计算机科学与工程系
徐宏炳
;
论文数:
引用数:
h-index:
机构:
王能斌
.
软件学报,
1998,
(08)
[9]
数据库集成系统中数据语义和属性不一致问题的解决方法
[J].
王晓军
论文数:
0
引用数:
0
h-index:
0
机构:
南京邮电学院信息网络技术研究所
王晓军
.
南京邮电学院学报,
1998,
(03)
[10]
WWW上的信息发现与搜索引擎技术
[J].
张晓辉
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学软件中心
张晓辉
;
论文数:
引用数:
h-index:
机构:
邵华
;
论文数:
引用数:
h-index:
机构:
常桂然
.
小型微型计算机系统,
1998,
(06)
←
1
→