基于实例的Web信息抽取

被引:0
作者
张绍华
机构
[1] 河北大学
关键词
HTML,模式,信息抽取,装配器,实例学习;
D O I
暂无
年度学位
2001
学位类型
硕士
导师
摘要
随着Internet的迅猛发展,Web已经成为全球传播与共享科研、教 育、商业和社会信息等最重要和最具潜力的巨大信息源。由于Web信 息的动态性,不规则性,信息量巨大,给信息搜索和查询带来了很大 困难,Web搜索和查询是目前WWW和DB界研究的热点。本文提出 了一种基于实例的快速从HTML页面中抽取信息的方法,该方法将抽 取信息按对象关系模型进行重组存放在数据库中,以支持查询及各种 应用。将信息抽取过程划分为两个阶段:学习阶段和抽取阶段,同时 在抽取阶段中分为两个部分:抽取部分和集成部分。通过用户的少量 参与,选定样本实例,预先定义模式,生成具有特点和高效的各种抽 取规则(左右边界规则、文本特征、前导标识和关联规则),并保存在 知识库中,然后根据知识库自动进行信息的抽取。基于这种抽取方法 的原型系统可直接应用于Web查询和搜索,也可用于其它应用(例如 数据仓库和数据挖掘等)的数据准备,抽取效果良好。
引用
收藏
页数:39
共 10 条
[1]
数据库系统概论.[M].萨师煊;王珊[编著];.高等教育出版社.2000,
[2]
中文搜索引擎概念检索初探 [J].
李蕾 ;
王楠 ;
张剑 ;
钟义信 ;
郭祥昊 ;
贾自燕 .
计算机工程与应用, 2000, (06) :1-3+11
[3]
半结构化数据的模式发现 [J].
刘芳 ;
胡和平 .
微型电脑应用, 2000, (02) :13-15
[4]
从WEB文档中构造半结构化信息的抽取器 [J].
黄豫清 ;
戚广志 ;
张福炎 .
软件学报, 2000, (01) :73-78
[5]
网际网上半结构化数据抽取与知识发现方法及其实现 [J].
陈恩红 ;
范焱 ;
王行甫 ;
蔡庆生 .
计算机科学, 1999, (10) :49-52
[6]
基于标记图的Web数据模型 [J].
陈滢 ;
徐宏炳 ;
王能斌 .
计算机学报, 1999, (03)
[7]
基于Web的数据仓库的研究 [J].
何雪梅 ;
唐常杰 ;
王利强 ;
张天庆 .
计算机应用, 1998, (10)
[8]
WWW分布数据源研究——数据模型和查询语言 [J].
陈滢 ;
徐宏炳 ;
王能斌 .
软件学报, 1998, (08)
[9]
数据库集成系统中数据语义和属性不一致问题的解决方法 [J].
王晓军 .
南京邮电学院学报, 1998, (03)
[10]
WWW上的信息发现与搜索引擎技术 [J].
张晓辉 ;
邵华 ;
常桂然 .
小型微型计算机系统, 1998, (06)