基于XML的Web半结构化信息抽取

被引:11
作者
李哲琦 [1 ]
张莹 [2 ]
机构
[1] 长春工业大学计算机科学技术学院
[2] 长春理工大学计算机科学技术学院
关键词
信息抽取; 数据清洗; XML; Tidy;
D O I
暂无
中图分类号
TP311.10 [];
学科分类号
摘要
Web信息抽取是信息抽取技术在B/S体系中的新发展,在增量信息存储与搜索中有着广泛的应用。本文阐述的基于XML的Web半结构化信息抽取,是将Web表示层作为信息源,基于XML、JTidy数据清洗及Xquare-bridge等技术及开源项目,实现Web中半结构化的隐式信息点抽取,生成结构化、语义更清晰的表示及存储形式。
引用
收藏
页码:66 / 68
页数:3
相关论文
共 4 条
[1]
谈数据仓库建设中的ETL过程 [J].
张云 .
计算机系统应用, 2005, (08) :77-79+83
[2]
一种可靠的数据仓库中ETL策略与架构设计 [J].
尤玉林 ;
张宪民 ;
不详 .
计算机工程与应用 , 2005, (10) :172-174+229
[3]
数据抽取、转换、装载综述 [J].
王新英 ;
陈语林 .
企业技术开发, 2004, (08) :3-5
[4]
数据ETL工具通用框架设计 [J].
周宏广 ;
周继承 ;
彭银桥 ;
龙思锐 .
计算机应用, 2003, (12) :96-98