“元数据模型”在数据提取中的实现

被引:13
作者
杨文安
陈行益
机构
[1] 徐州建筑职业技术学院计算机技术工程系
[2] 北京邮电大学计算机科学与技术学院
关键词
数据提取; 元数据模型; 格式说明文件; 可扩充标记语言;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
大量分散的形式及不同格式的数据给现代数据处理带来了越来越大的困难。为统一数据形式以利于数据操作和处理,讨论了将形式多样的数据格式转换成统一的XML(extensibleMarkupLanguage)格式的问题。在计算机网络中,应用"元数据模型"技术,对数据源中不同格式文件数据,按照预先定义的XML模板,以格式说明文件结构统一描述,并提取数据或作进一步的处理,最后转换为XML格式输出。设计了具体的实现策略以及实现流程:实现了从TXT文件格式数据中提取数据转换成XML格式的代码,将TXT文件数据提取成XML格式的数据;完成了数据说明文件格式的设计,数据路径选择工具的开发,语言分析工具的设计开发等工作。结果表明:能满足同类产品的按行(line)为单位的源数据结构形式处理,还具有同类产品不具备的非行(字符串和关键字)提取处理功能。
引用
收藏
页码:32 / 36
页数:5
相关论文
共 8 条
[1]   语义Web的研究与展望 [J].
白同强 ;
刘磊 .
吉林大学学报(信息科学版), 2004, (02) :154-159
[2]   网络数据智能提取 [J].
王斌 .
计算机仿真, 2004, (01) :84-86
[3]   基于XML的异构分布式数据库集成方案 [J].
王向安 ;
张成洪 .
计算机应用与软件, 2003, (11) :91-92+97
[4]   以XML文档发布关系数据 [J].
万常选 .
计算机应用与软件, 2002, (08) :30-33+50
[5]   元数据及SGML在数字图书馆中的应用 [J].
程喜荣 .
现代图书情报技术, 2001, (04) :6-8+16
[6]  
智能网引入BOSS必要性的探讨[A]. 修佳鹏,陈行益.第六届全国计算机应用联合学术会议论文集[C]. 2002
[7]  
XML理论和应用基础[M]. 北京邮电大学出版社 , 孙一中编著, 2000
[8]  
智能化现代通信网[M]. 北京邮电大学出版社 , 杨放春, 1999