非结构化表格文档数据抽取与组织模型研究

被引:12
作者
张元鸣 [1 ,2 ]
陈苗 [1 ]
陆佳炜 [1 ]
徐俊 [1 ]
肖刚 [1 ,2 ]
机构
[1] 浙江工业大学计算机科学与技术学院
[2] 浙江工业大学机械工程博士后流动站
关键词
非结构化表格文档; 数据抽取; 结构化数据模型; 数据分析;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括逻辑结构抽取、文档预处理、数据抽取和数据组织等主要步骤,设计实现了单值区域与多值区域数据抽取算法;从文档中抽取的数据被组织成适合于MapReduce分析的结构化数据模型,该模型能够为大数据分析提供模型支持.实验结果表明:该抽取方法具有较高的准确率与召回率,数据组织模型也能够有效地支持大数据分析.
引用
收藏
页码:487 / 494
页数:8
相关论文
共 12 条
[1]  
半结构化文本信息抽取方法研究及应用.[D].王允富.江苏科技大学.2014, 03
[2]  
非结构化到结构化数据转换的研究与实现.[D].万里鹏.西南交通大学.2013, 11
[3]  
科技文档信息抽取与格式化技术研究.[D].刘力.中南大学.2010, 03
[4]  
基于PDF文字流的表格识别技术的研究.[D].张伯.北京工业大学.2010, 09
[5]  
海量非结构化数据的组织研究与实现.[D].邹波.华中科技大学.2008, 05
[6]  
半结构化文本中的表格信息抽取技术的研究.[D].潘小燕.哈尔滨工业大学.2007, 02
[7]   基于双字Hash机制的交通信息分词算法研究 [J].
李澎林 ;
张献力 ;
李伟 .
浙江工业大学学报, 2014, (06) :596-600
[8]   基于语义词典和词汇链的关键词提取算法 [J].
刘端阳 ;
王良芳 .
浙江工业大学学报, 2013, 41 (05) :545-551
[9]   基于规则库的非结构化数据格式转换技术研究 [J].
冯亚丽 ;
张汝坤 .
云南师范大学学报(自然科学版), 2012, 32 (02) :58-61
[10]   半结构化文档中非标记化表格的抽取 [J].
宋强 ;
徐鹏 ;
李涓子 .
计算机工程, 2005, (18) :81-83+171