非结构化表格文档数据抽取与组织模型研究

被引：12

作者：

张元鸣 ^{[1
,2
]}

陈苗 ^{[1
]}

陆佳炜 ^{[1
]}

徐俊 ^{[1
]}

肖刚 ^{[1
,2
]}

机构：

[1] 浙江工业大学计算机科学与技术学院

[2] 浙江工业大学机械工程博士后流动站

来源：

浙江工业大学学报 | 2016年 / 44卷 / 05期

关键词：

非结构化表格文档; 数据抽取; 结构化数据模型; 数据分析;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括逻辑结构抽取、文档预处理、数据抽取和数据组织等主要步骤,设计实现了单值区域与多值区域数据抽取算法;从文档中抽取的数据被组织成适合于MapReduce分析的结构化数据模型,该模型能够为大数据分析提供模型支持.实验结果表明:该抽取方法具有较高的准确率与召回率,数据组织模型也能够有效地支持大数据分析.

引用

页码：487 / 494

页数：8

共 12 条

[1]

半结构化文本信息抽取方法研究及应用.[D].王允富.江苏科技大学.2014, 03

[2]

非结构化到结构化数据转换的研究与实现.[D].万里鹏.西南交通大学.2013, 11

[3]

科技文档信息抽取与格式化技术研究.[D].刘力.中南大学.2010, 03

[4]

基于PDF文字流的表格识别技术的研究.[D].张伯.北京工业大学.2010, 09

[5]

海量非结构化数据的组织研究与实现.[D].邹波.华中科技大学.2008, 05

[6]

半结构化文本中的表格信息抽取技术的研究.[D].潘小燕.哈尔滨工业大学.2007, 02

[7] 基于双字Hash机制的交通信息分词算法研究 [J].

李澎林 ;

张献力 ;

李伟 .

浙江工业大学学报, 2014, (06) :596-600

[8] 基于语义词典和词汇链的关键词提取算法 [J].

刘端阳 ;

王良芳 .

浙江工业大学学报, 2013, 41 (05) :545-551

[9] 基于规则库的非结构化数据格式转换技术研究 [J].

冯亚丽 ;

张汝坤 .

云南师范大学学报(自然科学版), 2012, 32 (02) :58-61

[10] 半结构化文档中非标记化表格的抽取 [J].

宋强 ;

徐鹏 ;

李涓子 .

计算机工程, 2005, (18) :81-83+171

← 1 2 →