基于XML的PDF文档信息抽取系统的研究

被引：15

作者：

宋艳娟

张文德

机构：

[1] 福州大学数学与计算机科学学院,福州大学图书馆福州,福州

来源：

关键词：

信息抽取; PDF; XML;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

首先设计了科技论文的DTD文档,然后分析了PDF文档的结构。在此基础上,我们介绍了PDF文档信息抽取系统的设计框架。该框架以上述DTD为模板,把以PDF格式表示的科技论文解析转换为有效的XML文档。

引用

页码：10 / 13

页数：4

共 4 条

李辉 ;

史忠植 ;

许卓群 .

[2] 面向对象的中文PDF阅读器的设计与实现 [J].

杨道良 .

[3]

中文信息处理基础教程.[M].余锦凤;萧志春编著;.北京大学出版社.2002,

[4]

XML实用大全.[M].(美)[E.R.哈罗尔德]ElliotteRustyHarold著;杜大鹏等译;.中国水利水电出版社.2000,