PDF文件信息的抽取与分析

被引：21

作者：

李珍

田学东

机构：

[1] 河北大学数学与计算机学院

来源：

计算机应用 | 2003年 / 12期

关键词：

信息抽取; PDF文件; 文本信息分析;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

PDF文件网络信息抽取的重要资源。通过对PDF文件结构的分析,针对最流行的线性PDF文件,在论述如何从源代码中取出正文内容字符串流并进行解码的基础上,对从解码后的字符串流中提取出文本及其相关的字体、字号和换行等文本信息进行了详细的讨论。这将有助于根据需要进一步抽取PDF文件信息。

引用

收藏

页码：145 / 147

页数：3

相关论文

共 3 条

[1] 关于PDF与跨平台发行文件的解决方案 [J].

张砚 ;

闪永强 .

测绘学院学报, 2003, (01) :62-64

[2] 用Plug-in实现对PDF文件的信息提取 [J].

李贵林 ;

李建中 ;

杨艳 .

计算机应用, 2003, (02) :110-112

[3] 面向对象的中文PDF阅读器的设计与实现 [J].

杨道良 .

计算机应用, 1999, (06) :3-6