PDF文件信息的抽取与分析

被引:21
作者
李珍
田学东
机构
[1] 河北大学数学与计算机学院
关键词
信息抽取; PDF文件; 文本信息分析;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
PDF文件网络信息抽取的重要资源。通过对PDF文件结构的分析,针对最流行的线性PDF文件,在论述如何从源代码中取出正文内容字符串流并进行解码的基础上,对从解码后的字符串流中提取出文本及其相关的字体、字号和换行等文本信息进行了详细的讨论。这将有助于根据需要进一步抽取PDF文件信息。
引用
收藏
页码:145 / 147
页数:3
相关论文
共 3 条
[1]   关于PDF与跨平台发行文件的解决方案 [J].
张砚 ;
闪永强 .
测绘学院学报, 2003, (01) :62-64
[2]   用Plug-in实现对PDF文件的信息提取 [J].
李贵林 ;
李建中 ;
杨艳 .
计算机应用, 2003, (02) :110-112
[3]   面向对象的中文PDF阅读器的设计与实现 [J].
杨道良 .
计算机应用, 1999, (06) :3-6