共 3 条
PDF文件信息的抽取与分析
被引:21
作者:
李珍
田学东
机构:
[1] 河北大学数学与计算机学院
来源:
关键词:
信息抽取;
PDF文件;
文本信息分析;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
PDF文件网络信息抽取的重要资源。通过对PDF文件结构的分析,针对最流行的线性PDF文件,在论述如何从源代码中取出正文内容字符串流并进行解码的基础上,对从解码后的字符串流中提取出文本及其相关的字体、字号和换行等文本信息进行了详细的讨论。这将有助于根据需要进一步抽取PDF文件信息。
引用
收藏
页码:145 / 147
页数:3
相关论文