基于XML的PDF文档信息抽取系统的研究

被引:15
作者
宋艳娟
张文德
机构
[1] 福州大学数学与计算机科学学院,福州大学图书馆福州,福州
关键词
信息抽取; PDF; XML;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
首先设计了科技论文的DTD文档,然后分析了PDF文档的结构。在此基础上,我们介绍了PDF文档信息抽取系统的设计框架。该框架以上述DTD为模板,把以PDF格式表示的科技论文解析转换为有效的XML文档。
引用
收藏
页码:10 / 13
页数:4
相关论文
共 4 条
[1]   运用文本领域的常识改善基于支撑向量机的文本分类器性能 [J].
李辉 ;
史忠植 ;
许卓群 .
中文信息学报, 2002, (02) :7-13
[2]   面向对象的中文PDF阅读器的设计与实现 [J].
杨道良 .
计算机应用, 1999, (06) :3-6
[3]  
中文信息处理基础教程.[M].余锦凤;萧志春编著;.北京大学出版社.2002,
[4]  
XML实用大全.[M].(美)[E.R.哈罗尔德]ElliotteRustyHarold著;杜大鹏等译;.中国水利水电出版社.2000,