基于HTML树和模板的文献信息提取方法研究

被引：7

作者：

李文立

王乐超

宋春雷

机构：

[1] 大连理工大学管理学院系统工程研究所

来源：

计算机应用研究 | 2010年 / 27卷 / 12期

关键词：

网页信息提取; 文档对象模型树; 模板; 文献信息搜集;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景。提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进行信息提取。实验结果表明该方法在提取网络数据库中文献信息的准确率在94%以上。

引用

页码：4615 / 4617

页数：3

共 8 条

[1] 基于DOM模型扩展的Web信息提取 [J].