基于HTML树和模板的文献信息提取方法研究

被引:7
作者
李文立
王乐超
宋春雷
机构
[1] 大连理工大学管理学院系统工程研究所
关键词
网页信息提取; 文档对象模型树; 模板; 文献信息搜集;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景。提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进行信息提取。实验结果表明该方法在提取网络数据库中文献信息的准确率在94%以上。
引用
收藏
页码:4615 / 4617
页数:3
相关论文
共 8 条
[1]   基于DOM模型扩展的Web信息提取 [J].
顾韵华 ;
田伟 .
计算机科学, 2009, 36 (11) :235-237+289
[2]   网页正文信息抽取新方法 [J].
宋明秋 ;
张瑞雪 ;
吴新涛 ;
李文立 .
大连理工大学学报, 2009, 49 (04) :594-597
[3]   网页结构模板生成新方法研究 [J].
冯少卿 ;
都云程 .
北京机械工业学院学报, 2007, (03) :15-19
[4]   模板化网页主题信息的提取方法 [J].
欧健文 ;
董守斌 ;
蔡斌 .
清华大学学报(自然科学版), 2005, (S1) :1743-1747
[5]   基于DOM的网页主题信息自动提取 [J].
王琦 ;
唐世渭 ;
杨冬青 ;
王腾蛟 .
计算机研究与发展, 2004, (10) :1786-1792
[6]   一种提高中文搜索引擎检索质量的HTML解析方法 [J].
宋睿华 ;
马少平 ;
陈刚 ;
李景阳 .
中文信息学报, 2003, (04) :19-26
[7]   Tag tree template for Web information and schema extraction [J].
Ji, Xiangwen ;
Zeng, Jianping ;
Zhang, Shiyong ;
Wu, Chengrong .
EXPERT SYSTEMS WITH APPLICATIONS, 2010, 37 (12) :8492-8498
[8]  
Wrapper generation for semi-structured Internet sources[J] . Naveen Ashish,Craig A. Knoblock. ACM SIGMOD Record . 1997 (4)