一种全自动生成网页信息抽取Wrapper的方法

被引:20
作者
梅雪
程学旗
郭岩
张刚
丁国栋
机构
[1] 中国科学院计算技术研究所
关键词
计算机应用; 中文信息处理; 网页信息抽取; 网页结构分离; 包装器;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。
引用
收藏
页码:22 / 29
页数:8
相关论文
共 6 条
[1]  
Adaptive RecordExtraction From Web Pages. Justin Park,and Denilson Barbosa. WWW . 2007
[2]  
Fully Automatic Wrapper Generation for SearchEngines. Zhao H,Meng W,Wu Z,Raghavan V,and YuC. WWW . 2005
[3]  
Mining Data Records inWeb Pages. Liu B,Grossman R,Zhai Y. KDD 2003 .
[4]  
Web Data Extraction Based on Partial Tree Alignment[C]. Zhai Y,Liu B. Proceedings of the 14th International Conference on World Wide Web (WWW2005) . 2005
[5]  
Automatically Mining Search Result Records. Mundluru,D,Katukuri,J.R,and Celebi,S. DataMining . 2005
[6]  
Tree Pattern Matching.In:Pattern Matching Algorithms. Zhang K.,and Shasha D. . 1997