网络信息抽取技术分析与比较

被引:3
作者
宋鑫莹
赵铁军
机构
[1] 哈尔滨工业大学计算机科学与技术学院
关键词
网络信息抽取; 包装器; 模板;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
随着互联网爆炸式的发展和普及,网络信息已经成为了一种宝贵的信息数据资源。海量的网络数据使得数据分析与挖掘系统进入了一个新时代,越来越多的网络应用系统需要对来自不同数据源的结构化数据进行抽取、挖掘和整合。然而,由于网页文档的半结构化性质,网页上呈现的数据往往不能被机器自动地抽取和理解,因此,网络信息抽取的研究目标在于提取网页的结构化数据。互联网数据的海量规模与高度异构,为网络信息抽取带来了巨大的挑战。分析和总结了近年来网络信息抽取相关的研究与工作,剖析了各个工作的优势和局限,并进一步作了综合的分类与比较。
引用
收藏
页码:24 / 27+30 +30
页数:5
相关论文
共 5 条
[1]  
Conceptual-model-based data extraction from multiple-record Web pages[J] . D.W. Embley,D.M. Campbell,Y.S. Jiang,S.W. Liddle,D.W. Lonsdale,Y.-K. Ng,R.D. Smith.Data & Knowledge Engineering . 1999 (3)
[2]   Grammars have exceptions [J].
Crescenzi, V ;
Mecca, G .
INFORMATION SYSTEMS, 1998, 23 (08) :539-565
[3]  
Wrapper Induction for Information Extraction .2 N Kushmerick,DS Weld,RB Doorenbos. Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence(IJCAI297) . 1997
[4]  
Data extraction and label assignment for web databases .2 Wang Jiying,Lochovsky F. Proceedings of the 12th International Conference on World Wide Web(WWW2003) . 2003
[5]  
A hierarchical approach to wrapper induction .2 Ion Muslea,Steve Minton,Craig Knoblock. Proceedings of the Third International Conference on Autonomous Agents . 1999