基于集成学习和二维关联边条件随机场的Web数据语义标注方法

被引:6
作者
丁艳辉
李庆忠
董永权
彭朝晖
机构
[1] 山东大学计算机科学与技术学院
关键词
Web信息抽取; 语义标注; 集成学习; 条件随机场; 长距离依赖;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
大规模Web信息抽取需要准确、自动地从众多相关网站上抽取Web数据对象.现有的Web信息抽取方法主要针对单个网站进行处理,无法适应大规模Web信息抽取的需要.调查研究表明,有效地实现Web数据语义自动标注,结合现有的包装器生成技术,可以满足大规模Web信息抽取的要求.文中提出一种基于集成学习和二维关联边条件随机场的Web数据语义自动标注方法,首先,利用已抽取的信息和目标网站训练页面中呈现的特征构造多个分类器,使用Dempster合成法则合并分类器结果,区分训练页面中的属性标签和数据元素;然后,利用二维关联边条件随机场模型对Web数据元素间的长距离依赖联系和短距离依赖联系进行建模,实现数据元素的自动语义标注.通过在多个领域真实数据集上的实验结果表明,所提出的方法可以高效地解决Web数据语义自动标注问题,满足大规模Web信息抽取的需要.
引用
收藏
页码:267 / 278
页数:12
相关论文
共 9 条
[1]   基于混合跳链条件随机场的异构Web记录集成方法 [J].
黄健斌 ;
姬红兵 ;
孙鹤立 .
软件学报, 2008, (08) :2149-2158
[2]   聚类集成中的差异性度量研究 [J].
罗会兰 ;
孔繁胜 ;
李一啸 .
计算机学报, 2007, (08) :1315-1324
[3]   Building ensemble classifiers using belief functions and OWA operators [J].
Reformat, Marek ;
Yager, Ronald R. .
SOFT COMPUTING, 2008, 12 (06) :543-558
[4]   A dempster-shafer theoretic framework for boosting based ensemble design [J].
Altinçay, H .
PATTERN ANALYSIS AND APPLICATIONS, 2005, 8 (03) :287-302
[5]  
Speaker identification by combining multiple classifiers using Dempster–Shafer theory of evidence[J] . Speech Communication . 2003 (4)
[6]   Using Dempster-Shafer's theory of evidence to combine aspects of information use [J].
Ruthven, I ;
Lalmas, M .
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS, 2002, 19 (03) :267-301
[7]  
Conceptual-model-based data extraction from multiple-record Web pages[J] . D.W. Embley,D.M. Campbell,Y.S. Jiang,S.W. Liddle,D.W. Lonsdale,Y.-K. Ng,R.D. Smith.Data & Knowledge Engineering . 1999 (3)
[8]  
On the limited memory BFGS method for large scale optimization[J] . Dong C. Liu,Jorge Nocedal.Mathematical Programming . 1989 (1-3)
[9]  
Automatic annotation of data extracted from large Web sites .2 L Arlotta,V Crescenzi,G Mecca,P Merialdo. . 2003