基于混合跳链条件随机场的异构Web记录集成方法

被引:8
作者
黄健斌 [1 ]
姬红兵 [2 ]
孙鹤立 [3 ]
机构
[1] 西安电子科技大学计算机学院
[2] 西安电子科技大学电子工程学院
[3] 西安交通大学计算机科学与技术系
关键词
混合跳链条件随机场; Web数据集成; 模式匹配;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
提出了一种混合跳链条件随机场序列统计学习模型,以实现异构Web记录与关系数据库的模式匹配.该模型可以在由手工标注样本和关系数据库记录组成的联合样本集上进行训练,减少了对繁琐手工标注样本的依赖.此外,通过在线性链条件随机场模型上增加对跳边的支持,使得该模型能够有效地处理状态变量间的长距离依赖.在多个领域的真实数据集上的实验结果表明,所提出的方法能够显著提高异构Web记录语义模式匹配的性能.
引用
收藏
页码:2149 / 2158
页数:10
相关论文
共 2 条
[1]   基于层叠条件随机场模型的中文机构名自动识别 [J].
周俊生 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
电子学报, 2006, (05) :804-809
[2]   Web数据管理研究综述 [J].
孟小峰 .
计算机研究与发展 , 2001, (04) :385-395