基于自适应数据剪辑策略的Tri-training算法

被引:13
作者
邓超
郭茂祖
机构
[1] 哈尔滨工业大学计算机科学与技术学院
关键词
半监督学习; 数据剪辑; 自适应策略; PAC可学习; Tri-training;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
Tri-training能有效利用无标记样例提高泛化能力.针对Tri-training迭代中无标记样例常被错误标记而形成训练集噪声,导致性能不稳定的缺点,文中提出ADE-Tri-training(Tri-training with Adaptive Data Editing)新算法.它不仅利用Remove Only剪辑操作对每次迭代可能产生的误标记样例识别并移除,更重要的是采用自适应策略来确定Remove Only触发与抑制的恰当时机.文中证明,PAC理论下自适应策略中一系列判别充分条件可同时确保新训练集规模迭代增大和新假设分类错误率迭代降低更多.UCI数据集上实验结果表明:ADE-Tri-training具有更好的分类泛化性能和健壮性.
引用
收藏
页码:1213 / 1226
页数:14
相关论文
共 3 条
[1]   Identifying and handling mislabelled instances [J].
Muhlenbach, F ;
Lallich, S ;
Zighed, DA .
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS, 2004, 22 (01) :89-109
[2]   Text Classification from Labeled and Unlabeled Documents using EM [J].
Kamal Nigam ;
Andrew Kachites Mccallum ;
Sebastian Thrun ;
Tom Mitchell .
Machine Learning, 2000, 39 :103-134
[3]  
Learning from noisy examples[J] . Dana Angluin,Philip Laird.Machine Learning . 1988 (4)