选取最大可能预测错误样例的主动学习算法

被引:16
作者
龙军
殷建平
祝恩
蔡志平
机构
[1] 国防科学技术大学计算机学院
基金
湖南省自然科学基金;
关键词
主动学习; 采样; 版本空间; 半分模型; 样本复杂度;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
通过选取并提交专家标注最有信息量的样例,主动学习算法中可以有效地减轻标注大量未标注样例的负担.采样是主动学习算法中一个影响性能的关键因素.当前主流的采样算法往往考虑选取的样例尽可能平分版本空间.但这一方法假定版本空间中的每一假设都具有相同的概率成为目标函数,而这在真实世界问题中不可能满足.分析了平分版本策略的局限性.进而提出一种旨在尽可能最大限度减小版本空间的启发式采样算法MPWPS(the most possibly wrong-predicted sampling),该算法每次采样时选取当前分类器最有可能预测错误的样例,从而淘汰版本空间中多于半数的假设.这种方法使分类器在达到相同的分类正确率时,采样次数比当前主流的针对平分版本空间的主动学习算法采样次数更少.实验表明,在大多数数据集上,当达到相同的目标正确率时,MPWPS方法能够比传统的采样算法采样次数更少.
引用
收藏
页码:472 / 478
页数:7
相关论文
共 3 条
[1]   主动贝叶斯网络分类器 [J].
宫秀军 ;
孙建平 ;
史忠植 .
计算机研究与发展, 2002, (05) :574-579
[2]  
Selective Sampling Using the Query by Committee Algorithm[J] . Yoav Freund,H. Sebastian Seung,Eli Shamir,Naftali Tishby.Machine Learning . 1997 (2)
[3]  
Analyzing Categorical Data .2 J S Simonoff. Springer-Verlag . 2003