基于KL距离的非平衡数据半监督学习算法

被引:36
作者
许震 [1 ]
沙朝锋 [1 ]
王晓玲 [2 ]
周傲英 [2 ,3 ]
机构
[1] 复旦大学计算机科学技术学院
[2] 华东师范大学海量计算研究所
[3] 上海市智能信息处理重点实验室
关键词
半监督学习; 非平衡; KL距离; 朴素贝叶斯; logistic回归;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
080201 [机械制造及其自动化];
摘要
在实际应用中,由于各种原因时常无法直接获得已标识反例,导致传统分类方法暂时失灵,因此,基于正例和未标识集的半监督学习顿时成了理论界研究的热点.研究者们提出了不同的解决方法,然而,这些方法都不能有效处理非平衡的分类问题,尤其当隐匿反例非常少或训练集中的实例分布不均匀时.因此,提出了一种基于KL距离的半监督分类算法——LiKL:依次挖掘出未标识集中的最可靠正例和反例,接着使用训练好的增强型分类器来分类.与其他方法相比,不仅提高了分类的查准率和查全率,而且具有鲁棒性.
引用
收藏
页码:81 / 87
页数:7
相关论文
共 1 条
[1]
基于多核集成的在线半监督学习方法 [J].
黎铭 ;
周志华 .
计算机研究与发展, 2008, (12) :2060-2068