基于差异性评估对Co-training文本分类算法的改进

被引:4
作者
唐焕玲 [1 ,2 ]
林正奎 [1 ]
鲁明羽 [1 ]
机构
[1] 大连海事大学信息科学技术学院
[2] 烟台职业学院计算机与信息工程系
关键词
半监督文本分类; Co-training; 特征视图; 差异性评估; 标注文本; 未标注文本;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
Co-training算法要求两个特征视图满足一致性和独立性假设,但是,许多实际应用中不存自然的划分且满足这种假设的两个视图,且直接评估两个视图的独立性有一定的难度.分析Co-training的理论假设,本文把寻找两个满足一致性和独立性特征视图的目标,转变成寻找两个既满足一定的正确性,又存在较大的差异性的两个基分类器的问题.首先利用特征评估函数建立多个特征视图,每个特征视图包含足够的信息训练生成一个基分类器,然后通过评估基分类器之间的差异性间接评估二者的独立性,选择两个满足一定的正确性和差异性比较大的基分类器协同训练.根据每个视图上采用的分类算法是否相同,提出了两种改进算法TV-SC和TV-DC.实验表明改进的TV-SC和TV-DC算法明显优于基于随机分割特征视图的Co-Rnd算法,而且TV-DC算法的分类效果要优于TV-SC算法.
引用
收藏
页码:138 / 143
页数:6
相关论文
共 5 条
[1]   文本分类中结合评估函数的TEF-WA权值调整技术 [J].
唐焕玲 ;
孙建涛 ;
陆玉昌 .
计算机研究与发展, 2005, (01) :47-53
[2]   Measures of diversity in classifier ensembles and their relationship with the ensemble accuracy [J].
Kuncheva, LI ;
Whitaker, CJ .
MACHINE LEARNING, 2003, 51 (02) :181-207
[3]   A theoretical analysis of the limits of Majority Voting errors for Multiple Classifier Systems [J].
Ruta, D ;
Gabrys, B .
PATTERN ANALYSIS AND APPLICATIONS, 2002, 5 (04) :333-350
[4]   Machine learning in automated text categorization [J].
Sebastiani, F .
ACM COMPUTING SURVEYS, 2002, 34 (01) :1-47
[5]  
Learning with labeled and unlabeled data .2 Seeger M. . 2002