基于自训练EM算法的半监督文本分类

被引:17
作者
张博锋
白冰
苏金树
机构
[1] 国防科技大学计算机学院
基金
国家自然科学基金重大研究计划;
关键词
半监督学习; EM算法; 自训练; 文本分类; naveBayes;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
为了提高计算效率,提出基于自训练的改进EM算法STEM。在每步迭代的E-step中,将中间分类器最有把握对其类别进行预测的未标注样本转移至标注样本集,并应用到M-step中进行下一个中间分类器的训练,从而引入了利用中间结果的自训练机制。文本分类实验表明STEM算法在大部分情况下的分类准确性都高于EM,并通过减少迭代提高了分类器学习的计算效率。
引用
收藏
页码:65 / 69
页数:5
相关论文
共 7 条
[1]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[2]   一种实用高效的文本分类算法 [J].
王建会 ;
王洪伟 ;
申展 ;
胡运发 .
计算机研究与发展, 2005, (01) :85-93
[3]   基于分层高斯混合模型的半监督学习算法 [J].
孙广玲 ;
唐降龙 ;
不详 .
计算机研究与发展 , 2004, (01) :156-161
[4]   基于向量空间模型的文本过滤系统 [J].
黄萱菁 ;
夏迎炬 ;
吴立德 .
软件学报, 2003, (03) :435-442
[5]   Machine learning in automated text categorization [J].
Sebastiani, F .
ACM COMPUTING SURVEYS, 2002, 34 (01) :1-47
[6]  
Analyzing the Effectiveness and Applicability of Co-training .2 Nigam K,Ghani R. Proceedings of the 2000 ACM CIKM . 2000
[7]  
Semi-supervised Learning .2 Nigam K,McCallum A,Mitchell T. MIT Press . 2006