基于属性选择的半监督短文本分类算法

被引:20
作者
蔡月红 [1 ,2 ]
朱倩 [1 ]
孙萍 [1 ]
程显毅 [1 ]
机构
[1] 江苏大学计算机科学与通信工程学院
[2] 江苏大学外语学习中心
关键词
属性选择; 半监督学习; 短文本; 文本分类; 集成学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对海量短文本分类中的标注语料匮乏问题,提出了一种基于属性选择的半监督短文本分类算法。通过基于ReliefF评估和独立性度量的属性选择技术选出部分具有较好的属性独立关系的属性参与分类模型的学习,以弱化朴素贝叶斯模型的强独立性假设条件;借助集成学习,以具有一定差异性的分类器组去估计初始值,并以多数投票策略去分类未标注语料集,以减低最大期望算法(EM)对于初始值的敏感。通过真实语料上进行的比较实验,证明了该方法能有效利用大量未标注语料提高算法的泛化能力。
引用
收藏
页码:1015 / 1018
页数:4
相关论文
共 6 条
[1]
Theoretical and empirical analysis of ReliefF and RReliefF [J].
Robnik-Sikonja, M ;
Kononenko, I .
MACHINE LEARNING, 2003, 53 (1-2) :23-69
[2]
Text classification from labeled and unlabeled documents using EM [J].
Nigam, K ;
McCallum, AK ;
Thrun, S ;
Mitchell, T .
MACHINE LEARNING, 2000, 39 (2-3) :103-134
[3]
基于领域词语本体的短文本分类 [J].
宁亚辉 ;
樊兴华 ;
吴渝 .
计算机科学, 2009, 36 (03) :142-145
[4]
一种基于特征扩展的中文短文本分类方法 [J].
王细薇 ;
樊兴华 ;
赵军 .
计算机应用, 2009, 29 (03) :843-845
[5]
用于不完整数据的选择性贝叶斯分类器 [J].
陈景年 ;
黄厚宽 ;
田凤占 ;
付树军 .
计算机研究与发展, 2007, (08) :1324-1330
[6]
基于Boosting的TAN组合分类器 [J].
石洪波 ;
黄厚宽 ;
王志海 .
计算机研究与发展, 2004, (02) :340-345