改进的简单贝叶斯文本分类

被引:6
作者
刘华
机构
[1] 暨南大学华文学院海外华语研究中心
关键词
文本分类; 简单贝叶斯; 词语类别区别度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
对简单贝叶斯分类中的条件概率加权因子进行了改进,引进了体现词语分类贡献大小的类别区别度,新的加权方法为频率与类别区别度的乘积,既强调了区别度高的词语,降低了常见词的影响,又体现了区别度高的词语频次的积极作用.实验证明,在约3万篇测试集上(共15个大类,244个小类),该改进比原来的加权方法提高了分类效果:大类和小类微平均分别提高了约18.9%和7.6%.
引用
收藏
页码:48 / 51
页数:4
相关论文
共 5 条
[1]  
中文文本分类特征表示及分类方法比较研究.[A].周雪忠;方青;吴朝晖;.20th International Conference on Computer Processing of Oriental Languages.2003,
[2]   基于改进贝叶斯模型的问题分类 [J].
张宇 ;
刘挺 ;
文勖 .
中文信息学报, 2005, (02) :100-105
[3]   文本分类实现技术 [J].
王灏 ;
黄厚宽 ;
田盛丰 .
广西师范大学学报(自然科学版), 2003, (01) :173-179
[4]  
多类多标签汉语文本自动分类的研究.[J].施彤年;卢忠良;荣融;王家云;.情报学报.2003, 03
[5]  
基于大规模真实文本的平衡语料分析与文本分类方法.[A].陈克利;宗成庆;王霞;.全国第七届计算语言学联合学术会议.2003,