一种改进的贝叶斯文本分类方法

被引:7
作者
张玉芳
陈剑敏
熊忠阳
机构
[1] 重庆大学计算机学院
关键词
文本分类; 独立性假设; 相关性;
D O I
10.16088/j.issn.1001-6600.2007.02.049
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
朴素贝叶斯分类(naive Bayes)有一个“独立性假设”:给定一个实例的类标签,实例中的每个属性的出现都独立于实例中其他属性的出现,而在实际应用中这种条件并不易满足,另外由于文本的特殊性,相关的特征项可能会产生新的语义信息。因此在训练文本时,对特征选择后产生的特征集用一种可行的方法考察它们之间的相关性,然后对相关程度高的特征进行合并处理。实验数据表明,这个改进的方法能提高朴素贝叶斯的算法精确度。
引用
收藏
页码:206 / 209
页数:4
相关论文
共 3 条
[1]   文本分类实现技术 [J].
王灏 ;
黄厚宽 ;
田盛丰 .
广西师范大学学报(自然科学版), 2003, (01) :173-179
[2]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90
[3]   Bayesian Network Classifiers [J].
Nir Friedman ;
Dan Geiger ;
Moises Goldszmidt .
Machine Learning, 1997, 29 :131-163