基于改进的朴素贝叶斯文本分类研究

被引:7
作者
安艳辉 [1 ]
董五洲 [2 ]
游自英 [3 ]
机构
[1] 河北省信息产业厅教育中心
[2] 河北省教育考试院信息处
[3] 石家庄邮电职业技术学院计算机系
关键词
文本分类; 朴素贝叶斯; K近邻; 知网; 中文分词;
D O I
10.16191/j.cnki.hbkx.2007.01.008
中图分类号
TP18 [人工智能理论]; TP391.1 [文字信息处理];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
文本分类(Text Categorization,TC)指的是把一个自然语言文本,根据其主题归入到预先定义好的类别中的过程。文本分类是自然语言处理的一个基础性工作,也是近年来人们研究的热点话题。针对朴素贝叶斯算法在小样本集分类效果不高的原因进行了分析,对其进行了改进和调整,提出了基于改进的朴素贝叶斯文本分类方法,试验结果表明,该方法取得了更好的效果。
引用
收藏
页码:22 / 25
页数:4
相关论文
共 2 条
[1]   人名、机构名在基于概念的文本分类中的应用研究 [J].
吴志峰 ;
田学东 .
河北大学学报(自然科学版), 2004, (06) :657-661
[2]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26