基于朴素贝叶斯方法的中文文本分类研究

被引:0
作者
李丹
机构
[1] 河北大学
关键词
文本分类; 朴素贝叶斯分类; 多变量伯努利模型; 多项式模型; 特征选择;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
计算机与网络技术自出现以来,发展迅速,并日趋完善,互联网已成为获取信息的主要来源。由于网络中大部分信息是文本数据,作为有效组织与管理文本数据重要基础的文本自动分类已成为具有重要应用价值的研究领域。基于贝叶斯理论的朴素贝叶斯分类方法具有简单、有效、速度快的优点,成为文本分类算法的重点研究内容之一。 本文首先对文本分类涉及到的中文分词、文本向量表示及特征权重计算等关键技术做了比较详细的分析研究;然后针对朴素贝叶斯文本分类的模型以及常用特征选择方法对朴素贝叶斯文本分类的性能影响进行了详细的研究与分析;最后,设计并使用Java在MyEclipse平台上实现了基于朴素贝叶斯方法的中文文本分类系统。 本文重点分析了多变量伯努利模型与多项式模型,通过实验对比得出在中文文本分类中多项式模型优于多变量伯努利模型。为了进一步提高分类精度,本文对多项式模型的平滑因子进行了改进,实验表明具有良好的分类效果。由于朴素贝叶斯分类模型是建立在属性之间条件独立性假设之上,因此特征选择的好坏与否对分类精度有较大影响。本文通过实验表明信息增益和χ2统计量是朴素贝叶斯文本分类较好的特征选择方法。
引用
收藏
页数:47
共 23 条
[1]
朴素贝叶斯分类器的研究与应用 [D]. 
王国才 .
重庆交通大学,
2010
[2]
基于互信息的朴素贝叶斯改进模型研究 [D]. 
张龙飞 .
吉林大学,
2010
[3]
基于PLS的文本分类技术研究 [D]. 
罗远胜 .
江西师范大学,
2006
[4]
文本分类及其相关技术研究 [D]. 
尚文倩 .
北京交通大学,
2007
[5]
基于贝叶斯理论的文本分类技术的研究与实现..刘或;.吉林大学.2009,
[6]
概率论与数理统计.[M].陈方樱;徐赐文;郑更新编著;.机械工业出版社.2006,
[7]
数据挖掘.[M].(新西兰)IanH.Witten;(新西兰)EibeFrank著;董琳[等]译;.机械工业出版社.2006,
[8]
数据挖掘导论.[M].(美)Pang-NingTan;(美)MichaelSteinbach;(美)VipinKumar著;范明;范宏建等译;.人民邮电出版社.2006,
[9]
中文信息处理技术教程.[M].朱巧明[等]编著;.清华大学出版社.2005,
[10]
数据仓库与数据挖掘.[M].武森等著;.冶金工业出版社.2003,