云计算环境下的一种改进的贝叶斯文本分类算法

被引:12
作者
张琳
邵天昊
机构
[1] 南京邮电大学计算机学院
关键词
云计算; 文本分类; 并行化; Hadoop;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
基于云计算的思想运用MapReduce模型解决了传统贝叶斯分类算法不适应大规模数据的缺陷,很大程度地提高了分类速度。结合并行化的特点对算法进行了相应的改进,加入了同义词合并和词频过滤等方法,使得向量维数降低,减少了误判。然后对其中特殊的关键词进行加权,增强了分类准确性。最后在Hadoop云计算平台上进行了实验,证明了传统的文本分类算法并行化后在Hadoop上运行具有较好的加速比,并且改进后的算法能够提高分类精确度。
引用
收藏
页码:339 / 342
页数:4
相关论文
empty
未找到相关数据