随着网络的发展,每天都有大量的网站出现。大量的网站产生了海量的Web网页,这些Web网页包含的信息非常广泛,内容也千差万别。因此如何从海量的Web网页中精准的获取到所需要的信息就成为提高人们学习和工作效率的关键。在这种情况下,Web文本分类就显示了极其重要的作用。
本文结合了中文文本分类的流程,从网页的获取、中文分词、特征提取、分类算法的改进及实现五个方面做了详细的研究和实现。主要工作包括如下:
(1)论文说明了网页获取的过程,介绍了常见的分词算法和特征提取算法。论文分析了Web文本挖掘中常见的分类算法的原理,并且总结了各种分类算法的优势和劣势,以及在现实应用中存在的问题。
(2)论文针对待分类的数据,从分类精确度和效率方面综合考虑,选择了朴素贝叶斯分类器并对其进行了改进。重点分析了贝叶斯分类算法的原理及存在的不足,即:属性之间独立型的假设。然后结合实际情况提出了改进算法。改进算法在不改变其属性独立假设的前提下充分考虑了特征项在整个数据集中出现的频次,然后引入了一个加权系数作用在各个特征项的条件概率上,这样就使得分类算法更加准确,并且基本没有增加计算强度。另外,改进算法召回率方面也有不错的性能。
(3)论文对改进朴素贝叶斯分类器算法的并行计算进行了可行性的分析,结合目前常见的大数据处理框架MapReduce,对改进的朴素贝叶斯分类器设计了具体的流程,并且做出了实现方案。设计方案在伪分布模式下搭建实验环境进行实验。从网页的获取、分词和分类三个方面进行了实验和探索。
(4)最后,论文结合实验获得的结果对改进算法的分类效果进行了评价,实验达到了预期的结果。
总之,论文分析了Web文本分类的各个环节,研究并改进了朴素贝叶斯分类算法,并在大数据的环境下对其做了具体的实现。论文最后对改进朴素贝叶斯分类算法和朴素贝叶斯的分类效果进行了比较,证明了改进算法的效果确实有了提高。