Web文本挖掘技术研究及应用

被引:0
作者
李晓笛
机构
[1] 北京交通大学
关键词
Web文本挖掘; 分类; 改进的朴素贝叶斯分类器; MapReduce; 大数据;
D O I
暂无
年度学位
2015
学位类型
硕士
摘要
随着网络的发展,每天都有大量的网站出现。大量的网站产生了海量的Web网页,这些Web网页包含的信息非常广泛,内容也千差万别。因此如何从海量的Web网页中精准的获取到所需要的信息就成为提高人们学习和工作效率的关键。在这种情况下,Web文本分类就显示了极其重要的作用。 本文结合了中文文本分类的流程,从网页的获取、中文分词、特征提取、分类算法的改进及实现五个方面做了详细的研究和实现。主要工作包括如下: (1)论文说明了网页获取的过程,介绍了常见的分词算法和特征提取算法。论文分析了Web文本挖掘中常见的分类算法的原理,并且总结了各种分类算法的优势和劣势,以及在现实应用中存在的问题。 (2)论文针对待分类的数据,从分类精确度和效率方面综合考虑,选择了朴素贝叶斯分类器并对其进行了改进。重点分析了贝叶斯分类算法的原理及存在的不足,即:属性之间独立型的假设。然后结合实际情况提出了改进算法。改进算法在不改变其属性独立假设的前提下充分考虑了特征项在整个数据集中出现的频次,然后引入了一个加权系数作用在各个特征项的条件概率上,这样就使得分类算法更加准确,并且基本没有增加计算强度。另外,改进算法召回率方面也有不错的性能。 (3)论文对改进朴素贝叶斯分类器算法的并行计算进行了可行性的分析,结合目前常见的大数据处理框架MapReduce,对改进的朴素贝叶斯分类器设计了具体的流程,并且做出了实现方案。设计方案在伪分布模式下搭建实验环境进行实验。从网页的获取、分词和分类三个方面进行了实验和探索。 (4)最后,论文结合实验获得的结果对改进算法的分类效果进行了评价,实验达到了预期的结果。 总之,论文分析了Web文本分类的各个环节,研究并改进了朴素贝叶斯分类算法,并在大数据的环境下对其做了具体的实现。论文最后对改进朴素贝叶斯分类算法和朴素贝叶斯的分类效果进行了比较,证明了改进算法的效果确实有了提高。
引用
收藏
页数:76
共 28 条
[1]
文本分类及其相关技术研究 [D]. 
尚文倩 .
北京交通大学,
2007
[3]
大数据时代的机遇与挑战 [J].
邬贺铨 .
信息安全与通信保密, 2013, (03) :9-10
[4]
信息爆炸时代的新概念——大数据 [J].
孟薇薇 .
商品与质量, 2012, (09) :9
[5]
基于改进KNN算法的中文文本分类方法 [J].
王爱平 ;
徐晓艳 ;
国玮玮 ;
李仿华 .
微型机与应用, 2011, 30 (18) :8-10+13
[6]
基于树桩网络的贝叶斯文本分类算法 [J].
杨延娇 ;
王治和 .
计算机工程, 2009, 35 (16) :201-202+205
[7]
[8]
基于特征加权的朴素贝叶斯分类器 [J].
程克非 ;
张聪 .
计算机仿真, 2006, (10) :92-94+150
[9]
基于语义的汉语文献主题词提取算法研究 [J].
唐培丽 ;
王树明 ;
胡明 .
吉林大学学报(信息科学版), 2005, (05) :535-540
[10]
Web智能研究现状与发展趋势 [J].
王本年 ;
高阳 ;
陈世福 ;
谢俊元 .
计算机研究与发展, 2005, (05) :721-727