手机短信依靠移动性强、收发便捷、资费低等优势,已逐渐成为人们重要的沟通工具。手机用户数量的不断增加推着短信发送数量呈几何级数上升。垃圾短信的问题也因此突显出来,不仅对人们的正常生活造成了诸多的不良影响,还对公共安全和社会稳定造成了一定程度的危害。因此对垃圾短信准确过滤显得尤其重要。经过研究发现,现有的短信过滤技术存在一些不足;基于黑白名单的过滤技术显得过于简单粗暴,基于内容分析技术虽然准确度得到很大程度的提高,但在实现上也存在着复杂度过高、易导致信息网络阻塞等不足。
研究发现基于内容过滤技术的不足之处在于计算能力跟不上,而不是方法不正确。针对上述过滤技术的缺点,本文详细调查分析了这两年飞速发展起来的云计算技术,发现其技术在伸缩性、可靠性、成本等方面具有非常大的优势。特别需要指出的是依靠它的高扩展能力可以把计算规模做到无限大,而且成本又非常低,故可以作为不错的计算平台。有这个基础,本文接着分析了现行基于内容过滤器所使用的算法,发现大部分方案是基于贝叶斯分类原理来实现的。经过研究贝叶斯分类算法基础,并做了大量相关实验,发现其可以在云计算平台上通过MapReduce编程模型来实现。
本文主要工作如下:
(1)深入分析正在使用的垃圾短信过滤的实现方案,对各过滤实现方式的原理及其性能做仔细分析比较
(2)分析了云计算技术各种应用,重点对云计算的Hadoop开源实现方案中的MapReduce编程模型做深入的研究。
(3)对于贝叶斯分类器的基础原理及相应的算法实现做了详细的研究,根据其算法特点提出了基于云计算的贝叶斯分类器方案。
(4)基于开源的Hadoop的云计算实现方案构建了基于贝叶斯分类的短信过滤器,并对其实现做了详细的论述。