基于文本挖掘的垃圾短信过滤方法

被引:0
作者
钟延辉
机构
[1] 电子科技大学
关键词
垃圾短信; 文本挖掘; 协同神经网络; 抽样过滤; MapReduce模型;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
手机短信作为一种收发便捷、移动性好、价格低廉的通讯方式,逐渐影响着人们的生活。但随着短信的日益普及,垃圾短信问题也变得日益严峻,其严重的泛滥不仅仅严重影响人们的正常生活,而且严重影响社会稳定和公共安全。垃圾短信的过滤成为了当前人们生活急需解决的一个重要任务,因此垃圾短信智能过滤技术的研究具有重要的意义。目前垃圾短信过滤技术包括黑白名单技术、规则过滤以及关键词匹配等。然而现有的技术需要对短信进行逐条分析与判断,存在大量运算,会造成短信服务中心网络堵塞,使得短信发送得不到及时的处理。 针对目前过滤技术的缺点,本文提出了一种基于抽样的短信流过滤方法,该方法提出用部分短信代表整个短信流的思想;同时给每个用户设定一个可信值,并根据用户可信值的不同,对发送到短信服务中心的短信进行不同强度的检测。检测到的短信根据短信的文字信息进行分类,而不必对每一条短信进行分析,提高了垃圾短信的处理效率。该方法整合了现有的垃圾短信过滤技术(长度过滤,黑白名单、关键词及内容过滤等技术)。在内容过滤技术中,本文采用了协同神经网络的分类方法,然而经典的Haken模型对海量数据识别是极为困难的,本文根据协同神经网络在注意参数相等时能快速识别的原理,改进算法,使之能适应海量垃圾短信分类。同时将现有的垃圾短信过滤技术和改进的协同神经网络应用于MapReduce模型之中。实验表明基于抽样的垃圾短信过滤方法比单一的内容过滤方法准确率和处理时间上有很大的提高,以及这些技术应用MapReduce模型中的可行性和有效性。 本文的主要工作包括: (1)概述了现有的垃圾短信过滤技术以及分析了这些技术存在的问题,同时对垃圾短信的定义、危害进行了描述。 (2)介绍了协同神经网络模型原理,并在现有的模型基础上进行改进,建立一个多输入单输出的协同神经网络结构,使之能适合海量的短信识别。 (3)提出了抽样短信流过滤方法,构建了一个基于抽样的短信流过滤系统。 (4)介绍了MapReduce模型,并将现有的垃圾短信过滤技术和改进的协同神经网络应用于MapReduce模型之中。
引用
收藏
页数:82
共 21 条
[1]
基于抽样的垃圾短信过滤方法 [J].
钟延辉 ;
傅彦 ;
陈安龙 ;
关娜 .
计算机应用研究, 2009, 26 (03) :933-935
[2]
Boosting算法研究 [J].
路刚 ;
陈永 ;
范永欣 ;
胡成 .
电脑知识与技术, 2008, 4 (36) :2698-2699+2708
[3]
基于向量空间的信息检索模型的改进 [J].
原媛 ;
彭建华 ;
张汝云 .
计算机工程与设计, 2008, (23) :6012-6015
[4]
垃圾短信的防治方法研究 [J].
何培舟 ;
温向明 ;
郑伟 .
通信技术, 2008, 41 (12) :340-342+346
[5]
垃圾短信综合治理的困境与抉择 [J].
张淑亚 ;
周书霞 .
经济研究导刊, 2008, (17) :110-111
[6]
文本挖掘理论概述 [J].
巩知乐 ;
张德贤 .
福建电脑, 2008, (09) :21-22
[7]
Web文本挖掘及相关技术研究 [J].
白翎雁 ;
才书训 .
沈阳工程学院学报(自然科学版), 2008, (03) :258-261
[8]
[9]
垃圾短信的防范与治理 [J].
梁作君 .
通信管理与技术, 2008, (03) :5-7+16
[10]
论垃圾广告短信的危害与治理对策 [J].
龚国伟 .
图书馆, 2008, (03) :100-101