基于贝叶斯分类器的中文垃圾短信辨识

被引:3
作者
袁闻 [1 ,2 ]
王晓晔 [1 ,2 ]
邓高登 [1 ,2 ]
韩淼 [1 ,2 ]
杨星 [1 ,2 ]
谢晓喆 [1 ,2 ]
机构
[1] 天津理工大学智能计算及软件新技术重点实验室
[2] 天津理工大学计算机视觉与系统省部共建教育部重点实验室
关键词
贝叶斯分类器; 中文垃圾短信; 特征提取; 特征选择; 文本挖掘;
D O I
10.16661/j.cnki.1672-3791.2017.05.010
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
垃圾短信制造者出于商业目的或其他诈骗目的向手机用户大量发送垃圾短信或诈骗短信,使得手机用户不胜其扰。运营商在发送短信之前对短信加以辨识后,给可能是垃圾短信的信息贴上标签后再发送,将会大大降低手机用户受骗的机率。该文采用IF-IDF算法和离散特征的贝叶斯分类器,进行特征词选取,构建垃圾短信鉴别模型。通过垃圾短信训练数据集构建的中文垃圾短信贝叶斯分类模型,能够使垃圾短信的识别率保持在94%以上,具有较高的实用性。
引用
收藏
页码:10 / 13
页数:4
相关论文
共 10 条
  • [1] 树型贝叶斯网络分类器鉴别式训练研究.[D].王中锋.北京交通大学.2011, 09
  • [2] 基于改进情感词域识别的舆情情感分析研究
    王宝成
    何新宇
    [J]. 电子技术与软件工程, 2016, (03) : 167 - 167
  • [3] 基于亚分数混淆矩阵的中国典型区大尺度土地覆盖数据集评价
    蒋璐媛
    肖鹏峰
    冯学智
    李云
    朱榴骏
    [J]. 遥感技术与应用, 2015, 30 (02) : 353 - 363
  • [4] 基于TF*IDF的垃圾邮件过滤特征选择改进算法
    陈琦
    伍朝辉
    姚芳
    宋秀荣
    张付志
    [J]. 计算机应用研究, 2009, 26 (06) : 2165 - 2167
  • [5] 中文垃圾邮件过滤系统的实现和评估
    李星
    田莹
    段海新
    [J]. 大连理工大学学报, 2005, (S1) : 189 - 195
  • [6] 基于贝叶斯公式的垃圾邮件过滤方法
    詹川
    卢显良
    周旭
    侯孟书
    袁连海
    [J]. 计算机科学, 2005, (02) : 73 - 75
  • [7] Java中的集合接口
    江磊晶
    [J]. 中文信息, 2003, (05) : 81 - 84
  • [8] TextRank算法的改进及在政法全文检索系统中的应用.[D].张雯.广西大学.2015, 02
  • [9] 开源中文分词器的比较研究.[D].黄翼彪.郑州大学.2013, 12
  • [10] 基于布尔模型和扩展布尔模型的中文信息检索系统.[D].马强.辽宁科技大学.2012, 07