基于特征矩阵构造与BP神经网络的垃圾文本过滤模型

被引:17
作者
方瑞 [1 ]
于俊洋 [1 ]
董李锋 [2 ]
机构
[1] 河南大学软件学院
[2] 河南九域腾龙信息工程有限公司
关键词
BERT模型; 特征构造; BP神经网络; 垃圾文本过滤; 文本分类; 句编码;
D O I
10.19678/j.issn.1000-3428.0055414
中图分类号
TP391.1 [文字信息处理]; TP183 [人工神经网络与计算];
学科分类号
120506 [数字人文]; 140502 [人工智能];
摘要
在网络社交平台海量的信息文本中含有许多垃圾文本,这些文本的广泛散布影响了人们正常社交。为此,提出一种垃圾文本过滤模型。通过BERT模型提取文本的句编码,采用B-Feature方法对句编码进行特征构造,并根据文本与所得特征之间的联系进一步将该特征构造为特征矩阵,运用BP神经网络分类器对特征矩阵进行处理,检测出垃圾文本并进行过滤。实验结果表明,该模型在长、中、短文本数据集上的准确率较TFIDF-BP模型分别提高7.8%、3.8%和11.7%,在中、短文本数据集上的准确率较朴素贝叶斯模型分别提高2.1%和13.7%,能有效对垃圾文本进行分类和过滤。
引用
收藏
页码:271 / 276
页数:6
相关论文
共 11 条
[1]
基于多样化内容数据的个性化推荐系统 [D]. 
练建勋 .
中国科学技术大学,
2018
[2]
基于细粒度数据流架构的稀疏神经网络全连接层加速 [J].
向陶然 ;
叶笑春 ;
李文明 ;
冯煜晶 ;
谭旭 ;
张浩 ;
范东睿 .
计算机研究与发展, 2019, 56 (06) :1192-1204
[3]
多层神经网络算法的计算特征建模方法 [J].
方荣强 ;
王晶 ;
姚治成 ;
刘畅 ;
张伟功 .
计算机研究与发展, 2019, 56 (06) :1170-1181
[4]
粒计算思维下的BP神经网络在金融趋势预测中的应用 [J].
沈泽君 ;
杨文元 .
小型微型计算机系统, 2019, 40 (03) :527-532
[5]
一种面向软件特征定位问题的语义相似度集成方法 [J].
何云 ;
李彤 ;
王炜 ;
李响 ;
兰微 .
计算机研究与发展, 2019, 56 (02) :394-409
[6]
增强上下文的错误定位技术 [J].
张卓 ;
谭庆平 ;
毛晓光 ;
雷晏 ;
常曦 ;
薛建新 .
软件学报, 2019, 30 (02) :266-281
[7]
基于犹豫模糊决策树的非均衡数据分类 [J].
张旭 ;
周新志 ;
赵成萍 ;
邵伦 .
计算机工程, 2019, 45 (08) :75-79+91
[8]
基于多粒度特征和混合算法的文档推荐系统 [J].
邬登峰 ;
白琳 ;
王涛 ;
李慧 ;
许舒人 .
计算机系统应用, 2018, 27 (03) :9-17
[9]
基于模拟退火的BP网络隐藏层节点估算算法 [J].
张世睿 ;
李心科 .
合肥工业大学学报(自然科学版), 2017, 40 (11) :1489-1491+1506
[10]
特征选择稳定性研究综述 [J].
刘艺 ;
曹建军 ;
刁兴春 ;
周星 .
软件学报, 2018, 29 (09) :2559-2579