基于深度学习的虚假健康信息识别

被引:20
作者
於张闲
冒宇清
胡孔法
机构
[1] 南京中医药大学人工智能与信息技术学院
基金
国家重点研发计划;
关键词
健康信息; 词向量; 深度神经网络模型; 语言表征模型; 预训练模型;
D O I
暂无
中图分类号
TP18 [人工智能理论]; R-05 [医学与其他学科的关系];
学科分类号
100117 [系统生物医学]; 140502 [人工智能];
摘要
随着互联网的迅猛发展,网上健康信息以几何速度增长,其中大量虚假健康信息给人们的生活带来了很大影响,但目前对虚假健康信息文本识别的研究非常缺乏,以往研究主要集中在识别微博上的谣言、伪造商品评论、垃圾邮件及虚假新闻等方面。鉴于此,采用基于词向量的深度神经网络模型和基于双向编码的语言表征模型,对互联网上流传广泛的健康信息文本进行自动分类,识别其中的虚假健康信息。实验中,深度网络模型比传统机器学习模型性能提高10%,融合Word2vec的深度神经网络模型比单独的CNN或Att-BiLSTM模型在分类性能上提高近7%。BERT模型表现最好,准确率高达88.1%。实验结果表明,深度学习可以有效识别虚假健康信息,并且通过大规模语料预训练获得的语言表征模型比基于词向量的深度神经网络模型性能更好。
引用
收藏
页码:16 / 20
页数:5
相关论文
共 15 条
[1]
文本分类中KNN算法优化问题的研究.[D].王枫飞.天津理工大学.2018,
[2]
网络环境下健康信息的可理解性研究 [D]. 
陈娟 .
重庆医科大学,
2017
[3]
基于BERT模型的舆情分类应用研究 [J].
胡春涛 ;
秦锦康 ;
陈静梅 ;
张亮 .
网络安全技术与应用, 2019, (11) :41-44
[4]
基于CNN-BIGRU的中文文本情感分类模型 [J].
宋祖康 ;
阎瑞霞 .
计算机技术与发展, 2020, 30 (02) :166-170
[5]
基于神经网络模型的文本分类研究综述 [J].
孙嘉琪 ;
王晓晔 ;
周晓雯 .
天津理工大学学报, 2019, 35 (05) :29-33
[6]
基于BiLSTM-CNN串行混合模型的文本情感分析 [J].
赵宏 ;
王乐 ;
王伟杰 .
计算机应用, 2020, 40 (01) :16-22
[7]
ALICE:一种面向中文科技文本分析的预训练语言表征模型 [J].
王英杰 ;
谢彬 ;
李宁波 .
计算机工程, 2020, 46 (02) :48-52+58
[8]
基于GLU-CNN和Attention-BiLSTM的神经网络情感倾向性分析 [J].
孙承爱 ;
丁宇 ;
田刚 .
软件, 2019, 40 (07) :62-66
[9]
基于CNN和BiLSTM网络特征融合的文本情感分析 [J].
李洋 ;
董红斌 .
计算机应用, 2018, 38 (11) :3075-3080
[10]
字符级卷积神经网络短文本分类算法 [J].
刘敬学 ;
孟凡荣 ;
周勇 ;
刘兵 .
计算机工程与应用, 2019, (05) :135-142