基于深度学习的虚假健康信息识别

被引：20

作者：

於张闲

冒宇清

胡孔法

机构：

[1] 南京中医药大学人工智能与信息技术学院

来源：

软件导刊 | 2020年 / 19卷 / 03期

基金：

国家重点研发计划;

关键词：

健康信息; 词向量; 深度神经网络模型; 语言表征模型; 预训练模型;

D O I：

暂无

中图分类号：

TP18 [人工智能理论]; R-05 [医学与其他学科的关系];

学科分类号：

100117 [系统生物医学]; 140502 [人工智能];

摘要：

随着互联网的迅猛发展,网上健康信息以几何速度增长,其中大量虚假健康信息给人们的生活带来了很大影响,但目前对虚假健康信息文本识别的研究非常缺乏,以往研究主要集中在识别微博上的谣言、伪造商品评论、垃圾邮件及虚假新闻等方面。鉴于此,采用基于词向量的深度神经网络模型和基于双向编码的语言表征模型,对互联网上流传广泛的健康信息文本进行自动分类,识别其中的虚假健康信息。实验中,深度网络模型比传统机器学习模型性能提高10%,融合Word2vec的深度神经网络模型比单独的CNN或Att-BiLSTM模型在分类性能上提高近7%。BERT模型表现最好,准确率高达88.1%。实验结果表明,深度学习可以有效识别虚假健康信息,并且通过大规模语料预训练获得的语言表征模型比基于词向量的深度神经网络模型性能更好。

引用

页码：16 / 20

页数：5

共 15 条

[1]

文本分类中KNN算法优化问题的研究.[D].王枫飞.天津理工大学.2018,

[2]

网络环境下健康信息的可理解性研究 [D].