面向网络虚假医疗信息的识别模型构建研究——一种基于预训练的BERT模型

被引:41
作者
赵月华 [1 ,2 ]
朱思成 [1 ]
苏新宁 [1 ,2 ]
机构
[1] 南京大学信息管理学院
[2] 江苏省数据工程与知识服务重点实验室
关键词
虚假信息识别; 虚假医疗信息; BERT模型; 深度学习; 在线医疗信息;
D O I
暂无
中图分类号
R-05 [医学与其他学科的关系];
学科分类号
100117 [系统生物医学];
摘要
【目的/意义】解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络医疗信息识别模型。【方法/过程】本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路,并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。【结果/结论】结果表明,基于辟谣信息能够实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的BERT模型准确率为95.91%,F1值为94.57%,相比于传统机器学习模型和CNN模型提升分别接近6%和4%,表明本文构建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。【创新/局限】本文提出的方法能以较低成本建立专业领域的虚假信息数据集,所构建的BERT虚假医疗信息识别模型在小样本领域也具有实用价值,但在数据集规模、深度学习模型对比、模型性能评价指标等方面还有待拓展与延伸。
引用
收藏
页码:165 / 173
页数:9
相关论文
共 15 条
[1]
基于特征矩阵构造与BP神经网络的垃圾文本过滤模型 [J].
方瑞 ;
于俊洋 ;
董李锋 .
计算机工程, 2020, 46 (08) :271-276
[2]
社会网络谣言检测综述 [J].
高玉君 ;
梁刚 ;
蒋方婷 ;
许春 ;
杨进 ;
陈俊任 ;
王浩 .
电子学报, 2020, 48 (07) :1421-1435
[3]
在线健康咨询平台信息服务质量的物元模型及可拓评价研究 [J].
洪闯 ;
李贺 ;
彭丽徽 ;
许一明 .
数据分析与知识发现 , 2019, (08) :41-52
[4]
基于CNN和BiLSTM网络特征融合的文本情感分析 [J].
李洋 ;
董红斌 .
计算机应用, 2018, 38 (11) :3075-3080
[5]
基于情感分析的美食评论挖掘 [J].
吉书佩 ;
李晟宇 .
电脑知识与技术, 2018, 14 (29) :208-210
[6]
微博环境下用户健康信息扩散行为影响因素实证研究 [J].
李敏 ;
黄成 ;
叶孟良 ;
欧荣 ;
袁源 .
图书馆学研究 , 2017, (21) :81-91
[7]
基于卷积神经网络的谣言检测 [J].
刘政 ;
卫志华 ;
张韧弦 .
计算机应用, 2017, 37 (11) :3053-3056+3100
[8]
健康微信公众平台信息质量评价指标体系研究 [J].
张克永 ;
李贺 .
情报科学, 2017, 35 (11) :143-148+155
[9]
From "Infodemics" to Health Promotion: A Novel Framework for the Role of Social Media in Public Health.[J] Schillinger Dean;Chittamuru Deepti;Ramírez A Susana American journal of public health 2020,
[10]
TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems.[J] Martín Abadi;Ashish Agarwal;Paul Barham;Eugene Brevdo;Zhifeng Chen;Craig Citro;Gregory S. Corrado;Andy Davis;Jeffrey Dean;Matthieu Devin;Sanjay Ghemawat;Ian J. Goodfellow;Andrew Harp;Geoffrey Irving;Michael Isard;Yangqing Jia;Rafal Józefowicz;Lukasz Kaiser;Manjunath Kudlur;Josh Levenberg;Dan Mané;Rajat Monga;Sherry Moore;Derek Gordon Murray;Chris Olah;Mike Schuster;Jonathon Shlens;Benoit Steiner;Ilya Sutskever;Kuna