基于BERT模型的中文医学文献分类研究

被引:30
作者
赵旸 [1 ,2 ,3 ]
张智雄 [1 ,2 ,3 ,4 ]
刘欢 [1 ,2 ,3 ]
丁良萍 [1 ,2 ,3 ]
机构
[1] 中国科学院文献情报中心
[2] 中国科学院大学经济与管理学院图书情报与档案管理系
[3] 科技大数据湖北省重点实验室
[4] 中国科学院武汉文献情报中心
关键词
深度学习; BERT; 文献分类; 预训练模型;
D O I
暂无
中图分类号
G254.1 [分类法]; R-05 [医学与其他学科的关系];
学科分类号
1205 ; 120501 ; 1001 ;
摘要
【目的】探究BERT中文基础模型(BERT-Base-Chinese)和BERT中文医学预训练模型(BERT-RePretraining-Med-Chi)在中文医学文献分类上的分类效果及差异原因。【方法】以34万篇中文医学文献摘要为医学文本预训练语料,分别以16 000和32 000条中文医学文献摘要为分类的训练样本,并以另外的3 200条摘要作为测试样本,利用BERT的两个模型进行中文医学文献分类研究,以SVM模型作为对比基准。【结果】BERT的两种模型在分类效果上均优于SVM模型,两种模型的F1值均比SVM模型高出0.05左右;BERT-RePretraining-Med-Chi模型在两种样本量下的F1值分别达到0.839 0和0.860 7,均为三者中最好的分类效果。【局限】仅对中图分类号R下的16个类别进行分类研究,其余4个类别因数据量过少等原因而未纳入分类体系中。【结论】BERT-Re-Pretraining-Med-Chi模型能够显著提升医学文献的分类效果;基于BERT的深度学习方法在多类别大规模训练集下更能体现其分类的优越性。
引用
收藏
页码:41 / 49
页数:9
相关论文
共 13 条
[1]   基于BERT模型的舆情分类应用研究 [J].
胡春涛 ;
秦锦康 ;
陈静梅 ;
张亮 .
网络安全技术与应用, 2019, (11) :41-44
[2]   ALICE:一种面向中文科技文本分析的预训练语言表征模型 [J].
王英杰 ;
谢彬 ;
李宁波 .
计算机工程, 2020, 46 (02) :48-52+58
[3]   基于LSTM算法在新闻分类中的应用 [J].
朱肖颖 ;
赖绍辉 ;
陆科达 .
梧州学院学报, 2018, 28 (06) :10-20
[4]   基于深度学习的专利分类方法 [J].
马建红 ;
王瑞杨 ;
姚爽 ;
刘双耀 .
计算机工程, 2018, 44 (10) :209-214
[5]   基于卷积神经网络的文献自动分类研究 [J].
郭利敏 .
图书与情报, 2017, (06) :96-103
[6]   LDA模型下文本自动分类算法比较研究——基于网页和图书期刊等数字文本资源的对比 [J].
李湘东 ;
潘练 .
信息资源管理学报, 2015, 5 (04) :24-31+46
[7]   LDA模型下书目信息分类系统的研究与实现 [J].
李湘东 ;
廖香鹏 ;
黄莉 .
现代图书情报技术, 2014, (05) :18-25
[8]   机器学习在中文期刊论文自动分类研究中的应用 [J].
王昊 ;
叶鹏 ;
邓三鸿 .
现代图书情报技术, 2014, (03) :80-87
[9]   基于SVM的中文书目自动分类及应用研究 [J].
杨敏 ;
谷俊 .
图书情报工作, 2012, 56 (09) :114-119
[10]   基于SVM和KNN算法的科技文献自动分类研究 [J].
白小明 ;
邱桃荣 .
微计算机信息, 2006, (36) :275-276+65