共 13 条
基于BERT模型的中文医学文献分类研究
被引:30
作者:
赵旸
[1
,2
,3
]
张智雄
[1
,2
,3
,4
]
刘欢
[1
,2
,3
]
丁良萍
[1
,2
,3
]
机构:
[1] 中国科学院文献情报中心
[2] 中国科学院大学经济与管理学院图书情报与档案管理系
[3] 科技大数据湖北省重点实验室
[4] 中国科学院武汉文献情报中心
来源:
关键词:
深度学习;
BERT;
文献分类;
预训练模型;
D O I:
暂无
中图分类号:
G254.1 [分类法];
R-05 [医学与其他学科的关系];
学科分类号:
1205 ;
120501 ;
1001 ;
摘要:
【目的】探究BERT中文基础模型(BERT-Base-Chinese)和BERT中文医学预训练模型(BERT-RePretraining-Med-Chi)在中文医学文献分类上的分类效果及差异原因。【方法】以34万篇中文医学文献摘要为医学文本预训练语料,分别以16 000和32 000条中文医学文献摘要为分类的训练样本,并以另外的3 200条摘要作为测试样本,利用BERT的两个模型进行中文医学文献分类研究,以SVM模型作为对比基准。【结果】BERT的两种模型在分类效果上均优于SVM模型,两种模型的F1值均比SVM模型高出0.05左右;BERT-RePretraining-Med-Chi模型在两种样本量下的F1值分别达到0.839 0和0.860 7,均为三者中最好的分类效果。【局限】仅对中图分类号R下的16个类别进行分类研究,其余4个类别因数据量过少等原因而未纳入分类体系中。【结论】BERT-Re-Pretraining-Med-Chi模型能够显著提升医学文献的分类效果;基于BERT的深度学习方法在多类别大规模训练集下更能体现其分类的优越性。
引用
收藏
页码:41 / 49
页数:9
相关论文