基于深度学习的中医古籍缺失文本修复研究

被引:4
作者
盛威
卢彦杰
刘伟
胡为
周冲
机构
[1] 湖南中医药大学信息科学与工程学院
基金
湖南省自然科学基金;
关键词
中医古籍; 语言模型; 文本修复; 深度学习; RoBERTa;
D O I
暂无
中图分类号
R2-5 [中医学丛书、文集、连续出版物]; G255.1 [善本、线装古籍];
学科分类号
100503 ; 050104 ; 060202 ;
摘要
目的:基于构建的高质量中医古籍文本语料库及深度学习语言模型,训练出可以应用于中医古籍缺失文本修复的模型,为中医古籍修复工作提供帮助。方法:分别训练和测试N-gram模型、LSTM模型、BiLSTM模型、RoBERTa模型,对比筛选出最优模型,并将筛选出的最优模型运用到文本修复场景中。结果:BiLSTM模型优于LSTM模型,LSTM模型明显优于N-gram模型,而RoBERTa模型效果最优,将RoBERTa模型运用到《黄帝内经》的修复中,达到了63.36%的hit@1,82.57%的hit@5。结论:将深度学习技术应用于中医古籍缺失文本修复中具有较好的效果,能够为中医古籍修复提供帮助。
引用
收藏
页码:1 / 7
页数:7
相关论文
共 20 条
  • [1] 结合Doc2Vec和BERT嵌入技术的补丁验证方法
    黄颖
    姜淑娟
    蒋婷婷
    [J]. 计算机科学, 2022, 49 (11) : 83 - 89
  • [2] 一种使用RoBERTa-BiLSTM-CRF的中文地址解析方法
    张红伟
    杜清运
    陈张建
    张琛
    [J]. 武汉大学学报(信息科学版) , 2022, (05) : 665 - 672
  • [3] 语言模型攻击性的自动评价方法
    侯丹阳
    庞亮
    丁汉星
    兰艳艳
    程学旗
    [J]. 中文信息学报, 2022, (01) : 12 - 20
  • [4] Reveal training performance mystery between Tensor Flow and PyTorch in the single GPU environment[J]. Hulin DAI,Xuan PENG,Xuanhua SHI,Ligang HE,Qian XIONG,Hai JIN.Science China(Information Sciences). 2022(01)
  • [5] 基于语言模型的预训练技术研究综述
    岳增营
    叶霞
    刘睿珩
    [J]. 中文信息学报, 2021, 35 (09) : 15 - 29
  • [6] SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究[J]. 王东波,刘畅,朱子赫,刘江峰,胡昊天,沈思,李斌.图书馆论坛. 2022(06)
  • [7] 利用迁移学习精准识别领域信息之探讨
    陆泉
    郝志同
    陈静
    陈仕
    朱安琪
    [J]. 图书情报工作 , 2021, (05) : 110 - 117
  • [8] 基于LSTM-CRF的中医医案症状命名实体抽取研究
    高佳奕
    杨涛
    董海艳
    史话跃
    胡孔法
    [J]. 中国中医药信息杂志, 2021, 28 (05) : 20 - 24
  • [9] 基于N-gram的双向匹配中文分词方法
    凤丽洲
    杨贵军
    徐雪
    徐玉慧
    [J]. 数理统计与管理, 2020, 39 (04) : 633 - 643
  • [10] 一种基于Roberta的中文实体关系联合抽取模型
    王华锋
    王久阳
    [J]. 北方工业大学学报, 2020, 32 (02) : 90 - 98