基于混合注意力机制的中文机器阅读理解

被引:5
作者
刘高军 [1 ,2 ]
李亚欣 [1 ,2 ]
段建勇 [1 ,2 ]
机构
[1] 北方工业大学信息学院
[2] 北方工业大学CNONIX国家标准应用与推广实验室
关键词
中文机器阅读理解; 注意力机制; 融合机制; 预训练模型; RoBERTa模型;
D O I
10.19678/j.issn.1000-3428.0062206
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
预训练语言模型在机器阅读理解领域具有较好表现,但相比于英文机器阅读理解,基于预训练语言模型的阅读理解模型在处理中文文本时表现较差,只能学习文本的浅层语义匹配信息。为了提高模型对中文文本的理解能力,提出一种基于混合注意力机制的阅读理解模型。该模型在编码层使用预训练模型得到序列表示,并经过BiLSTM处理进一步加深上下文交互,再通过由两种变体自注意力组成的混合注意力层处理,旨在学习深层语义表示,以加深对文本语义信息的理解,而融合层结合多重融合机制获取多层次的表示,使得输出的序列携带更加丰富的信息,最终使用双层BiLSTM处理输入输出层得到答案位置。在CMRC2018数据集上的实验结果表明,与复现的基线模型相比,该模型的EM值和F1值分别提升了2.05和0.465个百分点,能够学习到文本的深层语义信息,有效改进预训练语言模型。
引用
收藏
页码:67 / 72+80 +80
页数:7
相关论文
共 5 条
  • [1] 面向机器阅读理解的语句填补答案选择方法
    徐丽丽
    李茹
    李月香
    郭少茹
    谭红叶
    [J]. 计算机工程, 2018, 44 (07) : 183 - 187+192
  • [2] DRCD: a Chinese Machine Reading Comprehension Dataset[J] . Chih-Chieh Shao,Trois Liu,Yuting Lai,Yiying Tseng,Sam Tsai.CoRR . 2018
  • [3] Bidirectional Attention Flow for Machine Comprehension[J] . Min Joon Seo,Aniruddha Kembhavi,Ali Farhadi,Hannaneh Hajishirzi.CoRR . 2016
  • [4] Pre-training with whole word masking for Chinese BERT. CUI Y M,CHE W X,LIU T,et al. https://arxiv. org/abs/1906.08101 . 2021
  • [5] A span-extraction dataset for Chinese machine reading comprehension. CUI Y M,LIU T,CHE W X,et al. https://arxiv. org/abs/1810.07366 . 2021