语言模型攻击性的自动评价方法

被引:3
作者
侯丹阳 [1 ,2 ]
庞亮 [1 ,2 ]
丁汉星 [1 ,2 ]
兰艳艳 [3 ,2 ]
程学旗 [3 ,2 ]
机构
[1] 中国科学院计算技术研究所数据智能系统研究中心
[2] 中国科学院大学
[3] 中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室
基金
国家重点研发计划;
关键词
文本生成; 语言模型; 自动评价;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
基于大规模语料训练的语言模型,在文本生成任务上取得了突出性能表现。然而研究发现,这类语言模型在受到扰动时可能会产生攻击性的文本。这种不确定的攻击性给语言模型的研究和实际使用带来了困难,为了避免风险,研究人员不得不选择不公开论文的语言模型。因此,如何自动评价语言模型的攻击性成为一项亟待解决的问题。针对该问题,该文提出了一种语言模型攻击性的自动评估方法。它分为诱导和评估两个阶段。在诱导阶段,基于即插即用可控文本生成技术,利用训练好的文本分类模型提供的梯度方向更新语言模型的激活层参数,增加生成的文本具有攻击性的可能性。在评估阶段,利用训练好的文本分类模型的判别能力,估计诱导产生的攻击性文本的占比,用以评估语言模型的攻击性。实验评估了不同设置下的预训练模型的攻击性水平,结果表明该方法能够自动且有效地评估语言模型的攻击性,并进一步分析了语言模型的攻击性与模型参数规模、训练语料以及前置单词之间的关系。
引用
收藏
页码:12 / 20
页数:9
相关论文
共 3 条
  • [1] HuggingFace's Transformers: State-of-the-art Natural Language Processing. [J] . Thomas Wolf,Lysandre Debut,Victor Sanh,Julien Chaumond,Clement Delangue,Anthony Moi,Pierric Cistac,Tim Rault,Rémi Louf,Morgan Funtowicz,Jamie Brew.&nbsp&nbspCoRR . 2019
  • [2] CTRL: A Conditional Transformer Language Model for Controllable Generation. [J] . Nitish Shirish Keskar,Bryan McCann,Lav R. Varshney,Caiming Xiong,Richard Socher.&nbsp&nbspCoRR . 2019
  • [3] Attention is all you need .2 Ashish Vaswani,Noam Shazeer,Niki Parmar,et al. Proceedings of the 31st International Conference on Neural Information Processing Systems 30:Annual Conference on Neural Information Processing Systems . 2017