ChatGPT中文性能测评与风险应对

被引:117
作者
张华平
李林翰
李春锦
机构
[1] 不详
[2] 北京理工大学计算机学院
[3] 不详
基金
北京市自然科学基金;
关键词
语言模型; ChatGPT; 人工智能;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
【目的】简要介绍ChatGPT的主要技术创新,使用9个数据集在4个任务上测评ChatGPT的中文性能,分析ChatGPT潜在的风险以及中国应对策略建议。【方法】使用ChnSentiCorp数据集测试ChatGPT和WeLM模型,EPRSTMT数据集测试ChatGPT和ERNIE 3.0 Titan,发现ChatGPT在情感分析任务上与国产大模型差距不大;使用LCSTS和TTNews数据集测试ChatGPT和WeLM模型,ChatGPT均优于WeLM;使用CMRC2018和DRCD数据集进行抽取式的机器阅读理解,C3数据集进行常识性的机器阅读理解,发现ERNIE 3.0 Titan在该任务中优于ChatGPT;使用WebQA和CKBQA数据集进行中文闭卷问答测试,发现ChatGPT容易产生事实性错误,与国产模型差距较大。【结果】ChatGPT在自然语言处理的经典任务上表现较好,在情感分析上具有85%以上的准确率,在闭卷问答上出现事实性错误的概率较高。【局限】将判别式的任务转为生成式的过程中可能引入评估分数的误差。本文仅在零样本情况下评估ChatGPT,并不清楚其在其他情况下的表现。由于后续版本的迭代更新,ChatGPT评测结果具有一定的时效性。【结论】ChatGPT很强大但仍然存在一些缺点,研发中国化的大模型应以国家战略需求为导向,并且注意语言模型的风险和局限。
引用
收藏
页码:16 / 25
页数:10
相关论文
共 8 条
  • [1] ChatGPT: five priorities for research[J] . van Dis Eva A M,Bollen Johan,Zuidema Willem,van Rooij Robert,Bockting Claudi L.Nature . 2023 (7947)
  • [2] ChatGPT is fun, but not an author[J] . Thorp H Holden.Science (New York, N.Y.) . 2023 (6630)
  • [3] Investigating Prior Knowledge for Challenging Chinese Machine Reading Comprehension
    Sun, Kai
    Yu, Dian
    Yu, Dong
    Cardie, Claire
    [J]. TRANSACTIONS OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 2020, 8 : 141 - 155
  • [4] DRCD: a Chinese Machine Reading Comprehension Dataset[J] . Chih-Chieh Shao,Trois Liu,Yuting Lai,Yiying Tseng,Sam Tsai.CoRR . 2018
  • [5] Long short-term memory
    Hochreiter, S
    Schmidhuber, J
    [J]. NEURAL COMPUTATION, 1997, 9 (08) : 1735 - 1780
  • [6] FINDING STRUCTURE IN TIME
    ELMAN, JL
    [J]. COGNITIVE SCIENCE, 1990, 14 (02) : 179 - 211
  • [7] Rouge:A package for automatic evaluation of summaries. Lin C Y. Text Summarization Branches Out . 2004
  • [8] Language models are few-shot learners. Brown T,Mann B,Ryder N,et al. Advances in Neural Information Processing Systems . 2020