大语言模型在中学历史学科中的应用测评分析

被引:10
作者
申丽萍 [1 ]
何朝帆 [1 ]
曹东旭 [2 ]
朱云彬 [3 ]
吴永和 [4 ]
机构
[1] 上海交通大学计算机科学与工程系
[2] 上海交大附属中学
[3] 上海交大第二附属中学
[4] 华东师范大学教育信息技术学系
关键词
大语言模型; ChatGPT; 讯飞星火; 教育应用; 测评;
D O I
暂无
中图分类号
G633.51 [历史]; G434 [计算机化教学];
学科分类号
04 ; 0401 ; 040110 ;
摘要
大语言模型一经发布便获得广泛关注,但其在实际应用特别是教育领域的应用还存在诸多局限与挑战,因此需要对大语言模型在中文语境下的能力与风险进行测评。基于此,文章首先收集整理了一个包括10万条客观选择题与10套中学主观题测试卷的中学历史数据集,并在以ChatGPT、GPT-4和讯飞星火为代表的大语言模型上测试了该数据集中题目的回答表现。然后,文章详细分析了测试结果,发现虽然当前大语言模型的突出能力在于能够产生完整且流畅的表达,但其在中学历史知识测试中仍远低于适龄学生的平均水平,大语言模型应用于教育领域仍存在可靠性较差、可信度较低、具有偏见与歧视、推理能力不足、无法自动更新知识等问题。最后,文章针对大语言模型在中文语境下教育领域的应用提出建议,以期助力大语言模型在教育领域发挥更大的作用,为学生、教师带来更好的学习和教学体验。
引用
收藏
页码:62 / 71
页数:10
相关论文
共 2 条
[1]   ChatGPT中文性能测评与风险应对 [J].
张华平 ;
李林翰 ;
李春锦 .
数据分析与知识发现, 2023, 7 (03) :16-25
[2]   ChatGPT类产品:内在机制及其对学习评价的影响 [J].
沈书生 ;
祝智庭 .
中国远程教育, 2023, 43 (04) :8-15