通义千问、GPT-4o 等七款大模型“高考”成绩揭晓：前三名文科破一本线，理科跃二本线

科技前沿 2024-07-18 大鱼手机阅读

【HowToTech科技】7月18日消息，近日，上海人工智能实验室揭晓了一场特殊的“高考”成绩，这场考试与众不同，因为它的参考者并非真实的学生，而是7个顶尖的AI大模型。这一评测的初衷在于探索当前大模型的真实能力水平，并寻找其可能存在的问题，以期推动技术的进步。

据评测结果，书生・浦语 2.0 系列文曲星大模型(浦语文曲星)、阿里通义千问大模型 Qwen2-72B 和广为人知的 GPT-4o
在众多模型中脱颖而出，分别在文科和理科的评测中位列前三。这三款大模型的文、理科成绩均超越了“一本”和“二本”的分数线，这一参考线是基于今年高考人数最多的河南省的分数线设定的。

此次参与评测的大模型除了上述三款外，还包括了Yi-1.5-34B、Qwen2-57B、GLM-4-9B以及来自法国AI初创公司Mistral的Mixtral
8×22B。整个评测过程严谨而全面，不仅进行了全卷的评分，还特意邀请了有高考阅卷经验的老师进行打分，以确保评分的公正性和准确性。