通义千问、GPT-4o 等七款大模型“高考”成绩揭晓:前三名文科破一本线,理科跃二本线

【HowToTech科技】7月18日消息,近日,上海人工智能实验室揭晓了一场特殊的“高考”成绩,这场考试与众不同,因为它的参考者并非真实的学生,而是7个顶尖的AI大模型。这一评测的初衷在于探索当前大模型的真实能力水平,并寻找其可能存在的问题,以期推动技术的进步。

据评测结果,书生・浦语 2.0 系列文曲星大模型(浦语文曲星)、阿里通义千问大模型 Qwen2-72B 和广为人知的 GPT-4o
在众多模型中脱颖而出,分别在文科和理科的评测中位列前三。这三款大模型的文、理科成绩均超越了“一本”和“二本”的分数线,这一参考线是基于今年高考人数最多的河南省的分数线设定的。

此次参与评测的大模型除了上述三款外,还包括了Yi-1.5-34B、Qwen2-57B、GLM-4-9B以及来自法国AI初创公司Mistral的Mixtral
8×22B。整个评测过程严谨而全面,不仅进行了全卷的评分,还特意邀请了有高考阅卷经验的老师进行打分,以确保评分的公正性和准确性。

在这场特殊的“高考”中,Qwen2-72B
以546分的高分夺得了文科状元的桂冠,而浦语文曲星则以468.5分领跑理科。与此同时,GPT-4o在文理科均展现出不俗的实力。不过,国外的大模型Mixtral
8x22B在此次评测中表现相对较弱。

阅卷老师们在对答案进行仔细分析后指出,虽然大模型在基础知识的掌握上表现出色,但与真实考生相比,在逻辑推理和知识灵活应用上还存在明显差距。特别是在解答主观题时,大模型往往难以完整理解题目要求,导致答案与题目要求不符。在数学题的解答过程中,大模型的表现也显得机械且逻辑性不强。

根据上海人工智能实验室上个月公布的 AI 高考全卷结果,Qwen2-72B、GPT-4o 及书生・浦语 2.0
文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过
70%。大部分模型“考生”语文、英语科目表现良好,但数学方面仍有很大提升空间。

大鱼的头像

这个人很懒,什么都没有留下~

延伸阅读:

OpenAI 测试长输出版 GPT-4o:单次输出达64K tokens

【HowToTech科技】8月1日消息,OpenAI在7月29日透露,他们正在对一款名为GPT-4o Long Outp...

大鱼的头像
大鱼
2024 年 8 月 1 日
ISC.AI2024数字安全峰会:360、华为、微软等共话安全+AI新挑战

7月31日,ISC.AI 2024数字安全峰会在北京国家会中心顺利召开。峰会以“打造安全大模型,引领安全行业革命”为主题...

大鱼的头像
大鱼
2024 年 7 月 31 日
ISC.AI2024开幕 周鸿祎发布国内首个免费安全大模型

“把大模型拉下神坛就要把免费贯彻到底,今天我在行业里第一个宣布安全大模型免费。”7月31日,ISC.AI2024第十二届...

大鱼的头像
大鱼
2024 年 7 月 31 日
阿里通义免费开放奥运AI大模型

7月31日,阿里通义宣布免费开放奥运AI大模型,具备最强奥运专业知识,并集合同声传译级别的中法互译功能。即日起,用户可以...

大鱼的头像
大鱼
2024 年 7 月 31 日
实时对话更自然,OpenAI 向部分付费订阅用户开放 GPT-4o 语音模式

【HowToTech科技】7月31日消息,OpenAI于当地时间30日宣布,即日起GPT-4o的语音模式(注:Alpha...

大鱼的头像
大鱼
2024 年 7 月 31 日