参数破3000亿却性能平庸?大模型的新革命来了!
【HowToTech科技】4月17日消息,近日,科技领域对于模型训练的效率和性能展开了新的讨论。这主要源于面壁智能发布的一系列高效、低参数的大模型,这些模型在保持高性能的同时,显著降低了参数规模和训练成本。
大约一个月前,马斯克旗下的xAI团队开源了名为Grok-1的巨型MoE模型,其参数量高达3140亿,被誉为“庞然大物”。然而,令人惊讶的是,尽管Grok-1在参数规模上占据优势,但其性能表现却仅与Mistral
AI的8x7B MoE模型相当。这一现象引发了业内对于“参数数量与模型性能”关系的深入反思。
在此背景下,面壁智能的最新研究成果显得格外引人注目。据悉,面壁智能自2020年开始训练大模型以来,便始终致力于提升模型训练的效率。他们坚信,“让每一个参数发挥最大的作用”,在同等参数量上实现更好的性能,才是解决大模型“高效”训练的核心。
今年2月,面壁智能发布了MiniCPM
2B模型,该模型在较小的参数量基础上实现了与Mistral-7B相当的性能,验证了其“低参数、高性能”的方法论。更重要的是,面壁智能通过这一系列研究,成功降低了千亿大模型的训练成本。
4月11日,面壁智能又推出了新一代端侧旗舰大模型系列,包括显著增强OCR能力的2.8B多模态模型MiniCPM-V
2.0、仅1.2B却强过llama2-13B的MiniCPM-1.2B模型等。这些模型的推出进一步证明了面壁智能在高效训练大模型方面的实力。
据HowToTech科技了解,面壁智能之所以能够在模型训练效率和性能上取得显著成果,得益于他们独特的“高效训练”理念以及在小模型上的深入探索。通过小模型验证大模型的训练投入产出比,面壁智能走出了一条独特的研发路线。这不仅使他们在资源有限的情况下实现了模型的高效训练,还为未来实现通用人工智能(AGI)奠定了坚实的基础。
近日,面壁智能也完成了新一轮数亿元融资,这将为他们未来的研发工作提供更多的资金支持。在追求高效训练的道路上,面壁智能正不断取得新的突破,为大模型领域的发展注入了新的活力。
延伸阅读:
OpenAI 测试长输出版 GPT-4o:单次输出达64K tokens
【HowToTech科技】8月1日消息,OpenAI在7月29日透露,他们正在对一款名为GPT-4o Long Outp...
ISC.AI2024数字安全峰会:360、华为、微软等共话安全+AI新挑战
7月31日,ISC.AI 2024数字安全峰会在北京国家会中心顺利召开。峰会以“打造安全大模型,引领安全行业革命”为主题...
ISC.AI2024开幕 周鸿祎发布国内首个免费安全大模型
“把大模型拉下神坛就要把免费贯彻到底,今天我在行业里第一个宣布安全大模型免费。”7月31日,ISC.AI2024第十二届...
实时对话更自然,OpenAI 向部分付费订阅用户开放 GPT-4o 语音模式
【HowToTech科技】7月31日消息,OpenAI于当地时间30日宣布,即日起GPT-4o的语音模式(注:Alpha...