“富岳”超级计算机助力,日本团队推出Fugaku-LLM大模型
【HowToTech科技】5月11日消息,日本多家产学研机构组成的联合研究团队近日发布了一款名为 Fugaku-LLM
的大型语言模型。该模型独具特色,因为它是在全球最快的Arm架构超级计算机“富岳”上进行训练的,充分展现了日本在科技领域的创新实力。
据悉,Fugaku-LLM模型的开发工作于2023年5月正式启动,由富士通、东京工业大学、日本东北大学和日本理化学研究所等核心机构共同负责。而在研发过程中,名古屋大学、CyberAgent公司及HPC-AI领域的创新企业Kotoba
Technologies也于2023年8月加入了这一宏伟计划。
研究团队在新闻稿中自豪地表示,他们成功挖掘了富岳超级计算机的巨大潜能。通过优化算法和提升计算效率,团队将矩阵乘法的计算速度提高了6倍,通信速度也实现了3倍的提升。这一重要突破证明了大型纯CPU超级计算机在训练大型语言模型方面的可行性。
Fugaku-LLM模型拥有庞大的参数规模,达到了130亿,成为日本国内最大的大型语言模型。为了构建这一模型,研究团队动用了富岳超算的13824个计算节点,在庞大的3800亿个Token上进行了深入训练。训练资料中有60%是日语内容,其余40%则涵盖了英语、数学、代码等多个领域。
该模型在日语表达方面尤为出色,研究团队宣称Fugaku-LLM能够在交流中自然运用日语敬语等特殊表达方式,这在国际范围内都是罕见的。在日语MT-Bench模型基准测试中,Fugaku-LLM的平均得分高达5.5,位居基于日本语料资源的开放模型之首。在人文社科类别中,它更是斩获了9.18的优异成绩。
目前,这款杰出的Fugaku-LLM模型已经在GitHub和Hugging
Face平台上公开发布。外部研究人员和工程师在遵守相关许可协议的前提下,可将该模型广泛应用于学术研究和商业领域。
延伸阅读:
OpenAI 测试长输出版 GPT-4o:单次输出达64K tokens
【HowToTech科技】8月1日消息,OpenAI在7月29日透露,他们正在对一款名为GPT-4o Long Outp...
ISC.AI2024数字安全峰会:360、华为、微软等共话安全+AI新挑战
7月31日,ISC.AI 2024数字安全峰会在北京国家会中心顺利召开。峰会以“打造安全大模型,引领安全行业革命”为主题...
ISC.AI2024开幕 周鸿祎发布国内首个免费安全大模型
“把大模型拉下神坛就要把免费贯彻到底,今天我在行业里第一个宣布安全大模型免费。”7月31日,ISC.AI2024第十二届...
实时对话更自然,OpenAI 向部分付费订阅用户开放 GPT-4o 语音模式
【HowToTech科技】7月31日消息,OpenAI于当地时间30日宣布,即日起GPT-4o的语音模式(注:Alpha...