阿里云通义千问系列 AI 开源模型升至 Qwen2:五种尺寸,最高支持128K tokens
【HowToTech科技】6月7日消息,通义千问(Qwen)今日公布了一项重大升级,即Qwen系列模型已从Qwen1.5版本成功跃升至Qwen2版本,并在Hugging
Face和ModelScope平台上同步开源。
据悉,Qwen2.0带来了诸多创新和改进。该版本推出了5种不同尺寸的预训练和指令微调模型,覆盖从0.5B到72B的广泛范围,以满足不同场景和需求。其次,在原有的中英文基础上,Qwen2.0新增了27种语言的高质量训练数据,进一步提升了模型的多语言处理能力。
据HowToTech科技了解,Qwen2.0还在多个评测基准上展现出领先性能。其代码理解和数学计算能力得到了显著提升,这对于开发人员和科研工作者来说无疑是一个好消息。此外,Qwen2-72B模型更是支持高达128K
tokens的上下文长度,为处理更复杂、更长的文本提供了可能。
在模型基础信息方面,Qwen2系列的所有模型都采用了GQA技术,这项技术能够带来推理加速和降低显存占用的优势。在之前的Qwen1.5系列中,仅有32B和110B的模型使用了这项技术,而现在在Qwen2.0中,所有尺寸的模型都得以应用。
在模型评测中,Qwen2-72B表现尤为出色。与当前最优的开源模型相比,Qwen2-72B在自然语言理解、知识、代码、数学以及多语言等多项能力上都实现了显著超越,包括Llama-3-70B和Qwen自身的前一版本Qwen1.5-110B。这一飞跃性的进步无疑将推动AI技术的更广泛应用和发展。
延伸阅读:
OpenAI 测试长输出版 GPT-4o:单次输出达64K tokens
【HowToTech科技】8月1日消息,OpenAI在7月29日透露,他们正在对一款名为GPT-4o Long Outp...
ISC.AI2024数字安全峰会:360、华为、微软等共话安全+AI新挑战
7月31日,ISC.AI 2024数字安全峰会在北京国家会中心顺利召开。峰会以“打造安全大模型,引领安全行业革命”为主题...
ISC.AI2024开幕 周鸿祎发布国内首个免费安全大模型
“把大模型拉下神坛就要把免费贯彻到底,今天我在行业里第一个宣布安全大模型免费。”7月31日,ISC.AI2024第十二届...
实时对话更自然,OpenAI 向部分付费订阅用户开放 GPT-4o 语音模式
【HowToTech科技】7月31日消息,OpenAI于当地时间30日宣布,即日起GPT-4o的语音模式(注:Alpha...