ChatGPT的新GPT-4o人工智能模型更擅长说话
ChatGPT由几种不同的人工智能模型提供支持,其中GPT-4 Turbo适用于付费用户,GPT-3.5适用于其他用户。OpenAI现在公布了一种新的模型,很快就会为所有人提供:GPT-4o。
GPT-4o(“o”显然是“omni”的意思)是一种新的人工智能模型,它将文本、音频或图像作为输入和输出进行处理。这与OpenAI以前的模型相比是一个很大的变化,后者更专业,必须针对不同的工作负载进行组合。谷歌Gemini的设计也以类似的方式工作,因此OpenAI似乎正在追赶竞争对手。
OpenAI在一篇博客文章中表示,GPT-4o“可以在232毫秒内对音频输入做出响应,平均320毫秒,这与人类在对话中的响应时间相似。它在英语文本和代码方面与GPT-4 Turbo的性能相匹配,在非英语语言的文本方面有了显著改进,同时在API中速度更快,成本更低50%。与现有模型相比,GPT-4 o在视觉和音频理解方面尤其出色。”
升级后的声音和语音功能意味着GPT-4o可以表现得更像一个虚拟助手,这是OpenAI和谷歌过去尝试过的,但都取得了不同的成功。OpenAI计划在“未来几周”添加由GPT-4o支持的语音模式,该模式将首先向ChatGPT-Plus用户提供。
GPT-4o并不能完全取代GPT-4和GPT-3.5,至少目前还不能。由于训练方式不同,它在某些场景中的表现可能有所不同,但OpenAI在文本、推理和编码智能方面的性能与GPT-4 Turbo相似。重要的是,它将在免费的ChatGPT帐户上提供,到目前为止,这些帐户仅限于功能较弱的GPT-3.5型号。
新的GPT-4o模型现在正在ChatGPT中推出,面向免费用户和ChatGPT-Plus用户。它将有消息限制,但Plus用户的限制将“高出5倍”。ChatGPT Plus用户还将在“未来几周”访问语音模式,新模型现在可以作为API供开发人员试用。
来源:OpenAI(1,2)