谷歌发言人确认:Gemini AI视频展示并非实时完成
【HowToTech科技】12月9日消息,谷歌近日在一次采访中向媒体透露,他们之前发布的大型语言模型Gemini的演示视频实际上并非实时录制。这一消息引发了业界的关注,因为视频看起来极其先进,显示了Gemini模型在处理各种任务时的能力。
视频中展示了一系列引人注目的场景,例如Gemini模型能够在一个塑料杯中发现藏着的纸团,甚至能够识别出一幅“点线相连”的图画中描绘的是一只螃蟹。然而,据谷歌发言人向外媒透露,这些都是通过镜头捕捉的静止图像帧和文本提示来“拼凑”而成的。换句话说,Gemini模型只能对输入的提示和静态图像做出反应,而非实时处理。同样,视频中展示的用户与Gemini之间的语音互动实际上也是后期配音完成的。
据HowToTech科技了解,视频中的其他元素,比如人物的对话、绘画、展示物品,甚至魔术表演,似乎都是为了制作这段演示视频而特别安排的。谷歌在其官方YouTube频道上的视频描述中也提到,为了演示的目的,视频中的延迟已经被减少,而Gemini的输出也被缩短,以使内容更加简洁。这暗示了在现实应用中,Gemini模型响应用户输入的时间可能会比演示视频中看起来的要长。
谷歌DeepMind的研究副总裁兼深度学习负责人Oriol
Vinyals对视频的目的做了进一步阐述。他指出,视频展示了使用Gemini模型构建的多模态用户体验可能的样子,并旨在激发开发者的创新思维。Vinyals强调,视频中的所有用户提示和输出都是真实的,但为了简洁起见,进行了缩短处理。此外,他还提到,视频中展示的是更高级的Gemini
Ultra模型。
此前有报道称,谷歌宣称Gemini
Ultra在32个广泛使用的学术基准测试中,在30个测试中都展现了超越当代的领先表现。这些基准测试被认为是大型语言模型领域最常用、最广泛的测试之一。其中,Gemini
Ultra在大规模多任务语言理解(MMLU)测试中以90.0%的高分超越了人类专家。这一测试涵盖了包括数学、物理、历史、法律、医学和伦理等多达57个学科。
除此之外,Gemini
Ultra还在新的MMMU基准测试中展示出了59.4%的领先水平。MMMU基准测试覆盖了一系列需要深入思考的多模态任务,涵盖了多个不同的领域。这一表现再次证明了Gemini
Ultra在大型语言模型领域的先进性和多功能性。
谷歌还计划在明年初推出全新升级的 Bard Advanced,这将使用户能够更好地体验到Gemini Ultra的最佳模型和功能。
延伸阅读:
OpenAI 测试长输出版 GPT-4o:单次输出达64K tokens
【HowToTech科技】8月1日消息,OpenAI在7月29日透露,他们正在对一款名为GPT-4o Long Outp...
ISC.AI2024数字安全峰会:360、华为、微软等共话安全+AI新挑战
7月31日,ISC.AI 2024数字安全峰会在北京国家会中心顺利召开。峰会以“打造安全大模型,引领安全行业革命”为主题...
ISC.AI2024开幕 周鸿祎发布国内首个免费安全大模型
“把大模型拉下神坛就要把免费贯彻到底,今天我在行业里第一个宣布安全大模型免费。”7月31日,ISC.AI2024第十二届...
实时对话更自然,OpenAI 向部分付费订阅用户开放 GPT-4o 语音模式
【HowToTech科技】7月31日消息,OpenAI于当地时间30日宣布,即日起GPT-4o的语音模式(注:Alpha...