谷歌发言人确认：Gemini AI视频展示并非实时完成

科技前沿 2024-04-16 大鱼手机阅读

【HowToTech科技】12月9日消息，谷歌近日在一次采访中向媒体透露，他们之前发布的大型语言模型Gemini的演示视频实际上并非实时录制。这一消息引发了业界的关注，因为视频看起来极其先进，显示了Gemini模型在处理各种任务时的能力。

视频中展示了一系列引人注目的场景，例如Gemini模型能够在一个塑料杯中发现藏着的纸团，甚至能够识别出一幅“点线相连”的图画中描绘的是一只螃蟹。然而，据谷歌发言人向外媒透露，这些都是通过镜头捕捉的静止图像帧和文本提示来“拼凑”而成的。换句话说，Gemini模型只能对输入的提示和静态图像做出反应，而非实时处理。同样，视频中展示的用户与Gemini之间的语音互动实际上也是后期配音完成的。

据HowToTech科技了解，视频中的其他元素，比如人物的对话、绘画、展示物品，甚至魔术表演，似乎都是为了制作这段演示视频而特别安排的。谷歌在其官方YouTube频道上的视频描述中也提到，为了演示的目的，视频中的延迟已经被减少，而Gemini的输出也被缩短，以使内容更加简洁。这暗示了在现实应用中，Gemini模型响应用户输入的时间可能会比演示视频中看起来的要长。

谷歌DeepMind的研究副总裁兼深度学习负责人Oriol
Vinyals对视频的目的做了进一步阐述。他指出，视频展示了使用Gemini模型构建的多模态用户体验可能的样子，并旨在激发开发者的创新思维。Vinyals强调，视频中的所有用户提示和输出都是真实的，但为了简洁起见，进行了缩短处理。此外，他还提到，视频中展示的是更高级的Gemini
Ultra模型。

此前有报道称，谷歌宣称Gemini
Ultra在32个广泛使用的学术基准测试中，在30个测试中都展现了超越当代的领先表现。这些基准测试被认为是大型语言模型领域最常用、最广泛的测试之一。其中，Gemini
Ultra在大规模多任务语言理解(MMLU)测试中以90.0%的高分超越了人类专家。这一测试涵盖了包括数学、物理、历史、法律、医学和伦理等多达57个学科。

除此之外，Gemini
Ultra还在新的MMMU基准测试中展示出了59.4%的领先水平。MMMU基准测试覆盖了一系列需要深入思考的多模态任务，涵盖了多个不同的领域。这一表现再次证明了Gemini
Ultra在大型语言模型领域的先进性和多功能性。

谷歌还计划在明年初推出全新升级的 Bard Advanced，这将使用户能够更好地体验到Gemini Ultra的最佳模型和功能。