苹果放大招!新模型Ferret-UI将颠覆AI交互?
【HowToTech科技】4月11日消息,苹果近日发布了最新的多模态大语言模型Ferret-UI,该模型专为理解和与移动UI屏幕交互而设计。Ferret-UI在所有基本UI任务上的表现均超越了GPT-4V,显示出了卓越的理解和交互能力。
据HowToTech科技了解,Ferret-UI作为一种新的多模态大型语言模型(MLLM),具备指向、定位和推理等多重功能,能够有效理解和交互移动UI屏幕上的信息。它通过灵活的输入格式和基础任务,在移动用户界面屏幕上执行各种引用任务。Ferret-UI的一个显著特点是“任何分辨率”技术,通过放大细节来解决UI屏幕中小型对象的识别问题,从而提升了对UI元素的理解精度。
此外,Ferret-UI不仅能够在详细描述和感知对话中讨论视觉元素,还能在交互对话中提出目标导向的动作,并通过函数推理来推断屏幕的整体功能。研究人员为了增强模型的推理能力,特别编译了用于高级任务的数据集,包括详细描述、感知/交互对话和函数推理等方面的数据。
在基础任务性能的比较上,Ferret-UI展现出了对UI屏幕的出色理解能力以及执行开放式指令的能力。这项技术的掌握使得AI能够像人类一样进行交互,预示着苹果未来可能将改变MLLM的游戏规则。
通过独特的模型架构和数据集训练方法,Ferret-UI实现了对移动UI屏幕的深入理解和有效交互,为用户带来了更为智能和便捷的操作体验。这一技术的突破,无疑将推动科技行业向更智能化、人性化的方向发展。
延伸阅读:
OpenAI 测试长输出版 GPT-4o:单次输出达64K tokens
【HowToTech科技】8月1日消息,OpenAI在7月29日透露,他们正在对一款名为GPT-4o Long Outp...
ISC.AI2024数字安全峰会:360、华为、微软等共话安全+AI新挑战
7月31日,ISC.AI 2024数字安全峰会在北京国家会中心顺利召开。峰会以“打造安全大模型,引领安全行业革命”为主题...
ISC.AI2024开幕 周鸿祎发布国内首个免费安全大模型
“把大模型拉下神坛就要把免费贯彻到底,今天我在行业里第一个宣布安全大模型免费。”7月31日,ISC.AI2024第十二届...
实时对话更自然,OpenAI 向部分付费订阅用户开放 GPT-4o 语音模式
【HowToTech科技】7月31日消息,OpenAI于当地时间30日宣布,即日起GPT-4o的语音模式(注:Alpha...