苹果公司的 ReALM 比 GPT-4 更能 "看到 "屏幕上的视觉效果

2024-04-07

苹果公司的工程师开发了一种人工智能系统,可以解决屏幕实体和用户对话的复杂引用问题。这种轻量级模型是设备虚拟助手的理想解决方案。


人类擅长在彼此对话中解决引用问题。当我们使用 "下面那个 "或 "他 "这样的词语时,我们会根据对话的上下文和我们能看到的事物来理解对方所指的是什么。


而人工智能模型则很难做到这一点。像 GPT-4 这样的多模态 LLM 擅长回答有关图像的问题,但训练成本很高,而且需要大量的计算开销来处理有关图像的每个查询。


苹果公司的工程师在他们的系统中采用了一种不同的方法,称为 ReALM(参考分辨率语言建模)。这篇论文值得一读,其中详细介绍了他们的开发和测试过程。


ReALM 使用 LLM 来处理对话、屏幕和背景实体(警报、背景音乐),这些实体构成了用户与虚拟人工智能代理的交互。


代理需要理解对话实体,例如当用户说 "the one "时,他们指的是药店的电话号码。


当用户说 "the bottom one "时,它还需要理解视觉上下文,而这正是 ReALM 的方法与 GPT-4 等模型的不同之处。


ReALM 依靠上游编码器首先解析屏幕上的元素及其位置。然后,ReALM 以从左到右、从上到下的纯文本方式重建屏幕。


简单地说,它使用自然语言来概括用户的屏幕。


现在,当用户就屏幕上的内容提问时,语言模型会处理屏幕的文本描述,而不需要使用视觉模型来处理屏幕图像。


研究人员创建了会话、屏幕和背景实体的合成数据集,并对 ReALM 和其他模型进行了测试,以检验它们在会话系统中解决引用问题的有效性。


ReALM 的较小版本(8000 万参数)与 GPT-4 的性能相当,而其较大版本(3B 参数)则大大优于 GPT-4。


与 GPT-4 相比,ReALM 是一个很小的模型。其卓越的参考分辨率使其成为虚拟助手的理想选择,可以在不影响性能的情况下存在于设备上。


ReALM 在处理更复杂的图像或细微的用户请求时表现不佳,但作为车载或设备上的虚拟助手,它可以发挥很好的作用。试想一下,如果 Siri 可以 "看到 "你的 iPhone 屏幕,并对屏幕上的元素做出回应,那将是多么美妙的事情。


苹果公司在这方面的进展有点缓慢,但最近的发展(如 MM1 模型和 ReALM)表明,他们正在闭门造车。


相关标签