Apple AI 研究：ReALM 解析上下文数据时比 GPT-4 更小、更快sayai

苹果人工智能研究揭示了一种模型，通过将任何给定的上下文转换为文本，可以更快、更高效地向 Siri 发出命令，而文本更容易被大型语言模型解析。
随着苹果公司即将在 6 月WWDC期间公开推出其人工智能计划，该公司的人工智能研究不断发表。迄今为止已经发表了多种研究成果，其中包括图像动画工具。

最新论文由VentureBeat率先分享。该论文详细介绍了 ReALM——参考解析作为语言建模。

让计算机程序基于模糊的语言输入执行任务，例如用户可能会说“这个”或“那个”，这称为参考解析。这是一个需要解决的复杂问题，因为计算机无法像人类那样解释图像，但苹果可能已经使用法学硕士找到了简化的解决方案。

当与Siri等智能助手交谈时，用户可能会引用任意数量的上下文信息进行交互，例如后台任务、显示数据和其他非会话实体。传统的解析方法依赖于令人难以置信的大型模型和图像等参考材料，但苹果通过将所有内容都转换为文本来简化了该方法。

Apple 发现其最小的 ReALM 模型的性能与 GPT-4 类似，但参数少得多，因此更适合在设备上使用。增加 ReALM 中使用的参数使其性能大大优于 GPT-4。

性能提升的原因之一是 GPT-4 依赖图像解析来理解屏幕上的信息。大部分图像训练数据都是建立在自然图像的基础上，而不是基于人工代码的充满文本的网页，因此直接 OCR 效率较低。

将屏幕捕获数据表示为文本。资料来源：苹果研究

将图像转换为文本使 ReALM 无需这些高级图像识别参数，从而使其更小、更高效。苹果还通过限制解码或使用简单后处理的能力来避免幻觉问题。

例如，如果您滚动浏览网站并决定致电该公司，只需说“致电该公司”，Siri 就会根据上下文解析您的意思。它将能够“看到”页面上有一个标记为企业号码的电话号码，并在没有进一步用户提示的情况下拨打它。

苹果正致力于在 WWDC 2024 期间发布全面的人工智能战略。一些传言称，该公司将依赖较小的设备内模型来保护隐私和安全，同时授权其他公司的法学硕士进行更具争议性的设备外处理，其中充满了道德难题。

Apple AI 研究：ReALM 解析上下文数据时比 GPT-4 更小、更快