适用于 3D 虚拟环境的多面手 AI 代理

2024-03-18 142 0

我们提出了关于可扩展可指导的多世界代理(SIMA)的新研究,它可以遵循自然语言指令在各种视频游戏设置中执行任务

视频游戏是人工智能 (AI) 系统的重要试验场。与现实世界一样,游戏是丰富的学习环境,具有响应灵敏、实时的设置和不断变化的目标。

从我们早期与 Atari 游戏的合作,到我们以人类特级大师级别玩《星际争霸 II》的AlphaStar系统,Google DeepMind 在人工智能和游戏领域拥有悠久的历史。

今天,我们宣布了一个新的里程碑——将我们的注意力从单个游戏转向通用的、可指导的游戏人工智能代理。

在一份新技术报告中,我们介绍了 SIMA,Scalable Instructable Multiworld Agent 的缩写,它是一种用于 3D 虚拟设置的通用 AI 代理。我们与游戏开发商合作,对 SIMA 进行各种视频游戏的培训。这项研究标志着智能体首次证明它可以理解广泛的游戏世界,并像人类一样遵循自然语言指令执行其中的任务。

这项工作并不是为了获得高分。对于人工智能系统来说,学习玩一款视频游戏就是一项技术壮举,但学习在各种游戏设置中遵循指令可以为任何环境解锁更有用的人工智能代理。我们的研究展示了如何通过语言界面将高级人工智能模型的功能转化为有用的、现实世界的动作。我们希望 SIMA 和其他代理研究能够使用视频游戏作为沙箱,以更好地了解人工智能系统如何变得更有帮助。

从视频游戏中学习

我们与八个游戏工作室合作,在九种不同的视频游戏上训练和测试 SIMA

为了将 SIMA 应用于多种环境,我们与游戏开发商建立了许多合作伙伴关系以进行研究。我们与八家游戏工作室合作,在九种不同的视频游戏上训练和测试 SIMA,例如Hello Games 的《No Man's Sky》和 Tuxedo Labs 的《Teardown》。SIMA 产品组合中的每款游戏都开辟了一个新的互动世界,包括一系列可供学习的技能,从简单的导航和菜单使用,到采矿资源、驾驶宇宙飞船或制作头盔。

我们还使用了四个研究环境 - 包括我们使用Unity构建的一个名为“构建实验室”的新环境,智能体需要用积木构建雕塑,以测试他们的对象操作和对物理世界的直观理解。
03
通过学习不同的游戏世界,SIMA 捕捉到语言如何与游戏行为联系起来。我们的第一种方法是在我们的投资组合中记录游戏中的成对人类玩家,其中一名玩家观看并指导另一名玩家。我们还让玩家自由地玩,然后重新观察他们所做的事情并记录导致他们进行游戏操作的指令。

SIMA 包括预先训练的视觉模型和一个包含存储器并输出键盘和鼠标操作的主模型。

SIMA:多功能人工智能代理
SIMA 是一种人工智能代理,可以感知和理解各种环境,然后采取行动来实现指示的目标。它包括一个专为精确图像语言映射而设计的模型和一个预测屏幕上接下来会发生什么的视频模型。我们根据 SIMA 产品组合中特定于 3D 设置的训练数据对这些模型进行了微调。

我们的人工智能代理不需要访问游戏的源代码,也不需要定制的 API。它只需要两个输入:屏幕上的图像以及用户提供的简单的自然语言指令。SIMA 使用键盘和鼠标输出来控制游戏的中心角色来执行这些指令。这个简单的界面是人类使用的,这意味着 SIMA 可以与任何虚拟环境进行交互。

SIMA 的当前版本通过 600 项基本技能进行评估,涵盖导航(例如“左转”)、对象交互(“爬梯子”)和菜单使用(“打开地图”)。我们已经训练 SIMA 执行可在大约 10 秒内完成的简单任务。

SIMA 的评估涉及 600 项基本技能,涵盖导航、对象交互和菜单使用。

我们希望未来的特工能够处理需要高层战略规划和多个子任务才能完成的任务,例如“寻找资源和建立营地”。一般来说,这是人工智能的一个重要目标,因为虽然大型语言模型已经产生了可以捕获有关世界的知识并生成计划的强大系统,但它们目前缺乏代表我们采取行动的能力。

跨游戏等泛化
我们证明,受过多种游戏训练的智能体比仅学习如何玩一种游戏的智能体更好。在我们的评估中,SIMA 智能体在我们的产品组合中的一组九个 3D 游戏上进行了训练,其表现明显优于仅在每个单独的游戏上进行训练的所有专业智能体。更重要的是,平均而言,在除一款游戏之外的所有游戏中接受过训练的智能体在该看不见的游戏中的表现几乎与专门针对该游戏进行过训练的智能体一样好。重要的是,这种在全新环境中运行的能力凸显了 SIMA 超越其训练的泛化能力。这是一个很有希望的初步结果,但是 SIMA 需要进行更多的研究才能在可见和未见的游戏中达到人类水平。

我们的结果还表明 SIMA 的性能依赖于语言。在控制测试中,智能体没有接受任何语言训练或指令,它的行为方式适当但漫无目的。例如,代理可能会收集资源(这是一种常见行为),而不是按照指示走去。

我们评估了 SIMA 按照指令完成近 1500 个独特游戏内任务的能力,其中部分使用了人类评委。作为我们的基线比较,我们使用环境专用 SIMA 代理的性能(经过培训和评估以遵循单个环境中的指令)。我们将这种性能与三种类型的通用 SIMA 代理进行比较,每种代理都经过多个环境的训练。

推进人工智能代理研究
SIMA 的结果显示了开发新一波通用、语言驱动的人工智能代理的潜力。这是早期研究,我们期待在更多训练环境中进一步构建 SIMA,并纳入更强大的模型。

随着我们将 SIMA 暴露在更多的训练世界中,我们期望它变得更加通用和通用。通过更先进的模型,我们希望提高 SIMA 对高级语言指令的理解和能力,以实现更复杂的目标。

最终,我们的研究正在构建更通用的人工智能系统和代理,这些系统和代理可以理解并安全地执行各种任务,从而对网上和现实世界中的人们有所帮助。

相关文章

应对AI合成声音的挑战和机遇
Suno 给了我们参与其中的另一种音乐体验
Magnific:像魔法一样的图像升级增强变形器
Musk创立的 Neura link公布了首例配备脑机接口的人类患者
Persuva:运用人工智能创造有说服力的广告文案
PipeLime 的 AI 销售漏斗自动化大放异彩

发布评论