DeepMind 开发出构建 2D 游戏环境的基础模型

2024-04-03

这个庞大的数据集让 Genie 能够理解并生成众多环境和物体的物理、动态和美学。


研究论文中记录的最终模型包含 110 亿个参数,可根据多种格式的图像或文本提示生成交互式虚拟世界。


因此,你可以向精灵输入客厅或花园的图像,然后将其转化为可玩的 2D 平台关卡。


Genie 是在一个包含 20 多万小时游戏视频片段的庞大数据集上进行训练的,其中包括 2D 平台游戏和现实世界中的机器人互动。


Genie 与其他世界模型的不同之处在于,它能让用户与生成的环境逐帧互动。


例如,你可以看到 Genie 如何将真实世界环境的照片转换成 2D 游戏关卡。


精灵如何工作

Genie 是一个 "基础世界模型",由三个关键部分组成:时空视频标记器、自回归动力学模型和简单、可扩展的潜在动作模型 (LAM)。


以下是其工作原理:


时空转换器: 时空转换器(ST)是 Genie 的核心部分,用于处理视频帧序列。与处理文本或静态图像的传统转换器不同,时空转换器旨在理解视觉数据随时间的变化,因此非常适合视频和动态环境生成。

潜在动作模型(LAM): 精灵通过 LAM 理解并预测其生成世界中的动作。它可以推断出视频帧与帧之间可能发生的潜在动作,直接从视觉数据中学习一组 "潜在动作"。这样,尽管训练数据中没有明确的动作标签,精灵也能控制互动环境中事件的进展。

视频标记器和动态模型: 为了管理视频数据,Genie 采用了视频标记器,将原始视频帧压缩成更易于管理的离散标记格式。标记化之后,动态模型会预测下一组帧标记,在交互环境中生成后续帧。

DeepMind 团队对 Genie 的解释是:"Genie 可以让很多人产生自己的游戏体验。这对于那些希望以一种新方式表达自己创造力的人来说可能是积极的,例如,儿童可以设计并进入自己想象的世界。


在一个附带实验中,当看到真实的机械臂与现实世界中的物体接触的视频时,精灵表现出了一种不可思议的能力,能够破译这些机械臂可以执行的动作。这展示了机器人研究的潜在用途。


Genie 团队的 Tim Rocktäschel 描述了 Genie 的无限潜力: "我们很难预测会有什么样的应用案例。我们希望像 Genie 这样的项目最终能为人们提供表达创造力的新工具"。


DeepMind 意识到发布这一基础模型的风险,在论文中指出:"我们选择不发布训练好的模型检查点、模型的训练数据集,也不发布这些数据中的示例,以配合本文或网站。"


"我们希望有机会与研究(和视频游戏)界进一步接触,并确保今后发布的任何此类信息都是尊重、安全和负责任的。"


利用游戏模拟现实世界的应用

DeepMind 已将视频游戏用于多个机器学习项目。


例如,2021 年,DeepMind 建立了 XLand,这是一个用于测试通用人工智能代理的强化学习(RL)方法的虚拟游戏场。在这里,人工智能模型通过在开放式游戏环境中执行移动障碍物等任务,掌握了合作和解决问题的能力。


然后,就在上个月,SIMA(可扩展、可指导、多世界代理)被设计用于在不同游戏和场景中理解和执行人类语言指令。


SIMA 通过九款需要不同技能的视频游戏进行训练,从基本导航到驾驶车辆。


游戏环境为训练和测试人工智能模型提供了一个可控、可扩展的沙盒。


DeepMind 的游戏专长可以追溯到 2014-2015 年,当时他们开发了一种算法,可以在乒乓球和太空入侵者等游戏中击败人类,更不用说在 19×19 全尺寸棋盘上击败职业棋手樊麾的 AlphaGo 了。


相关标签