谷歌盯上游戏开发！世界首个神经网络驱动 AI 游戏引擎让全行业集体进入生成时代

推广

研发设计

发布时间：2024-09-02 15:00 | 标签：谷歌游戏引擎 AI 人工智能

转载来源：前方智能

微信扫一扫：分享

微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈

没想到连传统游戏引擎也要被优化掉了。

近日，谷歌研究人员宣布在 AI 领域取得了一个重要的里程碑，只需依靠神经网络就可以为经典射击游戏《毁灭战士》生成实时游戏玩法，全程无需使用传统的游戏引擎。

来源：谷歌

根据研究人员的说法，这个名为 GameNGen 的系统是世界上第一个完全由神经网络驱动的 AI 游戏引擎，可以在单芯片上以每秒 20 帧的速度生成可玩的游戏玩法，每一帧都由扩散模型预测。

实时生成游戏已成现实！

GameNGen 能在单张 TPU 上以超过 20 帧/秒的速度实时模拟游戏

2024 年 8 月 27 日，谷歌发布了一篇由谷歌研究院研究员 Dani Valevski、谷歌研究院工程师 Yaniv Leviathan、特拉维夫大学 Moab Arar、谷歌 DeepMind 工程师 Shlomi Fruchter 联合发表的论文，详细介绍了新模型 GameNGen 的功能。

在这篇名为“Diffusion models are real-time game engines（扩散模型是实时游戏引擎）”的研究论文中，研究人员解释了 GameNGen 的工作原理，系统使用了 2022 年发布的图像合成扩散模型 Stable Diffusion 1.4 的修改版本，用来生成 AI 图像。

GameNGen 架构图（图源：谷歌）

GameNGen 的开发涉及两个阶段的训练过程。

首先，研究人员在数据收集与预处理阶段训练了一个强化学习（RL）代理与游戏环境交互，记录代理的行动和观察结果，形成训练数据集，即先在《毁灭战士》游戏中记录游戏过程并创建自动生成的训练数据集。

接着，研究人员再使用生成的数据集训练后续的扩散模型。

通过使用预训练的 Stable Diffusion v1.4 模型作为基础，去掉文本条件后将代理的行动嵌入到单个标记中，并将观察结果编码到潜在空间中，并通过噪声增强技术缓解自回归生成过程中的漂移问题，确保长时间序列生成的稳定性。

图源：谷歌

据介绍，GameNGen 能够在单张 TPU 上以超过 20 帧/秒的速度实时模拟游戏，生成的视频质量与原始游戏相当。而在接受《毁灭战士》大量动作镜头训练后，GameNGen 能够根据过去的帧和行动序列预测下一帧，实现实时交互。

经过实验，研究人员确认，在长轨迹上，模型模拟质量达到了与原始游戏相当的图像质量，对于短轨迹，人类评分者只能略微区分模拟和实际游戏的片段。

图源：谷歌

而在人类评估中，研究人员提供 130 个随机短片段给人类评分者，每个片段的长度分别为 1.6 秒和 3.2 秒，包括 GameNGen 生成的模拟视频和实际游戏视频，人类评分者的任务需要识别每个片段是来自实际游戏还是模拟视频。

最终结果表明，在识别准确率上，对于 1.6 秒的片段，评分者选择实际游戏的准确率为 58%；对于 3.2 秒的片段，评分者选择实际游戏的准确率为 60%。

评分者在区分模拟视频和实际游戏视频时，表现仅略优于随机猜测（50%），表明生成的模拟视频与实际游戏视频非常相似，这验证了 GameNGen 生成的模拟视频在视觉质量和游戏行为上具有高保真度。

然而，GameNGen 也并非完美无瑕，研究人员发现，使用稳定扩散会引入一些图形故障，稳定扩散 v1.4 的预训练自动编码器会将 8×8 像素块压缩为 4 个潜在通道，这会使得模型在预测游戏帧时出现细节错误。

此外，如果确保游戏视频质量在时间的推移中保持一致也非常困难。

“交互式世界模拟不仅仅是非常快速的视频生成，对整个生成过程中可用的输入动作流进行约束打破了现有扩散模型架构的一些假设，自回归可能会导致不稳定情况出现，让生成世界的质量迅速下降。”

这意味着持续的自回归图像合成可能会出现视觉故障，生成帧中的小错误会随着时间的推移而累积、复合，导致虚拟世界随着生成帧的增加而出现更多故障。

为了解决这个问题，研究人员有意在训练数据中添加了不同级别的随机噪声，并教会模型纠正这种噪声，这有助于模型在较长时间内保持生成世界的质量。

在没有噪声增强的情况下，模型的质量迅速退化（图源：谷歌）

值得注意的是，虽然 GameNGen 证明了 AI 游戏引擎可以被用于游戏生成领域，但该方法还存在着一个根本性的问题。

其他基于 Transformer 的模型一样，GameNGen 更擅长模仿并创建合理的输出，这意味着模型目前只能“复制”已经存在的游戏，而无法在游戏行业产生真正的创新。

此外，由于模型只能访问约 3 秒的历史信息，这对游戏逻辑的持久性提出了挑战。

尽管模型能够通过屏幕像素（如弹药和生命值计数、可用武器等）维持大部分游戏状态，但仍需找到更为根本的解决方法。

同时，如果该技术在未来被广泛采用来渲染视频游戏图形，那么对于实时运行类似模型的计算能力会提出更高要求。

不过好在，研究人员也表示将在其他游戏或更广泛的交互软件系统上测试 GameNGen，并探索更复杂的架构以缓解当前的诸多限制，进一步优化技术以提高帧率和在消费级硬件上的运行。

随着 AI 模型的不断进步，我们将看到越来越复杂的神经游戏引擎实时生成大型、一致的交互式世界，并从根本上改变视频游戏的制作方式。

全球已有 62%的游戏工作室在开发过程中使用 AI 技术

可以看到，GameNGen 展示了 AI 可以作为游戏引擎的基础，通过神经模型自动生成游戏内容，降低了开发成本，这种新范式可能会显著降低游戏开发的难度，使得更多人能够参与到游戏创作中。

研究人员在论文中声称，“如今，视频游戏是由人类编程的。”

通过新的 AI 技术，未来的视频游戏可能不用再使用传统技术绘制图形视频帧，而是通过文本描述或示例图像创建，人们可以直接将一组静止图像转换为新的可玩游戏或角色，并不用依赖过去的编码技巧。

而实际上，使用神经渲染进行实时视频游戏合成并不是一个全新的想法。Nvidia 首席执行官黄仁勋在 3 月份的一次活动中预测大多数视频游戏图形可以在 5-10 年内由人工智能实时生成。

在黄仁勋看来，AI 生成游戏并非遥不可及。

当时他的原话是：“即使 AI 无法仅通过简单提示就从 0 开始创作出像《赛博朋克 2077》这样的游戏，但这项技术在生成模型、视频等方面将发挥重要作用。”谁能想到才过去几个月，AI 游戏引擎从 0 到 1 制作游戏就已成为现实。

图源：网络

现如今的 GameNGen 也是建立在生成式 AI 领域此前打下的工作基础之上，包括由 David Ha 和 Jürgen Schmidhuber 在 2018 年首次提出的 World Models 模型、由英伟达和麻省理工学院等于 2020 年共同提出的 GameGAN 模型以及今年 3 月份的谷歌 Genie 。

其中，GameGAN 能够生成新的游戏关卡布局，甚至产生新的游戏创意，加速游戏开发过程。

GameGAN 模型通过观看游戏视频和键盘操作学习游戏的关键规则，在训练过程中，GameGAN 可以学习如何渲染《吃豆人》游戏中的迷宫形状、小点和 Power Pellets 等静态元素，以及移动元素如敌人的幽灵和 PAC-MAN 本身。

此外，与“世界模拟器”相关的研究也通常是诸如 Gen-3 Alpha、Sora 等视频生成 AI 模型的研究方向。在 Sora 首次亮相期间，OpenAI 就展示了模拟 Minecraft 的 AI 生成器的演示视频。