专栏名称: 计算机视觉研究院
主要由来自于大学的研究生组成的团队,本平台从事机器学习与深度学习领域,主要在人脸检测与识别,多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌,让更多相关领域的人了解本团队,结识更多相关领域的朋友,一起来学习,共同进步!
目录
相关文章推荐
51好读  ›  专栏  ›  计算机视觉研究院

刚刚,谷歌发布基础世界模型:11B参数,能生成可交互虚拟世界

计算机视觉研究院  · 公众号  ·  · 2024-05-10 11:30

正文

点击蓝字


关注我们

关注并星标

从此不迷路

计算机视觉研究院


公众号ID 计算机视觉研究院

学习群 扫码在主页获取加入方式


  • 论文地址:https://arxiv.org/pdf/2402.15391.pdf

  • 项目主页:https://sites.google.com/view/genie-2024/home?pli=1


计算机视觉研究院专栏

Column of Computer Vision Institute

一键生成可玩游戏世界。



问世才两个星期,谷歌的世界模型也来了,能力看起来更强大:它生成的虚拟世界「自主可控」。







Genie 能做到的不止如此,它还可以应用到草图等人类设计相关的创作领域。



或者,应用在真实世界的图像中:



技术揭秘:论文《Genie: Generative Interactive Environments》已公布


谷歌 DeepMind 已经放出了 Genie 论文。



  • 论文地址:https://arxiv.org/pdf/2402.15391.pdf

  • 项目主页:https://sites.google.com/view/genie-2024/home?pli=1


论文的共同一作多达 6 人,其中包括华人学者石宇歌(Yuge (Jimmy) Shi)。她目前是谷歌 DeepMind 研究科学家, 2023 年获得牛津大学机器学习博士学位。



方法介绍


Genie 架构中的多个组件基于 Vision Transformer (ViT) 构建而成。值得注意的是,由于 Transformer 的二次内存成本给视频领域带来了挑战,视频最多可以包含 𝑂(10^4 ) 个 token。因此,谷歌在所有模型组件中采用内存高效的 ST-transformer 架构(见图 4),以此平衡模型容量与计算约束。


Genie 包含三个关键组件(如下图所示):


1) 潜在动作模型(Latent Action Model ,LAM),用于推理每对帧之间的潜在动作 𝒂;

2) 视频分词器(Tokenizer),用于将原始视频帧转换为离散 token 𝒛;

3) 动态模型,给定潜在动作和过去帧的 token,用来预测视频的下一帧。



具体而言:


潜在动作模型:为了实现可控的视频生成,谷歌将前一帧所采取的动作作为未来帧预测的条件。然而,此类动作标签在互联网的视频中可用的很少,并且获取动作注释的成本会很高。相反,谷歌以完全无监督的方式学习潜在动作(见图 5)。



视频分词器:在之前研究的基础上,谷歌将视频压缩为离散 token,以降低维度并实现更高质量的视频生成(见图 6)。实现过程中,谷歌使用了 VQ-VAE,其将视频的 𝑇 帧 作为输入,从而为每个帧生成离散表示: ,其中𝐷 是离散潜在空间 大小。 分词器在整个视频序列上使用标准的 VQ-VQAE 进行训练。



动态模型:是一个仅解码器的 MaskGIT transformer(图 7)。



Genie 的推理过程如下所示



实验结果


扩展结果


为了研究模型的扩展行为,谷歌对参数量为 2.7B 到 41M 的模型进行了实验来探讨模型大小和批大小的影响,实验结果如下图 9 所示。



可以观察到,模型大小增加,最终训练损失会减少。这有力地表明 Genie 方法受益于扩展。同时,增加批大小也会给模型性能带来增益。


定性结果


谷歌展示了在 Platformers 数据集上训练的 Genie 11B 参数模型和在 Robotics 数据集上训练的较小模型的定性实验结果。结果表明,Genie 模型可以生成跨不同领域的高质量、可控视频。值得注意的是,谷歌仅使用分布外(OOD)图像 prompt 来定性评估其平台训练模型,这表明 Genie 方法的稳健性和大规模数据训练的价值。





智能体训练。或许有一天,Genie 可以被用作训练多任务智能体的基础世界模型。在图 14 中,作者展示了该模型已经可以用于在给定起始帧的全新 RL 环境中生成不同的轨迹。



作者在程序生成的 2D 平台游戏环境 CoinRun 中进行评估,并与能够访问专家操作作为上限的预言机行为克隆 (BC) 模型进行比较。



消融研究。选择在设计潜在动作模型时,作者仔细考虑了要使用的输入类型。虽然最终选择使用原始图像(像素),但作者在设计 Genie 时针对使用标记化图像的替代方案(在图 5 中用 z 替换 x)来评估这一选择。这种替代方法称为「token 输入」模型(参见表 2)。



分词器架构消融。作者比较了三种分词器选择的性能,包括 1)(仅空间)ViT、2)(时空)ST-ViViT 和 3)(时空)CViViT(表 3)。



END



转载请联系本公众号获得授权







请到「今天看啥」查看全文