Google DeepMind 推出文生视频模型定制通用框架 Still-Moving
近年来,定制化文生图(T2I)模型取得了巨大的进展,特别是在个性化、风格化和条件生成等领域。然而,将这一进展扩展到视频生成仍处于起步阶段,主要是由于缺乏定制化视频数据。
在这项工作中,来自 Google DeepMind 的研究团队及其合作者,提出了一个新型文生视频(T2V)模型定制通用框架——Still-Moving,其无需任何定制化视频数据。该框架适用于一种显著的 T2V 设计,即视频模型建立在 T2I 模型之上。团队假设可以访问一个仅在静态图像数据上训练的定制化 T2I 模型(例如,使用 DreamBooth 或 StyleDrop)。直接将定制化 T2I 模型的权重插入 T2V 模型中,通常会导致显著的伪影或对定制化数据的不足遵循。
为了克服这个问题,团队训练了轻量级的空间适配器,以调整由注入的 T2I 层生成的特征。重要的是,团队的适配器是在“冻结视频”(即重复图像)上训练的,这些冻结视频是从定制化 T2I 模型生成的图像样本构建的。这个训练过程由一个新颖的运动适配器模块支持,允许他们在这种静态视频上训练,同时保留视频模型的运动先验。在测试时,研究团队去除运动适配器模块,只保留训练好的空间适配器。这恢复了 T2V 模型的运动先验,同时遵循定制化 T2I 模型的空间先验。
研究团队在个性化、风格化和条件生成等多种任务上展示了他们方法的有效性。在所有评估的场景中,研究团队的方法无缝地将定制化 T2I 模型的空间先验与由 T2V 模型提供的运动先验结合起来。
论文链接:
https://arxiv.org/abs/2407.08674
项目地址:
https://still-moving.github.io/
Meta 新研究:将 System 2 蒸馏到 System 1 中
大语言模型(LLM)在推理过程中可以花费额外的计算资源来生成中间思路,从而帮助产生更好的最终响应。自从思维链(CoT)提出以来,许多此类的 System 2 技术相继出现,比如重新表述和响应(Rephrase and Respond)、System 2 注意力(System 2 Attention)和分支-解决-合并(Branch-Solve-Merge)。
在这项工作中,Meta FAIR 团队研究了自监督方法,将 System 2 技术中的高质量输出“编译”(蒸馏)回 LLM 生成的内容中,而无需中间推理 token 序列,因为这些推理已被蒸馏到 System 1 中。
研究团队展示了几种这样的技术可以成功蒸馏,结果相比原始 System 1 性能有所改善,同时推理成本比 System 2 更低。团队认为,System 2 蒸馏将成为未来可持续学习的 AI 系统的重要特性,使它们能够将 System 2 的能力集中在尚不能很好完成的推理任务上。
论文链接:
https://arxiv.org/abs/2407.06023
Google DeepMind 提出百万混合专家模型
标准 Transformer 架构中的前馈(FFW)层随着隐藏层宽度的增加会导致计算成本和激活内存线性增加。稀疏混合专家(MoE)架构通过将模型大小与计算成本分离,已成为解决这一问题的可行方法。最近发现的细粒度 MoE 缩放定律表明,更高的粒度可以带来更好的性能。然而,由于计算和优化的挑战,现有的 MoE 模型仅限于少量专家。
为此,Google DeepMind 研究团队推出了 PEER(参数高效专家检索),这是一种利用 product key 技术从大量小专家(超过一百万)中进行稀疏检索的新型层设计。在语言建模任务上的实验表明,PEER 层在性能-计算权衡方面优于密集的 FFW 和粗粒度 MoE。通过高效利用大量专家,PEER 解锁了在保持计算效率的同时进一步扩展 Transformer 模型的潜力。
论文链接:
https://arxiv.org/abs/2407.04153
苹果团队推出兼容 LLM 演进的模型更新策略 MUSCLE
为提高模型性能,大语言模型(LLM)经常会因数据或架构变化而更新。在更新模型时,开发人员通常侧重于提高整体性能指标,而不太重视与先前模型版本的兼容性。然而,用户通常会对与之交互的特定机器学习模型的功能和能力建立一个心智模型。每次更新时,他们都必须调整自己的心智模型——这是一项耗费精力的任务,可能会导致用户不满。
在实践中,微调下游任务适配器依赖于预训练的 LLM 基础模型。当这些基础模型更新时,这些面向用户的下游任务模型就会出现实例退化(Instance regression)或负向翻转(Negative flips)的情况。即使下游任务训练程序保持不变,这种情况也会发生。
在这项工作中,来自苹果公司、加州大学圣地亚哥分校的研究团队希望通过两种方式为用户提供无缝的模型更新。首先,他们为与先前模型版本的兼容性概念提供了评估指标,特别适用于生成任务,但也适用于判别任务。他们观察了不同任务和模型更新上不同模型版本之间的退化和不一致性。其次,他们提出了一种训练策略,从而尽量减少模型更新中不一致的情况,其中包括训练一个兼容性模型,该模型可以增强任务微调语言模型。从 Llama 1 到 Llama 2,他们减少了多达 40% 的负向翻转——即以前正确的实例现在被错误地预测出来。
论文链接:
https://arxiv.org/abs/2407.09435
Make-An-Agent:轻松为一个智能体生成控制策略
我们能否像根据文字描述创建图像一样,只用一个预期行为的演示作为提示,就毫不费力地为一个智能体(agent)生成控制策略?
在这项工作中,来自马里兰大学、清华大学和加州大学圣地亚哥分校的研究团队,提出了一种新颖的策略参数生成器——Make-An-Agent,它利用条件扩散模型,实现从行为到策略的生成。
该策略生成器以编码轨迹信息的行为嵌入为指导,合成潜在参数表示,然后将其解码为策略网络。通过对策略网络检查点及其相应轨迹的训练,生成模型在多个任务上都表现出了卓越的通用性和可扩展性,并在未见过的任务上具有很强的泛化能力,只需少量的演示作为输入就能输出表现良好的策略。
他们展示了其在不同领域和任务上的功效和效率,包括不同的目标、行为,甚至不同的机器人操纵器。除了模拟,他们还将 Make-An-Agent 生成的策略直接部署到真实世界的机器人上来执行运动任务。
论文链接:
https://arxiv.org/abs/2407.10973
北航、美团团队推出首个视频扩散模型训练后量化策略 QVD
最近,视频扩散模型(VDM)因其在生成连贯逼真的视频内容方面的显著进步而备受关注。然而,同时处理多个帧特征,再加上模型体积庞大,会导致高延迟和大量内存消耗,阻碍了其更广泛的应用。
训练后量化(PTQ)是减少内存占用和提高计算效率的有效技术。与图像扩散不同,来自北京航空航天大学和美团的研究团队观察到,整合到所有帧特征中的时间特征表现出明显的偏斜性。此外,他们还研究了视频扩散模型激活过程中通道间的显著差异和不对称,这导致单个通道的量化水平覆盖率较低,增加了量化的难度。
为解决这些问题,他们推出了首个为视频扩散模型量身定制的 PTQ 策略——QVD。具体来说,他们提出了专为时间特征设计的高时间可辨别性量化(HTDQ)方法,该方法保留了量化特征的高可辨别性,为所有视频帧提供精确的时间指导。此外,他们还提出了散射信道范围整合(SCRI)方法,旨在提高各个信道量化水平的覆盖率。各种模型、数据集的实验验证证明了 QVD 在各种指标方面的有效性。特别是,QVD 在 W8A8 上实现了近乎无损的性能降低,在 FVD 方面比现有方法高出 205.12。
论文链接:
https://arxiv.org/abs/2407.11585
上海 AI Lab 提出 LLM 长上下文评估框架 NeedleBench
在评估大语言模型(LLM)的长上下文能力时,从原始长文档中识别与用户查询相关的内容是任何 LLM 回答基于长文本的问题的重要前提。
来自上海 AI Lab 的研究团队提出了 NeedleBench 框架,其由一系列挑战性逐渐增加的任务组成,用于评估双语长文本能力,跨越 4k、8k、32k、128k、200k、1000k 等多个长度区间和不同深度范围,允许在不同文本深度区域策略性地插入关键数据点,从而严格测试模型在不同上下文背景下的检索和推理能力。他们使用 NeedleBench 框架来评估领先的开源模型在双语长文本中识别与问题相关的关键信息并应用这些信息进行推理的能力。此外,为模拟现实世界长上下文任务中可能出现的逻辑推理挑战的复杂性,他们还提出了 Ancestral Trace Challenge(ATC),从而为评估 LLM 处理复杂长上下文情况提供了一种简单的方法。
研究结果表明,当前的 LLM 难以应对现实世界中长上下文任务中可能出现的复杂逻辑推理挑战,在实际长上下文应用中还有很大的改进空间。
论文链接:
https://arxiv.org/abs/2407.11963
GitHub 地址:
https://github.com/open-compass/opencompass
DiT-MoE:
将扩散 Transformer 扩展至 160 亿参数
在这项工作中,来自昆仑万维的研究团队提出了扩散 Transformer(DiT)的稀疏版本——DiT-MoE,其具有可扩展性,与稠密网络相比具有竞争力,同时表现出高度优化的推理能力。
DiT-MoE 包括两个简单的设计:共享专家路由和专家级平衡损失,从而捕捉共同知识并减少不同路由专家之间的冗余。当应用于条件图像生成时,对专家专业化的深入分析获得了一些有趣的观察结果:(1)专家选择表现出对空间位置和去噪时间步长的偏好,而对不同类别的条件信息不敏感;(2)随着 MoE 层的深入,专家选择逐渐从特定空间位置转向分散和平衡。(3)专家专业化在早期时间步趋于集中,而在一半之后则逐渐趋于均匀。研究团队将其归因于先对低频空间信息建模,再对高频复杂信息建模的扩散过程。
基于上述指导,一系列 DiT-MoE 在实验中取得了与稠密网络相当的性能,但在推理过程中所需的计算负荷却小得多。更令人鼓舞的是,他们利用合成图像数据证明了 DiT-MoE 的潜力,在 512×512 分辨率设置下,以 16.5B 参数缩放扩散模型的 SoTA FID-50K 得分为 1.80。
论文链接:
https://arxiv.org/abs/2407.11633
GitHub 地址:
https://github.com/feizc/DiT-MoE
VD3D:首个基于 transformer 的视频扩散模型相机控制
当前的文本到视频合成模型展示了从文本描述生成连贯、逼真的复杂视频的能力。然而,大多数现有模型缺乏对相机运动的细粒度控制,而这对于内容创作、视觉效果和 3D 视觉等下游应用至关重要。
最近,一些新方法展示了生成具有可控相机姿态的视频的能力——这些技术利用了预训练的基于 U-Net 的扩散模型。然而,对于基于 transformer 的新型视频扩散模型(可联合处理空间和时间信息),现有方法均无法实现摄像机控制。