智谱AI、清华团队发布 CogVLM2 技术报告
在这项工作中,来自智谱AI 和清华大学的研究团队提出了 CogVLM2 系列,这是用于图像和视频理解的新一代视觉语言模型,包括 CogVLM2、CogVLM2-Video 和 GLM-4V。图像理解模型 CogVLM2 继承了视觉专家架构,并在预训练和后训练阶段改进了训练方案,支持最大 1344×1344 像素的输入分辨率。视频理解模型 CogVLM2-Video 整合了带有时间戳的多帧输入,并提出了自动时间基础数据构建方法。CogVLM2 系列在 MMBench、MM-Vet、TextVQA、MVBench 和 VCGBench 等基准测试中取得了 SOTA。
谷歌:扩散模型是实时游戏引擎
在这项工作中,谷歌团队提出了首个完全由神经模型驱动的游戏引擎 GameNGen,其可以在长轨迹上与复杂环境进行高质量的实时交互。GameNGen 可以在单个 TPU 上以每秒 20 帧以上的速度交互模拟经典游戏 DOOM。下一帧预测的 PSNR 为 29.4,与有损 JPEG 压缩相当。在区分游戏短片和模拟短片方面,人类评分员的表现仅略高于随机概率。GameNGen 分两个阶段进行训练:(1) 一个强化学习(RL)agent 学习玩游戏,并记录训练过程;(2) 训练一个扩散模型,以过去的帧和动作序列为条件生成下一帧。条件增强可在长轨迹上实现稳定的自动回归生成。
通过下一个 token 预测进行上下文模仿学习
在这项工作中,来自加州大学伯克利分校的研究团队探讨了如何增强下一个 token 预测模型,以便在真实机器人上执行上下文模仿学习。他们提出的 In-Context Robot Transformer(ICRT)可对传感器运动轨迹进行自回归预测,而无需依赖任何语言数据或奖励函数。通过使用由图像观察、动作和状态元组组成的新任务的传感器运动轨迹(通过人类远程操作收集)来提示模型,这种方法可在测试时灵活、无需额外训练地执行新任务。
智谱AI、清华团队推出大模型规则理解新基准
在这项工作中,为评估大语言模型(LLM)的综合规则理解、执行和规划能力,来自智谱AI 和清华大学的研究团队推出了一种新基准 LogicGame。与传统基准不同,LogicGame 提供了包含一系列初始状态规则的多样化游戏,要求模型理解并应用预定义的规则来解决问题。从简单的规则应用到复杂的推理链,LogicGame 定义了不同难度的游戏场景,以便对模型在规则理解和多步骤执行方面的性能进行精确评估。利用 LogicGame,他们测试了各种 LLM,并发现了它们在基于规则的逻辑推理能力方面存在的明显不足。
Hugging Face:构建并更好地理解视觉语言模型
在这项工作中,来自 Hugging Face 的研究团队推出了一个构建视觉语言模型(VLMs)的教程。他们首先全面概述了当前的 SOTA 方法,强调了每种方法的优缺点,探讨了该领域的主要挑战,并为尚未充分开发的领域提出了有前途的研究方向。然后,他们介绍了构建 Idefics3-8B 的实际步骤,Idefics3-8B 是一个功能强大的 VLM,其性能优于其前身 Idefics2-8B,同时还能在开放数据集上进行高效训练,并使用简单直接的管道。此外,他们发布了该模型以及为训练该模型而创建的数据集。
浙大、腾讯团队推出定制化视频生成框架 CustomCrafter
在这项工作中,来自浙江大学和腾讯 AI Lab 的研究团队提出了定制化视频生成框架 CustomCrafter,其可以保留模型的动作生成和概念组合能力,无需额外的视频和微调来恢复。在保留概念组合能力方面,他们设计了一个即插即用模块,用于更新视频扩散模型(VDM)中的一些参数,从而增强模型捕捉外观细节的能力和对新对象进行概念组合的能力。在运动生成方面,他们发现 VDM 在去噪的早期阶段倾向于恢复视频的运动,而在后期阶段则侧重于恢复主体细节。因此,他们提出了动态加权视频采样策略。利用主体学习模块的可插拔性,他们在去噪的早期阶段减少了该模块对运动生成的影响,保留了 VDM 运动生成的能力。在随后的去噪阶段,他们恢复该模块以修复指定主体的外观细节,从而确保主体外观的保真度。实验结果表明,与之前的方法相比,该方法有着显著的改进。
降低 99.7% 计算成本,多模态大语言模型“视觉表征定律”
在这项工作中,来自斯坦福大学和加州大学伯克利分校的研究团队提出了多模态大语言模型(MLLM)“视觉表征定律”(Law of Vision Representation)。它揭示了跨模态对齐、视觉表征的对应性与 MLLM 性能之间的强相关性。他们使用跨模态对齐和对应得分(AC 分)来量化这两个因素。通过涉及 13 种不同视觉表征设置的大量实验和 8 个基准的评估,他们发现 AC 分数与模型性能呈线性相关。利用这种关系,他们能够只识别和训练最佳视觉表示法,而无需每次都对语言模型进行微调,从而降低 99.7% 的计算成本。
点击“阅读原文”,获取更多大模型论文