专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
目录
相关文章推荐
湖北经视  ·  上个公厕,夫妻接连感染此病毒!紧急提醒 ·  2 天前  
湖北经视  ·  明起预约!这笔钱别忘了领 ·  3 天前  
湖北经视  ·  刘诗诗、吴奇隆,突传消息! ·  3 天前  
51好读  ›  专栏  ›  学术头条

微信AI:大语言模型的补丁级训练|大模型论文日报

学术头条  · 公众号  ·  · 2024-07-19 08:33

正文


今日值得关注的大模型前沿论文:


  • VD3D:首个基于 transformer 的视频扩散模型相机控制
  • 应当扩大 语言模型不服从的范围
  • Goldfish:对任意长度视频的视觉-语言理解
  • 微信 AI:大语言模型的补丁级训练
  • LMMs-Eval:对大型多模态模型评估的现实检验
  • AgentPoison:通过“毒化”记忆或知识库对 LLM 智能体进行红队攻击

想要获取更多大模型热门论文?
点击“阅读原文” ,获取 「2024 必读大模型论文」 合集,持续更新中~


01

VD3D:首个基于

transformer 的 视频扩散模型相机控制

当前的文本到视频合成模型展示了从文本描述生成连贯、逼真的复杂视频的能力。然而,大多数现有模型缺乏对相机运动的细粒度控制,而这对于内容创作、视觉效果和 3D 视觉等下游应用至关重要。

最近,一些新方法展示了生成具有可控相机姿态的视频的能力——这些技术利用了预训练的基于 U-Net 的扩散模型。然而,对于基于 transformer 的新型视频扩散模型(可联合处理空间和时间信息),现有方法均无法实现摄像机控制。

为此,多伦多大学以及 Snap 研究团队提出使用一种类似 ControlNet 的调控机制来控制视频 transformer 进行 3D 相机控制,该机制结合了基于 Plucker 坐标的时空相机嵌入。在对 RealEstate10K 数据集进行微调后,该方法在可控视频生成方面达到了 SOTA。

这项工作首次实现了对基于 transformer 的视频扩散模型进行相机控制。

论文链接:
https://arxiv.org/abs/2407.12781
项目地址:
https://snap-research.github.io/vd3d/


02

应当扩大语言模型不服从的范围

聊天型语言模型的设计初衷是提供帮助,但它们不应对每个用户请求都予以服从。虽然大多数现有研究主要关注拒绝“不安全”的查询,但艾伦人工智能研究所的研究团服及其合作者认为,不服从的范围应当扩大。

他们介绍了一种全面的上下文不服从分类法,描述了模型在何时以及如何不应服从用户请求。该分类法涵盖了广泛的类别,包括不完整的、无支持的、不确定的以及人性化的请求(除了不安全的请求之外)。

为了测试语言模型的不服从能力,研究团队使用这一分类法开发了一个包含 1000 个不服从提示的新评估套件。研究团队发现,大多数现有模型在某些先前未充分研究的类别中表现出显著的高服从率,例如 GPT-4 错误地服从了多达 30% 的请求。

为了解决这些问题,研究团队探索了使用一个合成生成的请求和预期不服从响应训练集的不同训练策略。实验表明,尽管直接微调已指令微调的模型可能导致过度拒绝和整体能力的下降,使用诸如 LoRa(低秩适配器)等参数高效的方法有助于在适当不服从和其他能力之间取得良好的平衡。

论文链接:
https://arxiv.org/abs/2407.12043
GitHub 地址:
https://github.com/allenai/noncompliance

03

Goldfish:

对任意长度视频的视觉-语言理解

大多数当前基于大语言模型(LLM)的视频理解模型能够处理数分钟内的视频。然而,由于“噪音和冗余”以及“内存和计算”限制等挑战,它们在处理长视频时遇到困难。

来自阿卜杜拉国王科技大学的研究团队及其合作者提出了 Goldfish,一种专门为理解任意长度视频而设计的方法。他们也提出了 TVQA-long 基准,专门用来评估模型在理解长视频时对视觉和文本内容问题的能力。Goldfish 通过一种高效的检索机制应对这些挑战,该机制首先收集与指令相关的 top-k 视频片段,然后再提供所需的响应。这个检索机制的设计使 Goldfish 能够高效地处理任意长的视频序列,从而在电影或电视剧等情境中应用。

为了促进检索过程,研究团队开发了 MiniGPT4-Video,它为视频片段生成详细描述。在长视频评估基准匮乏的情况下,他们通过汇总整集的问题将 TVQA 短视频基准改编为扩展内容分析,从而将评估从部分理解转向完整集理解。他们在 TVQA-long 基准上取得了 41.78% 的准确率,比之前的方法提高了 14.94%。研究团队的 MiniGPT4-Video 在短视频理解上也表现出色,分别在 MSVD、MSRVTT、TGIF 和 TVQA 短视频基准上超越现有最先进方法 3.23%、2.03%、16.5% 和 23.59%。这些结果表明该模型在长视频和短视频理解方面都有显著改进。

论文链接:
https://arxiv.org/abs/2407.12679
项目地址:
https://vision-cair.github.io/Goldfish_website/


04

微信 AI:

大语言模型的补丁级训练

随着大语言模型(LLM)在语言理解和生成方面取得显著进展,其训练效率已成为一个关键问题。传统上,LLM 是通过预测序列中的下一个 token 来进行训练的。尽管 token 级训练取得了成功,但由于需要处理大量 token,导致计算成本相当高。

为了解决这个问题,腾讯研究团队推出了 LLM 的补丁级训练,通过将多个 token 压缩到一个补丁中来减少序列长度。在补丁级训练期间,研究团都为语言模型提供较短的补丁序列并训练它预测下一个补丁,从而在大大降低计算成本的情况下处理大部分训练数据。之后,模型会继续对剩余的训练数据进行 token 级训练,以与推理模式对齐。

在各种模型(参数从 370M 到 2.7B 不等)上的实验表明,与 token 级训练相比,补丁级训练可以将整体计算成本减少到 0.5 倍,而不会影响模型性能。

论文链接:
https://arxiv.org/abs/2407.12665
GitHub 地址:
https://github.com/shaochenze/PatchTrain


05

LMMs-Eval:

对大型多模态模型评估的现实检验

大型基础模型的进步需要覆盖面广、成本低和零污染的基准测试。尽管对语言模型评估的探索不断进行,但对大型多模态模型(LMM)评估的全面研究仍然有限。

LMMs-Lab 团队以及新加坡南洋理工大学研究团队推出了 LMMs-EVAL,这是一个统一和标准化的多模态基准框架,涵盖了 50 多个任务和 10 多种模型,旨在促进透明和可重复的评估。

尽管 LMMs-EVAL 提供了全面覆盖,但研究团队发现它在实现低成本和零污染方面仍有不足。为了解决这一评估难题,研究团队进一步引入了 LMMs-EVAL LITE,这是一种精简的评估工具包,强调覆盖率和效率。此外,他们还提出了 Multimodal LIVEBENCH,它利用不断更新的新闻和在线论坛来评估模型在真实环境中的泛化能力,这是一种低成本和零污染的评估方法。

论文链接:
https://arxiv.org/abs/2407.12772
GitHub 地址:
https://github.com/EvolvingLMMs-Lab/lmms-eval


06







请到「今天看啥」查看全文