专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

超越GPT-4V，清华团队推出具身智能体开放平台；零样本多身份图像生成；基于自我博弈的大模型对齐｜大模型周报

学术头条 · 公众号 · · 2024-05-06 12:29

正文

本周值得关注的大模型 / AIGC 前沿研究：

同时预测多个 token：更好更快的大型语言模型
InstantFamily：零样本多身份图像生成
Meta 提出“迭代推理偏好优化”
SPPO：基于自我博弈的大模型对齐方法
字节、南开团队 StoryDiffusion：提高图像、视频生成的一致性
使用“单图像对”定制文本到图像模型
Meta 新研究：实现语言模型的高效训练
超越 GPT-4V，清华团队推出具身智能体开放平台
Cohere提出评测新方法：用多个小模型替代大模型
Meta推出AdvPrompter，800倍速生成人类可读对抗性提示

想要第一时间获取每日最新大模型热门论文？

扫描下方二维码，加入「大模型技术分享群」。

或点击“阅读原文”，获取「2024 必读大模型论文」合集（包括日报、周报、月报，持续更新中～）。

1.同时预测多个 token：更好更快的大型语言模型

目前，GPT 和 Llama 等大型语言模型（LLMs）都是通过下一个 token 预测损失来训练的。

在这项工作中，来自 Meta FAIR 的研究团队认为，训练语言模型同时预测多个 token，可以提高采样效率。更具体地说，在训练语料库的每个位置，他们要求在共享模型主干的基础上，使用 n 个独立的输出头预测后面的 n 个 token。将多 token 预测视为一项辅助训练任务，他们测量了代码模型和自然语言模型在无训练时间开销的情况下改进的下游能力。

这种方法对更大的模型规模更加有效，而且在进行多 epochs 训练时仍能保持这种效率。该模型在编码等生成基准方面的优势尤为明显，始终比强基准高出几个百分点。与同类的 next-token 模型相比，他们的 13B 参数模型在 HumanEval 上多解决了 12% 的问题，在 MBPP 上多解决了 17% 的问题。

小型算法任务的实验表明，多 token 预测有利于归纳头和算法推理能力的发展。另外一个好处是，使用 4-token 预测训练的模型即使在大 batch 尺寸情况下，推理速度也能提高 3 倍。

论文链接：

https://arxiv.org/abs/2404.19737

2.InstantFamily：零样本多身份图像生成

目前，在个性化图像生成领域，创建保存概念的图像的能力已大大提高。要创建一幅能将多个概念自然地融合在一起、具有视觉吸引力的图像，依然具有挑战性。

SK Telecom 提出了 InstantFamily —— 采用一种新颖的掩码交叉注意力机制和多模态嵌入堆栈来实现零样本多 ID 图像生成。他们的方法利用预先训练的人脸识别模型中的全局和局部特征与文本条件相结合，从而有效地保留了 ID。

此外，他们的掩码交叉注意力机制能够精确控制生成图像中的多 ID 和组成。实验表明它在生成多 ID 图像方面具有优势，同时解决了多 ID 生成问题。此外，该模型在单 ID 和多 ID 保存方面都达到了 SOTA，该模型在保存 ID 的数量比最初训练时更多的情况下，也表现出了显著的可扩展性。

论文链接：

https://arxiv.org/abs/2404.19427

3.Meta 提出“迭代推理偏好优化”

最近的研究表明，迭代偏好优化方法在一般指令微调任务中表现出色，但在推理任务中通常改善甚微。

Meta 和纽约大学的研究团队开发了一种迭代方法，通过优化导致正确答案的获胜与失败推理步骤，来优化竞争生成的思维链（CoT）候选者之间的偏好。他们使用修改后的 DPO 损失进行训练，并增加了一个负对数似然项。

结果表明，推理能力在该方案的反复迭代中得到了提高。尽管只依赖训练集中的示例，但该方法使 Llama-2-70B-Chat 在 GSM8K 上的准确率从 55.6% 提高到 81.6%（在 32 个样本中使用多数投票的准确率为 88.7%），在 MATH 上的准确率从 12.5% 提高到 20.8%，在 ARC-Challenge 上的准确率从 77.8% 提高到 86.7%，超过了其他不依赖额外数据集的基于 Llama-2 的模型。

论文链接：

https://arxiv.org/abs/2404.19733

4.SPPO：基于自我博弈的大模型对齐方法

传统的人类反馈强化学习（RLHF）方法依赖于 Bradley-Terry 模型等参数模型，无法很好地捕捉人类偏好的不稳定性和不理性。最新进展表明，直接使用偏好概率可以更准确地反映人类偏好，从而实现更灵活、更准确的语言模型对齐。

来自加州大学洛杉矶分校和卡内基梅隆大学的研究团队，提出了一种基于自我博弈的语言模型对齐方法 SPPO，该方法将问题视为一个恒和双人博弈，旨在确定纳什均衡策略。它通过迭代策略更新逼近纳什均衡，并具有理论上的收敛保证。该方法能有效提高被选对策的对数似然，降低被拒对策的对数似然，这一点是直接偏好优化（DPO）和身份偏好优化（IPO）等对称成对损失方法无法实现的。

实验表明，SPPO 仅使用了来自 UltraFeedback 数据集的 60k 个提示（不含回复），并且没有进行任何提示增强，通过利用仅有 0.4B 个参数的预训练偏好模型 PairRM，可以从微调 Mistral-7B-Instruct-v0.2 中获得一个模型，该模型在 AlpacaEval 2.0 上与 GPT-4-Turbo 相比达到了长度控制胜率 SOTA（28.53%）。它在 MT-Bench 和 Open LLM Leaderboard 上的表现也优于（迭代）DPO 和 IPO。值得注意的是，SPPO 的强大性能是在没有 GPT-4 或其他更强大的语言模型的额外外部监督（如偏好等）的情况下实现的。

论文链接：

https://arxiv.org/abs/2405.00675

5.字节、南开团队 StoryDiffusion：提高图像、视频生成的一致性

对于最新的基于扩散的生成模型来说，在生成的一系列图像中保持内容的一致性，尤其是那些包含主题和复杂细节的图像，是一个巨大的挑战。

来自南开大学和字节跳动的研究团队提出了一种新的自注意力计算方式 —— 一致自注意力（Consistent Self-Attention），它能显著提升生成图像之间的一致性，并以零样本的方式增强基于扩散的预训练文本到图像模型。

为了将该方法扩展到长视频生成，他们进一步提出了一个新颖的语义空间时间运动预测模块，名为 “语义运动预测器”（Semantic Motion Predictor）。该模块经过训练，可以估计语义空间中两幅提供图像之间的运动状况。该模块可将生成的图像序列转换为具有平滑过渡和一致主体的视频，尤其是在生成长视频的情况下，其稳定性明显高于仅基于潜空间的模块。

此外，通过合并这两个新颖的组件，框架 StoryDiffusion 可以用包含丰富内容的一致图像或视频来描述基于文本的故事。

论文链接：

https://arxiv.org/abs/2405.01434

GitHub 链接：

https://github.com/HVision-NKU/StoryDiffusion

6.使用“单图像对”定制文本到图像模型

艺术重新诠释是指对参考作品进行变体创作，使配对的艺术作品展现出独特的艺术风格。然而，这样的图像配对能否用于定制生成模型，从而捕捉所展示的风格差异？

来自卡内基梅隆大学和东北大学的研究团队提出了一种新的定制方法 ——配对定制（Pair Customization），它能从单个图像配对中学习风格差异，然后将获得的风格应用到生成过程中。与从图像集合中学习模仿单一概念的现有方法不同，该方法能捕捉配对图像之间的风格差异。这使他们能够应用风格变化，而不会过度适应示例中的特定图像内容。

为了完成这项新任务，他们采用了一种联合优化方法，明确地将风格和内容分离为不同的 LoRA 权重空间。他们对这些风格和内容权重进行优化，从而重现风格和内容图像。

在推理过程中，他们根据学习到的权重，通过新的风格引导来修改扩散过程。定性和定量实验都表明，他们的方法可以有效地学习风格，同时避免过度拟合图像内容，突出了从单个图像对中模拟这种风格差异的潜力。

论文链接：

https://arxiv.org/abs/2405.01536

GitHub 链接：

https://paircustomization.github.io/

7.Meta 新研究：实现语言模型的高效训练

目前，语言模型（LMs）的训练依赖于在海量数据集上进行计算量巨大的训练，这使得训练过程极其费力。来自 Meta FAIR 的研究团队提出了一种新方法，以模型无关的方式对大型无标签 NLP 数据集中的文本质量进行数值评估，为文本实例分配 “质量分数”。

通过提出文本质量度量，他们建立了一个识别和消除低质量文本实例的框架，从而提高了 LM 模型的训练效率。在多个模型和数据集上的实验结果证明了这种方法的有效性，展示了训练效果的大幅提升，并突出了资源节约型 LM 训练的潜力。

例如，在 OpenWebText 数据集上训练时，他们观察到多个 LM 模型在 14 个下游评估任务中的平均绝对准确率提高了 0.9%，同时使用的数据减少了 40%，训练速度提高了 42%；在维基百科数据集上训练时，平均绝对准确率提高了 0.8%，同时使用的数据减少了 20%，训练速度提高了 21%。

论文链接：

https://arxiv.org/abs/2405.01582

8.超越 GPT-4V，清华团队推出具身智能体开放平台

尽管大型语言模型（LLMs）和大型多模态模型（LMMs）取得了进步，但将它们集成到以语言为基础、类似人类的具身智能体中的工作仍未完成，这阻碍了物理环境中复杂现实任务的执行。现有的集成通常以有限的开放源代码为特征，对该领域的整体进步构成了挑战。

超越GPT-4V，清华团队推出具身智能体开放平台；零样本多身份图像生成；基于自我博弈的大模型对齐｜大模型周报

正文

请到「今天看啥」查看全文