专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

OpenAI最新论文：让大模型免受恶意攻击；微软发布Phi-3技术报告；综述：LLM的自我进化｜大模型论文

学术头条 · 公众号 · · 2024-04-23 15:59

正文

今日值得关注的大模型 前沿论文

OpenAI 最新论文：让大模型免受恶意攻击
微软发布 Phi-3 技术报告：手机上的高功能语言模型
Google DeepMind：先进人工智能模型的整体安全与责任评估
MIT CSAIL 推出多模态自动可解释性智能体 MAIA
综述：大模型智能体的记忆机制
综述：大型语言模型的自我进化
综述：大型语言模型的高效推理
通过注意力调节实现更好的文本到图像生成对齐
复旦、OPPO 提出 PoseAnimate：零样本高保真姿势可控角色动画生成
昆仑万维推出音乐一致性模型
清华、Meta提出文生图定制生成新方法 MultiBooth

想要第一时间获取每日最新大模型热门论文？

扫描下方二维码，加入「大模型技术分享群」。

或点击“阅读原文”，获取「2024 必读大模型论文」合集（包括日报、周报、月报，持续更新中～）。

1.OpenAI 最新论文：让大模型免受恶意攻击

当前的大型语言模型（LLM）容易受到提示注入、越狱攻击和其他攻击的影响，这些攻击允许攻击者用他们自己的恶意提示覆盖模型的原始指令。

OpenAI 研究团队认为，这些攻击的主要漏洞之一是 LLMs 经常将系统提示（比如来自应用程序开发人员的文本）与来自不可信用户和第三方的文本视为相同的优先级。为此，他们提出了一种指令层次（instruction hierarchy）结构，明确定义了当不同优先级的指令冲突时模型应该如何选择。然后，他们提出了一种数据生成方法来演示这种分层指令跟随的行为，该方法指导 LLMs 有选择地忽略低特权指令。

他们将这种方法应用于 GPT-3.5，结果表明它大大提高了模型的鲁棒性——即使对于在训练过程中未见过的攻击类型也是如此，同时对标准能力的影响降到最低。

论文链接：

https://arxiv.org/abs/2404.13208

2.微软发布Phi-3技术报告：手机上的高功能语言模型

微软发布了 Phi-3 系列模型，包括 phi-3-mini、phi-3-small 和 phi-3-medium。

其中，phi-3-mini 是一个基于 3.3 万亿个 token 训练的 38 亿参数语言模型，根据学术基准和内部测试结果，其总体性能可与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美（例如，phi-3-mini 在 MMLU 上的得分率为 69%，在 MT-bench 上的得分率为 8.38），而且体积很小，可以部署在手机上。

微软团队表示，Phi-3 系列模型的创新点在于他们的训练数据集，它是 phi-2 所用数据集的放大版，由经过大量过滤的网络数据和合成数据组成。他们还进一步调整了模型的鲁棒性、安全性和聊天格式。

此外，他们还提供了一些初步的参数缩放结果，包括针对 4.8T token 训练的 7B 和 14B 模型，即 phi-3-small 和 phi-3-medium，这两个模型的能力都明显高于 phi-3-mini（例如，在 MMLU 上分别为 75% 和 78%，在 MT-bench 上分别为 8.7 和 8.9）。

论文链接：

https://arxiv.org/abs/2404.14219

3.Google DeepMind：先进人工智能模型的整体安全与责任评估

先进人工智能模型（AI）的安全性和责任评估是一个关键但尚在发展中的研究和实践领域。

在 Google DeepMind 开发高级 AI 模型的过程中，他们创新并应用了一系列安全评估方法。他们总结并分享了他们不断发展的方法以及供广大受众参考的经验教训，其中包括：首先，理论基础和框架对于组织风险领域、模式、形式、指标和目标的重要性是非常宝贵的；其次，安全评估发展的理论和实践都能从合作中受益，从而明确目标、方法和挑战，并促进不同利益相关者和学科之间的见解交流；第三，类似的关键方法、教训和机构适用于责任和安全方面的各种问题 —— 包括既有的和新出现的危害。

因此，从事安全评估和安全研究的广泛参与者必须共同努力，开发、完善和实施新的评估方法和最佳实践。报告最后概述了快速推进评估科学、将新的评估纳入 AI 的开发和治理、建立科学依据的规范和标准，以及促进强大的评估生态系统的明确需求。

论文链接：

https://arxiv.org/abs/2404.14068

4.MIT CSAIL推出多模态自动可解释性智能体 MAIA

MIT 计算机科学与人工智能实验室团队提出了一个多模态自动可解释性智能体—— MAIA。MAIA 是一个使用神经模型来自动完成神经模型理解任务（比如特征解释和故障模式发现）的系统。它为预训练的视觉语言模型配备了一系列工具，从而支持对其他模型的子组件进行迭代实验，从而解释其行为。这些工具包括人类研究人员常用的工具：合成和编辑输入，计算来自真实世界数据集的最大激活示例，以及总结和描述实验结果。MAIA 提出的可解释性实验将这些工具组合在一起，用于描述和解释系统行为。

他们评估了 MAIA 在计算机视觉模型上的应用。他们首先描述了 MAIA 在图像学习表示中描述（神经元级）特征的能力。在几个经过训练的模型和一个具有配对 ground-truth 描述的合成视觉神经元新数据集上，MAIA 产生的描述与专家人类实验者生成的描述相当。此外，MAIA 可以帮助完成两个额外的可解释性任务：降低对虚假特征的敏感性，以及自动识别可能被错误分类的输入。

论文链接：

https://arxiv.org/abs/2404.14394

项目地址：

https://multimodal-interpretability.csail.mit.edu/maia/

5.综述：大模型智能体的记忆机制

近来，基于大型语言模型（LLM）的智能体引起了研究界和工业界的广泛关注。与原始 LLM 相比，基于 LLM 的智能体具有自进化（self-evolving）能力，这是解决现实世界中需要长期、复杂的智能体-环境交互问题的基础。

支持智能体与环境交互的关键要素是智能体的记忆。虽然以往的研究提出了许多有前景的记忆机制，但这些机制散见于不同的论文中，缺乏系统的综述，无法从整体的角度对这些工作进行总结和比较，也无法抽象出通用而有效的设计模式来启发未来的研究。

为此，来自中国人民大学和华为的研究团队对基于 LLM 的智能体的记忆机制进行了全面研究。具体来说，他们首先讨论了基于 LLM 的智能体的“记忆是什么”和“为什么需要记忆”；然后，系统地回顾了以往关于如何设计和评估内存模块的研究；此外，还介绍了许多智能体应用，其中内存模块发挥了重要作用；最后，分析了现有工作的局限性，并指出了未来的重要方向。

论文链接：

https://arxiv.org/abs/2404.13501

GitHub 地址：

https://github.com/nuster1128/LLM_Agent_Memory_Survey

6.综述：大型语言模型的自我进化

大型语言模型（LLM）在各个领域和智能体应用中都取得了显著的进步。然而，目前从人类或外部模型监督中学习的 LLM 成本高昂，而且随着任务复杂性和多样性的增加，可能会面临性能上限的问题。

为了解决这个问题，使 LLM 能够自主获取、完善和学习模型自身产生的经验的自我进化（self-evolving）方法正在迅速发展。这种受人类经验学习过程启发的新训练范式为 LLM 向超级智能发展提供了可能。

为此，来自北京大学、阿里巴巴和南洋理工大学的研究团队全面研究了 LLM 的自我进化方法。他们首先提出了自我进化的概念框架，并将进化过程概述为由经验的获取、完善、更新和评估四个阶段组成的迭代循环；其次，对 LLM 和基于 LLM 的智能体的进化目标进行了分类；然后，总结了相关文献，并为每个模块提供了分类和见解；最后，指出了现有的挑战，并提出了改进自我进化框架的未来方向。

论文链接：

https://arxiv.org/abs/2404.14387

GitHub 地址：

https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/Awesome-Self-Evolution-of-LLM

7.综述：大型语言模型的高效推理

大型语言模型（LLM）因其在各种任务中的出色表现而受到广泛关注。然而，LLM 推理需要大量的计算和内存，这给在资源有限的情况下部署 LLM 带来了挑战。该领域一直致力于开发旨在提高 LLM 推理效率的技术。

来自清华大学的研究团队及其合作者全面考察了有关高效 LLM 推理的现有文献。他们首先分析了 LLM 推理效率低下的主要原因，即模型规模过大、二次复杂性注意力操作和自动回归解码方法；然后，提出了一个全面的分类法，将目前的文献整理为数据级、模型级和系统级优化；此外，还对关键子领域中的代表性方法进行了比较实验，从而提供定量见解；最后，进行了一些知识总结，并讨论了未来的研究方向。

论文链接：

https://arxiv.org/abs/2404.14294

8.通过注意力调节实现更好的文本到图像生成对齐

在文本到图像的生成任务中，扩散模型的进步提高了生成结果的保真度。然而，这些模型在处理包含多个实体和属性的文本提示时遇到了挑战。

注意力分布不均会导致实体泄漏和属性错位问题。要解决这个问题，从头开始训练需要大量的标注数据，而且非常耗费资源。

为此，来自新加坡国立大学、山东大学的研究团队提出了一种属性聚焦（attribution-focusing）机制，这是一种通过调节扩散模型的注意力来实现的免训练分阶段机制。

他们的核心理念之一是引导模型在不同的时间步集中于提示的相应句法成分。为此，他们在自注意力模块的早期阶段加入了温度控制机制，从而缓解实体泄漏问题。

另外，他们在交叉注意模块中集成了以对象为中心的屏蔽方案和分阶段动态权重控制机制，使模型能够更有效地辨别实体之间的语义信息关联。

各种配准场景的实验结果表明，该模型能以最小的额外计算成本实现更好的图像-文本对齐。

论文链接：

https://arxiv.org/abs/2404.13899

9.复旦、OPPO提出PoseAnimate：零样本高保真姿势可控角色动画生成

图像到视频（I2V）生成的目的是从单张图像创建视频序列，这要求与源图像具有高度的时间一致性和视觉保真度。此外，这些方法还需要大量的视频数据来进行训练，这可能会在计算上造成困难。

OpenAI最新论文：让大模型免受恶意攻击；微软发布Phi-3技术报告；综述：LLM的自我进化｜大模型论文

正文

请到「今天看啥」查看全文