专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
目录
相关文章推荐
51好读  ›  专栏  ›  学术头条

微软提出新型注意力机制SeerAttention;清华、智谱团队提出“预训练蒸馏”|大模型日报

学术头条  · 公众号  ·  · 2024-10-22 17:30

正文

今日值得关注的大模型前沿论文

  • 清华、智谱团队提出“预训练蒸馏”
  • Hugging Face 提出开源、无代码工具/库 AutoTrain
  • Pangea:横跨 39 种语言的完全开放多语言多模态大语言模型
  • 具有世界模型的网络智能体:在网络导航中学习和利用环境动态
  • Mini-Omni2:具有视觉、语音和双工功能的“开源 GPT-4o”
  • 微软提出新型注意力机制 SeerAttention
  • MIT 团队:利用混合自回归 Transformer 实现高效视觉生成
  • 字节团队推出多模态扩散蛋白质语言模型 DPLM-2
  • 语言模型可以通过“自省”了解自己
  • 劝说平衡训练:保护大模型不受劝说影响的第一步

想要第一时间获取每日最新大模型热门论文?
点击阅读原文,查看“2024必读大模型论文”

ps:我们日常会分享日报、周报,后续每月也会出一期月报,敬请期待~


清华、智谱团队提出“预训练蒸馏”

知识提炼(KD)旨在将知识从大型教师模型转移到小型学生模型。以往在大语言模型(LLM)领域应用知识蒸馏的工作通常集中在后训练阶段,即学生 LLM 直接从教师模型生成的指令和相应的回复中学习。

在这项工作中,来自清华大学和智谱的研究团队将知识提炼扩展到 LLM 的预训练阶段,即预训练蒸馏(PD)。他们首先使用 GLM-4-9B 作为教师 LLM,对 1.9B 参数的学生 LLM 进行了初步实验,验证了 PD 的有效性。考虑到蒸馏的关键影响因素,他们从四个方面系统地探索了 PD 的设计空间:对数处理、损失选择、scaling law 以及离线或在线对数。他们进行了大量实验来探索 PD 的设计空间,并发现了更好的配置和有趣的结论,比如较大的学生 LLM 一般能从 PD 中获益更多,而较大的教师 LLM 并不一定能保证更好的结果。他们希望,他们对设计空间的探索能为未来的 PD 实践提供参考。

论文链接:
https://arxiv.org/abs/2410.16215



Hugging Face 提出开源、无代码工具/库 AutoTrain

随着开源模型的发展,在定制数据集上训练(或微调)模型已成为开发针对特定工业或开源应用的解决方案的关键部分。然而,目前还没有一种工具可以简化不同类型模态或任务的训练过程。

在这项工作中,Hugging Face 团队提出了一个开源、无代码的工具/库 AutoTrain(又名 AutoTrain Advanced),其可用于训练(或微调)不同类型任务的模型,例如:大语言模型(LLM)微调、文本分类/回归、token 分类、序列到序列任务、句子 transformers 微调、视觉语言模型(VLM)微调、图像分类/回归,甚至是表格数据的分类和回归任务。AutoTrain Advanced 是一个开源库,提供在自定义数据集上训练模型的最佳实践。AutoTrain 可完全在本地模式下使用,也可在云计算机上使用,并可与 Hugging Face Hub 上共享的数万个模型及其变体一起使用。

论文链接:
https://arxiv.org/abs/2410.15735
GitHub 地址:
https://github.com/huggingface/autotrain-advanced



Pangea:横跨 39 种语言的完全开放多语言多模态大语言模型

尽管多模态大语言模型(MLLMs)近来取得了一些进展,但其开发主要集中在以英语和西方为中心的数据集和任务上,世界上大多数语言和不同文化背景都没有得到充分的体现。

在这项工作中,卡内基梅隆大学团队推出了多语言多模态大语言模型(LLM)Pangea,其在 PangeaIns 上训练,PangeaIns 是一个横跨 39 种语言的 600 万指令数据集,其特点是 1)高质量的英文指令;2)经过精心机器翻译的指令;3)与文化相关的多模态任务,以确保跨文化覆盖范围。为了严格评估模型的能力,他们提出了一个整体评估套件 PangeaBench,其包含 14 个数据集,涵盖 47 种语言。

结果表明,在多语言环境和不同文化背景下,Pangea 明显优于现有的开源模型。消融研究进一步揭示了英语数据比例、语言流行程度和多模态训练样本数量对总体性能的重要性。

论文链接:
https://arxiv.org/abs/2410.16153
项目地址:
https://neulab.github.io/Pangea/



具有世界模型的网络智能体:在网络导航中学习和利用环境动态

最近,大语言模型(LLM)在构建自主智能体方面获得了广泛关注。然而,目前基于 LLM 的网络智能体在长期任务中的表现远非最佳,经常出现错误,如重复购买不可退票的机票。相比之下,人类可以避免这种不可挽回的错误,因为我们对自己行为的潜在结果(如损失金钱)有一定的认识,这也被称为“世界模型”。

在这项工作中,延世大学团队首先从初步分析入手,证实当前的 LLM(如 GPT-4o、Claude-3.5-Sonnet 等)中缺乏世界模型。然后,他们提出了 World-model-augmented(WMA)网络智能体,它可以模拟其行动的结果,以便更好地做出决策。

为了克服将 LLM 训练成预测下一步观察结果的世界模型所面临的挑战,例如观察结果中的重复元素和长 HTML 输入,他们提出了一种以过渡为重点的观察抽象,其中的预测目标是自由形式的自然语言描述,专门突出时间步骤之间的重要状态差异。在 WebArena 和 Mind2Web 上进行的实验表明,他们的世界模型无需训练即可改进整体的策略选择,并证明他们的智能体与最近基于树搜索的智能体相比具有成本和时间效率。

论文链接:
https://arxiv.org/abs/2410.13232



Mini-Omni2:具有视觉、语音和双工功能的“开源 GPT-4o”

GPT-4o 的推出,是多模态大语言模型发展的一个里程碑。它能理解视觉、听觉和文本模态,直接输出音频,并支持灵活的双工交互。开源社区的模型通常能实现 GPT-4o 的某些功能,如视觉理解和语音聊天。然而,由于多模态数据、复杂的模型架构和训练过程的复杂性,训练一个包含所有模态的统一模型极具挑战性。

在这项工作中,来自启元世界和清华大学的研究团队推出了 Mini-Omni2,它是一种视觉-听觉助手,能够为视觉和听觉查询提供实时、端到端的语音响应。通过整合预训练的视觉和听觉编码器,Mini-Omni2 可以保持在不同模态下的性能。他们提出了一个三阶段训练过程来对齐模态,使语言模型能够在有限的数据集上训练后处理多模态输入和输出。在交互方面,他们提出了基于命令的中断机制,使与用户的交互更加灵活。

论文链接:
https://arxiv.org/abs/2410.11190



微软提出新型注意力机制 SeerAttention

注意力是现代大语言模型(LLM)的基石。然而,它的二次复杂度限制了 LLM 的效率和可扩展性,尤其是对于那些具有长上下文窗口的 LLM。解决这一限制的一个可行方法是利用注意力的稀疏性。然而,现有的基于稀疏性的解决方案主要依赖于预定义模式或启发式方法来近似稀疏性。这种做法无法完全捕捉到基于语言的任务中注意力稀疏性的动态本质。

来自香港大学、华盛顿大学和微软研究院的研究团队及其合作者认为,注意力稀疏性应该是学习出来的,而不是预先定义的。为此,他们设计了一种新的注意力机制——SeerAttention,它通过一个可学习的门,自适应地选择注意力地图中的重要区块,并将其余区块视为稀疏区块,从而增强了传统注意力。这种块级稀疏性有效地平衡了准确性和速度。为了高效地学习门控网络,他们开发了一种定制的 FlashAttention 实现方法,它能以最小的开销提取块级注意力图的基本事实。SeerAttention 不仅适用于后期训练,而且在长期上下文微调方面表现出色。

结果表明,在后训练阶段,SeerAttention 明显优于基于静态或启发式的稀疏注意力 SOTA 方法,同时在适应不同上下文长度和稀疏比率方面也更加灵活多变。在使用 YaRN 进行长上下文微调时,SeerAttention 可以在 32k 上下文长度下达到 90% 的稀疏率,同时将困惑度损失降到最低,与 FlashAttention-2 相比,速度提高了 5.67 倍。

论文链接:
https://arxiv.org/abs/2410.13276



MIT 团队:利用混合自回归 Transformer 实现高效视觉生成

来自麻省理工学院的研究团队及其合作者推出了混合自回归 Transformer(HART),这是一种自回归视觉生成模型,能够直接生成 1024×1024 图像,其图像生成质量可与扩散模型相媲美。现有的 AR 模型由于其离散 Tokenizer 的图像重建质量较差,以及生成 1024px 图像所需的训练成本过高而面临局限性。

为了应对这些挑战,他们提出了混合 Tokenizer,它将来自自动编码器的连续潜像分解成两个部分:代表大图像的离散 token 和代表离散 token 无法代表的残余部分的连续 token。离散部分由一个可扩展分辨率的离散自回归模型建模,而连续部分则由一个仅有 3700 万个参数的轻量级残差扩散模块学习。
与纯离散 VAR Tokenizer 相比,他们的混合方法在 MJHQ-30K 上将重构 FID 从 2.11 提高到 0.30,将生成 FID 从 7.85 提高到 5.38,提高了 31%。HART 在 FID 和 CLIP 分数上也优于 SOTA 扩散模型,吞吐量提高了 4.5-7.7 倍,MAC 降低了 6.9-13.4 倍。

论文链接:
https://arxiv.org/abs/2410.10812
GitHub 地址:
https://github.com/mit-han-lab/hart



字节团队推出多模态扩散蛋白质语言模型 DPLM-2

蛋白质是由氨基酸序列定义的重要大分子,氨基酸序列决定了蛋白质的三维结构,进而决定了蛋白质在所有生物体内的功能。因此,蛋白质的生成建模需要一种多模式方法来同时建模、理解和生成序列和结构。然而,现有的方法通常对每种模态使用单独的模型,限制了它们捕捉序列和结构之间复杂关系的能力。这就导致了在需要同时理解和生成两种模态的任务中表现不佳。

在这项工作中,来自南京大学和字节跳动的研究团队推出了 DPLM-2,这是一种多模态蛋白质基础模型,它扩展了离散扩散蛋白质语言模型(DPLM),以同时容纳序列和结构。为了利用语言模型进行结构学习,他们使用基于免查找量化的 tokenizer 将三维坐标转换为离散 token。通过在实验和高质量合成结构上进行训练,DPLM-2 可以学习序列和结构的联合分布,以及它们的边际和条件。

他们还实施了一种高效的 warm-up 策略,以利用大规模进化数据与预先训练的基于序列的蛋白质语言模型的结构归纳偏差之间的联系。经验评估表明,DPLM-2 可以同时生成高度兼容的氨基酸序列及其相应的三维结构,而无需两阶段生成方法。此外,DPLM-2 还在各种条件生成任务(包括折叠、反向折叠和多模态主题输入的支架)中展示了极具竞争力的性能,并为预测任务提供了结构感知表征。

论文链接:
https://arxiv.org/abs/2410.13782







请到「今天看啥」查看全文