专栏名称: 将门创投

将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。

12.17 直播预告｜字节跳动豆包大模型团队 NeurIPS 2024 中选论文精讲

将门创投 · 公众号 · 科技创业 · 2024-12-16 08:22

正文

AI 学术圈的年度盛会——NeurIPS 2024 正在加拿大温哥华举行。

字节跳动豆包大模型团队超 20 篇论文入选，研究范畴涵盖计算机视觉、自然语言处理、语音、机器学习等多个大模型相关方向。

我们将在 12 月 17 日（周二） 19:00-21:00 举办「豆包大模型团队 NeurIPS 2024 前沿论文分享会」，届时，豆包大模型视觉基础研究负责人冯佳时、豆包大模型视觉基建负责人肖学锋、及 Xiaohai Tian 、 Bingyi Kang 、 Zilong Huang 三位资深研究员，将带大家一起直击学术前沿，深度剖析亮眼成果。

活动议程

精选论文解读

StoryDiffusion：用于长距离图像和视频生成的一致性自注意力

论文地址： https://arxiv.org/pdf/2405.01434

对于近期基于扩散的生成模型来说，在一系列生成的图像中保持内容的一致性，尤其是包含主体和复杂细节的图像，是一个重大挑战。

在本文中，我们提出一种新的自注意力计算方法，称为 “一致性自注意力”（Consistent Self-Attention）。它显著提高了生成图像间的一致性，并以零样本方式增强了当前流行的预训练基于扩散的文本到图像模型。

为了将该方法扩展到长距离视频生成，我们进一步引入一个新颖的语义空间时间运动预测模块，称为 “语义运动预测器”（Semantic Motion Predictor）。它被训练用来估计两个语义空间中提供的图像之间的运动条件。该模块将生成的图像序列转换为具有平滑过渡和一致主体的视频，与仅基于潜在空间的模块相比，在长视频生成的背景下，稳定性显著提高。

通过合并这两个新颖组件， 我们框架称为 StoryDiffusion，它能够用一致的图像或视频描述基于文本的故事，涵盖丰富多样的内容。 期待 StoryDiffusion 能够在视觉故事生成领域启发更多的架构修改研究。

Hyper-SD：用于高效图像合成的轨迹分段一致性模型

论文地址： https://arxiv.org/pdf/2404.13686

近期，一系列针对扩散模型（DMs）的扩散感知蒸馏算法出现，以减轻与多步推理过程相关的计算开销。当前的蒸馏技术通常分为两个不同方面：i）轨迹保持蒸馏；ii）轨迹重构蒸馏。然而，这些方法存在严重的性能下降或领域偏移问题。

为解决这些局限性， 我们提出 Hyper-SD 新颖框架，它协同融合了轨迹保持蒸馏和轨迹重构蒸馏的优势，同时在步骤压缩期间保持近乎无损的性能。

首先，我们引入了轨迹分段一致性蒸馏（TSCD），在预定义的时间步段内逐步执行一致性蒸馏，有助于从更高阶的角度保持原始 ODE 轨迹。其次，我们纳入了人类反馈学习来提升模型在低步数下的性能，并减轻蒸馏过程带来的性能损失。第三，我们整合得分蒸馏，进一步改善了模型的低步数生成能力，并首次尝试利用统一的低秩适应（LoRA）来支持所有步骤的推理过程。

大量实验和用户研究表明，Hyper-SD 在 SDXL 和 SD1.5 的 1 到 8 步推理中均实现了最先进的性能。例如，在 1 步推理中，Hyper-SDXL 在 CLIP 分数上比 SDXL-Lightning 高出 + 0.68，在 Aes 分数上高出 + 0.51。

SD-Eval：超越文字的口语对话理解基准数据集

论文地址： https://arxiv.org/pdf/2406.13340

开源地址： https://github.com/amphionspace/SD-Eval

面向聊天的大语言模型（LLMs），以其通用辅助能力而闻名，已经发展到能够处理包括语音在内的多模态输入。尽管这些模型能够熟练地识别和分析语音，但它们经常无法生成恰当的响应。此外，现有的语音对话测试集主要侧重于文本信息，缺乏对文本之外的副语音信息和环境信息的全面理解。因此，构建适用于语音对话模型评估的开放数据集和评估指标已成为亟待解决的问题。

为弥补这一差距， 我们提出 SD-Eval，一个旨在多维度评估口语对话理解和生成的基准数据集 。SD-Eval 专注于副语言和环境信息，包含 7303 个话语，总计 8.76 小时的语音数据。数据来自八个公共数据集，涵盖情感、口音、年龄和背景音四个视角。

为评估 SD-Eval 基准数据集，我们实现了三种不同的模型，并按照与 SD-Eval 类似的过程构建了一个训练集。该训练集包含 1052.72 小时的语音数据和 724.4k 个话语。我们还使用客观评估方法（例如 BLEU 和 ROUGE）、主观评估和基于 LLM 的指标对生成响应进行了全面评估。实验表明，结合超语言和环境信息的模型在客观和主观评估中均优于未使用该信息的模型。此外，实验显示，与传统指标相比，基于 LLM 的指标与人类评估具有更高的相关性。

深度万物 V2

论文地址： https://arxiv.org/pdf/2406.09414

效果展示： https://depth-anything-v2.github.io/

（Depth Anything 系列在 GitHub 上已获得 1.2 万 Star）

Depth Anything 是一种单目深度估计模型，V1 版本发布于 2024 年初，V2 版本发布于 2024 年 6 月，包含 25M 到 1.3B 参数的不同大小模型，可应用于视频特效、自动驾驶、3D 建模、增强现实、安全监控以及空间计算等领域。

本文介绍 Depth Anything V2，这是一个功能更强大的单目深度估计基础模型。与 V1 版相比，新版本通过三项关键改进生成了更精细、更稳健的深度预测：1）用合成图像替换所有标记的真实图像；2）扩大教师模型的容量；3）通过大量伪标记的真实图像来训练学生模型。

与基于 Stable Diffusion 的最新模型相比，我们的模型效率显著更高（快 10 倍以上）且更准确。我们提供不同规模的模型（参数范围从 2500 万到 13 亿），以支持广泛的应用场景。

受益于其强大的泛化能力，我们用度量深度标签对它们进行微调，以获得度量深度模型。此外，考虑到当前测试集的多样性有限且频繁出现噪声，我们构建了一个具有精确标注和多样化场景的多功能评估基准，以促进未来研究。

视觉-语言预训练的正确分类方法

论文地址： https://arxiv.org/pdf/2411.03313

开源地址： https://github.com/x-cls/superclass

我们提出 SuperClass，一种用于图像-文本数据的视觉-语言预训练的超级简单分类方法。

SuperClass 直接使用原始文本的分词作为多分类标签，无需额外的文本过滤或筛选。与 CLIP 这类对比学习方法不同，SuperClass 无需构建大对比 batch size，也不需要文本编码器，因此具有更高的训练效率。

实验结果表明，SuperClass 在多种纯视觉任务和视觉语言多模态下游任务上表现出色、训练效率更高，并且在模型大小和数据集大小方面具备与 CLIP 相同或更优的 Scalability。

一图胜千言：仅需 32 个标记即可重建与生成

论文地址： https://arxiv.org/pdf/2406.07550

生成模型的最新进展突显了图像标记化在高效合成高分辨率图像中的关键作用。标记化将图像转换为潜在表示，与直接处理像素相比，降低了计算需求，并提高了生成过程的有效性和效率。

现有的方法，如 VQGAN，通常使用具有固定下采样因子的 2D 潜在网格。然而，这些 2D 标记化方法在处理图像中固有的冗余方面面临挑战，图像相邻区域常常表现出相似性。

为克服这一问题，我们引入了基于 Transformer 的一维标记器（TiTok），这种创新方法能将图像标记化为 1D 潜在序列。 TiTok 提供了比传统技术更紧凑的潜在表示。例如，一个 256×256×3 的图像可以被简化为仅 32 个离散标记，与先前方法获得的 256 或 1024 个标记相比显著减少。

尽管其紧凑性，TiTok 在性能上与最先进的方法相当。具体来说，在 ImageNet 256×256 基准测试中，TiTok 达到了1.97 的生成 FID 得分，显著优于 MaskGIT基线 4.21。

当涉及更高分辨率时，TiTok 的优势更加显著。在 ImageNet 512×512 基准测试中，TiTok 不仅优于最先进的扩散模型 DiT-XL/2（gFID 为 2.74 vs. 3.04），而且还减少了 64 倍的图像标记数量，使得生成过程加快了 410 倍。我们最高性能变体可以显著超越 DiT-XL/2（gFID 为 2.13 vs. 3.04），同时仍能以快 74 倍的速度生成高质量样本。

LSH-MoE：通过局部敏感哈希实现高效通信的 MoE 训练

论文地址： https://arxiv.org/pdf/2411.08446

更大的 Transformer 模型在各种任务上通常表现更好，但扩大模型规模需要更高的成本。为了有效地扩大模型，混合专家（MoE）架构被广泛采用，它由一个门控网络和一系列专家组成，通过将输入数据路由到固定数量的专家而不是全部专家，从而保持训练成本不变。

在现有的大规模 MoE 训练系统中，专家会分布在不同的 GPU 上以实现并行化，因此输入数据需要额外的全对全通信来访问目标专家并进行相应计算。然而，在评估常用 GPU 集群上三个主流 MoE 模型的训练过程时，我们发现全对全通信比例平均约为 45%，这显著阻碍了 MoE 模型训练的效率和可扩展性。

12.17 直播预告｜字节跳动豆包大模型团队 NeurIPS 2024 中选论文精讲

正文

请到「今天看啥」查看全文