专栏名称: 旺知识

AI技术最新进展、发展趋势、研发经验、从业经验

2024年人工智能进展：10大开创性研究亮点

旺知识 · 公众号 · · 2024-12-01 11:45

正文

随着人工智能技术的飞速发展，2024年的研究者们在多个领域取得了重大突破。这些研究成果不仅提高了AI的效率和性能，还扩展了AI的应用范围，使其能够更好地理解和创造内容，为各行各业带来了革命性的变化。

作者：张长旺，图源：旺知识

在本文中，我们深入研究了十篇开创性的研究论文，这些论文在包括大语言模型、多模态处理、视频生成与编辑以及交互式环境创建等不同领域拓展了人工智能的前沿。这些研究由Meta、谷歌DeepMind、Stability AI、Anthropic和微软等领先的研究实验室完成，展示了创新的方法，包括缩小强大模型以实现高效的设备端使用、将多模态推理扩展到数百万个标记，以及在视频和音频合成中实现无与伦比的保真度。

以下是我们重点介绍的研究论文：

卡内基梅隆大学的Albert Gu和普林斯顿大学的Tri Dao所著的《Mamba：具有选择性状态空间的线性时间序列建模》
谷歌DeepMind的《Genie：生成式交互环境》
Stability AI的《扩展整流流变换器以实现高分辨率图像合成》
谷歌DeepMind的《使用AlphaFold 3准确预测生物分子相互作用的结构》
微软的《Phi - 3技术报告：手机本地的高能力语言模型》
谷歌Gemini团队的《Gemini 1.5：解锁跨数百万上下文标记的多模态理解》
Anthropic的《Claude 3模型系列：Opus、Sonnet、Haiku》
Meta的《Llama 3模型群》
Meta的《SAM 2：图像和视频中的任意分割》
Meta的《Movie Gen：一系列媒体基础模型》

1. Mamba：具有选择性状态空间的线性时间序列建模

本文介绍了Mamba，这是一种用于序列建模的开创性神经架构，旨在解决Transformers的计算效率低下问题，同时匹配或超越其建模能力。

主要贡献

选择性机制 ：Mamba在状态空间模型中引入了一种新颖的选择机制，解决了早期方法的一个重大限制——它们无法以依赖于输入的方式有效地选择相关数据。通过基于输入对模型组件进行参数化，该机制能够过滤无关信息并无限期保留关键上下文，在需要内容感知推理的任务中表现出色。
硬件感知算法 ：为了支持选择性机制的计算需求，Mamba利用了一种硬件优化算法，该算法使用扫描方法而不是卷积进行递归计算。这种方法避免了与实现扩展状态相关的低效率，显著提高了在现代GPU上的性能。结果是在序列长度上实现了真正的线性缩放，并且在A100 GPU上的计算速度比先前的状态空间模型快高达3倍。
简化架构 ：Mamba通过将先前的状态空间模型设计与受Transformer启发的MLP块集成到一个统一的同构架构中，简化了深度序列建模。这种简化的设计消除了对注意力机制和传统MLP块的需求，同时利用了选择性状态空间，在不同的数据模态上实现了效率和强大的性能。

结果

合成任务 ：Mamba在诸如选择性复制和归纳头等合成任务中表现出色，展示了对大语言模型至关重要的能力。它实现了无限外推，成功解决了长度超过100万个标记的序列。
音频和基因组学 ：Mamba在音频波形建模和DNA序列分析方面优于诸如SaShiMi、Hyena和Transformers等最先进的模型。它在预训练质量和下游指标方面取得了显著改进，包括在具有挑战性的语音生成任务中FID降低了50%以上。其性能随着更长的上下文有效扩展，支持长达100万个标记的序列。
语言建模 ：Mamba是第一个在预训练困惑度和下游评估中都达到Transformer质量性能的线性时间序列模型。它有效地扩展到10亿个参数，超过了领先的基线模型，包括像LLaMa这样基于Transformer的高级架构。值得注意的是，Mamba - 3B的性能与两倍于其大小的Transformers相匹配，提供了快5倍的生成吞吐量，并且在常识推理等任务中取得了更高的分数。

链接：https://arxiv.org/abs/2312.00752

2. Genie：生成式交互环境

由谷歌DeepMind开发的Genie是一种开创性的生成式人工智能模型，旨在从无注释的视频数据中创建交互式、动作可控的环境。在超过20万小时的公开互联网游戏视频上进行训练后，Genie使用户能够使用文本、草图或图像作为提示生成身临其境的可玩世界。其架构集成了时空视频标记器、自回归动态模型和潜在动作模型，以预测逐帧动态，而无需明确的动作标签。Genie代表了一个具有110亿参数的基础世界模型，标志着生成式人工智能在开放式、可控虚拟环境方面的重大进步。

主要贡献

潜在动作空间 ：Genie引入了一种完全无监督的潜在动作机制，能够在没有真实动作标签的情况下生成帧可控环境，为智能体训练和模仿扩展了可能性。
可扩展的时空架构 ：利用高效的时空变换器，Genie在视频生成中实现了线性可扩展性，同时在扩展交互中保持高保真度，优于先前的视频生成方法。
跨模态泛化 ：该模型支持各种输入，如真实世界的照片、草图或合成图像，以创建交互式环境，展示了对分布外提示的鲁棒性。

结果

交互式世界创建 ：Genie从未见提示中生成多样化、高质量的环境，包括创建游戏般的行为和理解物理动态。
稳健性能 ：与最先进的模型相比，它在视频保真度和可控性指标上表现出卓越的性能，在包括机器人技术在内的不同领域中实现了一致的潜在动作。
智能体训练潜力 ：Genie的潜在动作空间能够从未见视频中进行模仿，在强化学习任务中实现高性能，而无需注释动作数据，为训练通用智能体铺平了道路。

链接：https://arxiv.org/abs/2402.15391

3. Enhanced Rectified Flow：扩展整流流变换器以实现高分辨率图像合成

Stability AI的这篇论文介绍了整流流模型和基于变换器的架构的进步，以改进高分辨率文本到图像的合成。所提出的方法将新颖的整流流训练技术与多模态变换器架构相结合，在文本到图像生成质量方面优于现有的最先进模型。该研究强调可扩展性和效率，训练了多达80亿参数的模型，这些模型在视觉保真度和提示遵循方面表现出最先进的性能。

主要贡献

增强的整流流训练 ：引入了定制的时间步采样策略，提高了整流流模型相对于传统基于扩散的方法的性能和稳定性。这使得采样更快，图像质量更好。
新颖的多模态变换器架构 ：设计了一种可扩展的架构，使用独立的权重分离文本和图像标记处理，实现双向信息流，以改善文本到图像的对齐和提示理解。
可扩展性和分辨率处理 ：实现了诸如QK归一化和分辨率自适应时间步移等高效技术，使模型能够有效地扩展到更高分辨率和更大的数据集，而不会影响稳定性或质量。

结果

最先进的性能 ：具有80亿参数的最大模型在GenEval和T2I - CompBench等基准测试中，在视觉质量、提示遵循和排版生成等类别上优于开源和专有文本到图像模型，包括DALLE - 3。
提高采样效率 ：表明较大的模型需要更少的采样步骤来实现高质量输出，从而显著节省计算成本。
高分辨率图像合成 ：在高达1024×1024像素的分辨率下实现了稳健的性能，在美学和构图指标的人类评估中表现出色。

链接：https://arxiv.org/abs/2403.03206

4. 使用AlphaFold 3准确预测生物分子相互作用的结构

谷歌DeepMind开发的AlphaFold 3（AF3）通过引入一个统一的深度学习框架，显著扩展了其前身的能力，用于对包括蛋白质、核酸、小分子、离子和修饰残基在内的各种生物分子复合物进行高精度结构预测。利用一种新颖的基于扩散的架构，AF3超越了专门的工具，在蛋白质 - 配体、蛋白质 - 核酸和抗体 - 抗原相互作用预测方面达到了最先进的准确性。这使AF3成为推进分子生物学和治疗设计的多功能强大工具。

主要贡献

多样化相互作用的统一模型 ：AF3预测涉及蛋白质、核酸、配体、离子和修饰残基的复合物结构。
基于扩散的架构 ：在AF3中，AlphaFold 2的evoformer模块被更简单的pairformer模块取代，显著减少了对多序列比对（MSAs）的依赖。AF3使用基于扩散的方法直接预测原始原子坐标，提高了可扩展性和对复杂分子图的处理能力。
生成式训练框架 ：新方法采用多尺度扩散过程来学习不同层次的结构，从局部立体化学到全局构型。它通过与AlphaFold - Multimer预测进行交叉蒸馏来减轻无序区域的幻觉。
提高计算效率 ：作者提出了一种降低立体化学复杂性并消除键合模式特殊处理的方法，能够有效地预测任意化学成分。

结果

AF3在蛋白质 - 配体复合物（PoseBusters集）上表现出卓越的准确性，优于传统对接工具。
与RoseTTAFold2NA和其他最先进的模型相比，它在蛋白质 - 核酸和RNA结构预测中实现了更高的精度。
该模型在预测抗体 - 蛋白质界面方面有了实质性改进，与AlphaFold - Multimer v2.3相比有显著增强。

链接：https://www.nature.com/articles/s41586-024-07487-w

5. Phi - 3技术报告：手机本地的高能力语言模型

微软研究团队通过Phi - 3实现了一项开创性进展：一个强大的语言模型足够紧凑，可以在现代智能手机上原生运行，同时保持与GPT - 3.5等大得多的模型相当的能力。这一突破是通过优化训练数据集而不是扩大模型大小来实现的，从而产生了一个高效的模型，平衡了性能和部署的实用性。

主要贡献

紧凑高效的架构 ：Phi - 3 - mini是一个38亿参数的模型，在3.3万亿个标记上进行训练，能够在像iPhone 14这样的设备上完全离线运行，每秒生成超过12个标记。
创新的训练方法 ：专注于“数据最优制度”，团队精心策划高质量的网络和合成数据，以增强推理和语言理解。由于筛选数据注重质量而非数量，该模型在逻辑推理和小众技能方面有了显著改进，偏离了传统的缩放定律。
长上下文 ：所提出的方法采用LongRope方法将上下文长度扩展到128K个标记，在RULER和RepoQA等长上下文基准测试中取得了良好结果。

结果

基准性能 ：Phi - 3 - mini在MMLU上达到69%，在MT - Bench上达到8.38，与GPT - 3.5相当，而规模小一个数量级。Phi - 3 - small（70亿）和Phi - 3 - medium（140亿）优于其他开源模型，在MMLU上分别得分75%和78%。
实际应用可行性 ：Phi - 3 - mini成功地在移动设备上直接运行高质量的语言处理任务，为可访问的设备端人工智能铺平了道路。
跨模型的可扩展性 ：较大的变体（Phi - 3.5 - MoE和Phi - 3.5 - Vision）将能力扩展到多模态和基于专家的应用中，在语言推理、多模态输入和视觉理解任务中表现出色。这些模型实现了显著的多语言能力，特别是在阿拉伯语、汉语和俄语等语言中。

链接：https://arxiv.org/abs/2404.14219

6. Gemini 1.5：解锁跨数百万上下文标记的多模态理解

在本文中，谷歌Gemini团队介绍了Gemini 1.5，这是一系列多模态语言模型，显著扩展了长上下文理解和多模态推理的边界。这些模型，Gemini 1.5 Pro和Gemini 1.5 Flash，在处理多模态数据方面取得了前所未有的性能，能够在多达1000万个标记（包括文本、视频和音频）上进行回忆和推理。基于Gemini 1.0系列，Gemini 1.5在稀疏和密集缩放、训练效率和服务基础设施方面进行了创新，实现了能力的代际飞跃。