随着人工智能技术的飞速发展,2024年的研究者们在多个领域取得了重大突破。
这些研究成果不仅提高了AI的效率和性能,还扩展了AI的应用范围,使其能够更好地理解和创造内容,为各行各业带来了革命性的变化。
作者:
张长旺,图源:
旺知识
在本文中,我们深入研究了十篇开创性的研究论文,这些论文在包括大语言模型、多模态处理、视频生成与编辑以及交互式环境创建等不同领域拓展了人工智能的前沿。这些研究由Meta、谷歌DeepMind、Stability AI、Anthropic和微软等领先的研究实验室完成,展示了创新的方法,包括缩小强大模型以实现高效的设备端使用、将多模态推理扩展到数百万个标记,以及在视频和音频合成中实现无与伦比的保真度。
以下是我们重点介绍的研究论文:
-
卡内基梅隆大学的Albert Gu和普林斯顿大学的Tri Dao所著的《Mamba:具有选择性状态空间的线性时间序列建模》
-
谷歌DeepMind的《Genie:生成式交互环境》
-
Stability AI的《扩展整流流变换器以实现高分辨率图像合成》
-
谷歌DeepMind的《使用AlphaFold 3准确预测生物分子相互作用的结构》
-
微软的《Phi - 3技术报告:手机本地的高能力语言模型》
-
谷歌Gemini团队的《Gemini 1.5:解锁跨数百万上下文标记的多模态理解》
-
Anthropic的《Claude 3模型系列:Opus、Sonnet、Haiku》
-
Meta的《Llama 3模型群》
-
Meta的《SAM 2:图像和视频中的任意分割》
-
Meta的《Movie Gen:一系列媒体基础模型》
1. Mamba:具有选择性状态空间的线性时间序列建模
本文介绍了Mamba,这是一种用于序列建模的开创性神经架构,旨在解决Transformers的计算效率低下问题,同时匹配或超越其建模能力。
2. Genie:生成式交互环境
由谷歌DeepMind开发的Genie是一种开创性的生成式人工智能模型,旨在从无注释的视频数据中创建交互式、动作可控的环境。在超过20万小时的公开互联网游戏视频上进行训练后,Genie使用户能够使用文本、草图或图像作为提示生成身临其境的可玩世界。其架构集成了时空视频标记器、自回归动态模型和潜在动作模型,以预测逐帧动态,而无需明确的动作标签。Genie代表了一个具有110亿参数的基础世界模型,标志着生成式人工智能在开放式、可控虚拟环境方面的重大进步。
3. Enhanced Rectified Flow:扩展整流流变换器以实现高分辨率图像合成
Stability AI的这篇论文介绍了整流流模型和基于变换器的架构的进步,以改进高分辨率文本到图像的合成。所提出的方法将新颖的整流流训练技术与多模态变换器架构相结合,在文本到图像生成质量方面优于现有的最先进模型。该研究强调可扩展性和效率,训练了多达80亿参数的模型,这些模型在视觉保真度和提示遵循方面表现出最先进的性能。
4. 使用AlphaFold 3准确预测生物分子相互作用的结构
谷歌DeepMind开发的AlphaFold 3(AF3)通过引入一个统一的深度学习框架,显著扩展了其前身的能力,用于对包括蛋白质、核酸、小分子、离子和修饰残基在内的各种生物分子复合物进行高精度结构预测。利用一种新颖的基于扩散的架构,AF3超越了专门的工具,在蛋白质 - 配体、蛋白质 - 核酸和抗体 - 抗原相互作用预测方面达到了最先进的准确性。这使AF3成为推进分子生物学和治疗设计的多功能强大工具。
5. Phi - 3技术报告:手机本地的高能力语言模型
微软研究团队通过Phi - 3实现了一项开创性进展:一个强大的语言模型足够紧凑,可以在现代智能手机上原生运行,同时保持与GPT - 3.5等大得多的模型相当的能力。这一突破是通过优化训练数据集而不是扩大模型大小来实现的,从而产生了一个高效的模型,平衡了性能和部署的实用性。
6. Gemini 1.5:解锁跨数百万上下文标记的多模态理解
在本文中,谷歌Gemini团队介绍了Gemini 1.5,这是一系列多模态语言模型,显著扩展了长上下文理解和多模态推理的边界。这些模型,Gemini 1.5 Pro和Gemini 1.5 Flash,在处理多模态数据方面取得了前所未有的性能,能够在多达1000万个标记(包括文本、视频和音频)上进行回忆和推理。基于Gemini 1.0系列,Gemini 1.5在稀疏和密集缩放、训练效率和服务基础设施方面进行了创新,实现了能力的代际飞跃。