专栏名称: AI有道

一个有情怀、有良心的公众号。AI领域机器学习、深度学习等知识集中营，干货满满。期待与你共同进步！

目录

相关文章推荐

台海一线 · 连续两年未提“和统”，大陆是否已经下定决心？ ... · 8 小时前

中国兵器工业集团 · 锚定目标拓市场丨奋战“开门红”⑥ · 2 天前

台海一线 · 中国说的话，叙利亚果然没听进去，局势一夜骤变 ... · 2 天前

台海一线 · 特朗普万万没想到，这次被马斯克坑了，60岁的 ... · 2 天前

武志红 · 15个变老瞬间，80后看完表示很无奈 · 2 天前

51好读 › 专栏 › AI有道

Llama 3.1 横空出世！开源巨无霸首次击溃闭源，全民 GPT-4 时代来临

AI有道 · 公众号 · · 2024-07-25 10:54

正文

转自 | 新智元

【导读】大模型格局，再次一夜变天。Llama 3.1 405B重磅登场，在多项测试中一举超越GPT-4o和Claude 3.5 Sonnet。史上首次，开源模型击败当今最强闭源模型。小扎大胆豪言：开源AI必将胜出，就如Linux最终取得了胜利。

开源新王Llama 3.1 405B，昨夜正式上线！

在多项基准测试中，GPT-4o和Claude 3.5 Sonnet都被超越。也即是说，闭源SOTA模型，已经在被开源模型赶上。

一夜之间，Llama 3.1 405B已成世界最强大模型。

（同时上线的，还有新版70B和8B模型）

LeCun总结了Llama 3.1模型家族的几大要点：

- 405B的性能，与最好的闭源模型性能相当

- 开源/免费使用权重和代码，允许进行微调、蒸馏到其他模型中，以及在任何地方部署

- 128k的上下文，多语言，良好的代码生成能力，复杂推理能力，以及工具使用能力

- Llama Stack API可以轻松集成

Meta这次可谓是将开源的精神贯彻到底，同时大方放出的，还有一篇90多页的论文。

HuggingFace首席科学家Thomas Wolf赞赏道：如果想从0开始研究大模型，你需要的就是这篇paper！

它简直无所不包——预训练数据、过滤、退火、合成数据、缩放定律、基础设施、并行处理、训练方法、训练后适应、工具使用、基准测试、推理策略、量化、视觉、语音和视频……

AI2的研究员Nathan Lambert估计，这份90页的Llama 3.1论文，将直接把开源模型的进展往前推上3-9个月！

Meta CEO小扎则自豪地写下一篇长文：开源人工智能是前进的道路。

在纽约时报的采访中，小扎力挺开源AI

在这篇文章中，小扎感慨地回忆了Meta在LLM浪潮中的翻身之路——

去年，Llama 2只能与边缘的旧模型相提并论；今年，Llama 3在某些方面已经领先于最先进的模型；明年开始，未来的Llama模型将成为最先进的模型。

对于自己被多次问到的「是否担心开源Llama而失去技术优势」，小扎直接以Linux自比。

他表示，曾经大科技公司都大力投资于自己的Unix版本，然而最终还是开源Linux胜出了，因为它允许开发者随意修改代码，更先进、更安全、生态更广泛。

AI，也必将以类似方式发展。

为此，Meta特地放宽了自己的许可，首次允许开发者使用Llama 3.1模型的高质量输出，来改进和开发第三方AI模型。

网友：一个新时代开始

Llama 3.1正式解禁后，在全网掀起轩然大波。

AI大神Karpathy随即发表了一些自己的感想：

今天，随着405B模型的发布，GPT-4/Claude 3.5 Sonnet级别的前沿大模型首次对所有人开放供大家使用和构建。。其权重开源，商用许可、允许生成合成数据、蒸馏和微调模型。

这是Meta发布的一个真正开放的前沿LLM。除此以外，他们还放出了长达92页的技术报告，其中包含有大量模型细节： https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

这次模型发布背后的理念，在小扎的一篇长文中有详细阐述，非常值得一读，因为它很好地涵盖了支持开放AI生态系统世界观的所有主要观点和论点：

开源AI是未来。

我常说，现在仍处于早期阶段，就像计算机发展的1980年代重现一样，LLM是下一个重要的计算范式，而Meta显然正定位自己为其开放生态系统的领导者。

- 人们将对这些模型进行提示和使用RAG

- 人们将对模型进行微调

- 人们将把它们蒸馏成更小的专家模型，用于特定任务和应用

- 人们对其进行研究、基准测试、优化

另外，开放生态系统还以模块化的方式自组织成产品、应用和服务，每个参与方都可以贡献自己的独特专业知识。

一个例子是，AI芯片初创Groq已经集成了Llama 3.1模型，几乎能实现8B模型瞬间推理。

Karpathy称，由于服务器压力，自己似乎无法尝试运行在Groq上的405B可能是今天能力最强、最快的大模型。

他还预计，闭源模型们很快就会追赶上来，并对此非常期待。

Meta研究员田渊栋称，一个新的时代已经开始！开源LLM现在与闭源LLM不相上下/更胜一筹！

开源模型新王者诞生了。

OpenPipe创始人在测试完经过微调的Llama 3.1 8B后感慨道：从未有过如此小且如此强大的开源模型——它在每个任务上的表现都优于GPT-4o mini！

英伟达高级科学家Jim Fan表示，GPT-4的力量就在我们手中。这是一个具有历史性意义的时刻。

鲜有人关注AI模型训练背后的基础设施，Pytorch之父Soumith Chintala站出来表示，在16000块GPU搭建的设施中，也会遇到失败的时候。

这些细节都藏在了Llama 3.1的论文中，包括如何并行化、保持系统可靠性。值得一提的是，Meta团队在模型训练中实现了90%的有效训练时间。

有网友细数了Llama模型迭代过程中，GPU的用量也在不断增长。

Llama 1：2048块GPU

Llama 2：4096块GPU

Llama 3.1：16384块GPU（其实，Llama 3是在两个拥有24,000块GPU集群完成训练）

Llama 4：......

最强开源模型家族

其实，关于Llama 3.1系列模型一些要点，在昨天基本上被剧透得体无完肤了。

正如泄露信息所述，Llama 3.1可以支持8种语言（英语，德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语），多语言对话智能体、翻译用例等。

在上下文长度上，比起Llama 2、Llama 3，Llama 3.1系列模型中所有上下文增加了16倍，为128K。

Meta强调，Llama 3.1还在工具使用方面得到了改进，支持零样本工具使用，包括网络搜索、数学运算和代码执行。

基于长上下文，模型不仅知道何时使用工具，还能理解如何使用以及如何解释结果。

此外，通过微调，Llama 3.1在调用自定义工具方面提供了强大的灵活性。

主要能力

首先，Llama 3.1可以作为一个能够执行「智能体」任务的系统来运行：

- 分解任务并进行多步骤推理

- 使用工具

- 内置工具：模型自带对搜索或代码解释器等工具的知识

- 零样本学习：模型可以通过以前未见过的上下文工具定义来学会调用工具

比如问模型：「这是一个CSV文件，你可以描述它里面有什么吗？」

它会识别出：这份CSV文件包含了多年的每月通货膨胀率，年份一栏表示了每组每月通货膨胀率的年份。

接下来，我们可以要求它按时间序列绘制图表。

接下来，它还能完成一系列刁钻的任务，比如在同一图表中绘制S&P500的走势图。

完成之后，还能重新调整图表，把信息加到不同的坐标轴上。

如上所示，Llama 3.1支持8种语言，因此可以胜任多语言的翻译。

我们可以让它将童话故事《汉泽尔与格莱特》（糖果屋）翻译成西班牙语。

即使面对比较复杂的推理题，Llama 3.1也能轻松拿下。

「我有3件衬衫、5条短裤和1条连衣裙。我要出行10天，这些衣服够我度假用吗」？

AI将已知的条件，进行分解，对上衣、短裤、裙子设想了一个合理的搭配方案，并建议最好多带几件上衣。

在推理完成后，它还贴心地为我们提供了更详细的出行穿衣指南、行李清单。

我们还可以让AI手写代码。

比如让它创建一个程序，使用递归回溯算法或深度优先搜索算法生成一个完美迷宫，并且可以自定义大小和复杂度。

只见AI一上手，直出迷宫程序的Python代码。

代码完成后，AI还给出了详细的解释。

再接下来，若想自定义程序，AI代码助手为我们提供了相应的代码建议——调整宽度和高度。

评测结果

为了评估Llama3.1的表现，Meta不仅在测试中囊括了150个涵盖多语种的基准数据集，并且还在真实场景中进行了比较。

在多种任务中，405B都可以和GPT-4、GPT-4o、Claude 3.5 Sonnet等闭源领先模型掰手腕。

而8B和70B的小模型，在参数量相似的闭源和开源模型中，同样表现出色。

除了长上下文任务，8B和70B模型在通用任务、代码、数学、推理、工具使用、多语言上，取得了SOTA。

人类评估中，Llama 3.1 405B模型与GPT-4不相上下，但略逊于GPT-4o。

不过，在与Claude 3.5 Sonnet相较下，405B大模型更有优势，胜率为24.9%。

此外，在Scale的排行榜中，Llama 3.1 405B微调版本在指令跟随评估中，碾压Claude 3.5 Sonnet、GPT-4o。

在数学任务中，405B仅次于Claude 3.5 Sonnet，位列第二。不过，Llama 3.1在代码任务上，得分相对较低。

92页超详技术报告

没有谁能够像Meta一样开源彻底，92页超长技术报告，也在今天一并放出。

请到「今天看啥」查看全文

推荐文章

台海一线 · 连续两年未提“和统”，大陆是否已经下定决心？国台办解释原因！

8 小时前

中国兵器工业集团 · 锚定目标拓市场丨奋战“开门红”⑥

2 天前

台海一线 · 中国说的话，叙利亚果然没听进去，局势一夜骤变让普京等到机会？

2 天前

台海一线 · 特朗普万万没想到，这次被马斯克坑了，60岁的哈里斯要“夺权”！

2 天前

武志红 · 15个变老瞬间，80后看完表示很无奈

2 天前

占豪 · 回调后会出现怎样的运行节奏？如何把控操作时机点？丨微股评

8 年前

HOT男人 · 看片 | 适合跟妹子暖床的小浪片儿，不只有污力滔滔

8 年前

V保险 · 人和车究竟谁更值钱？你答对了吗？

7 年前

格斗迷 · 一次可以轻易做上百个俯卧撑的秘密！| 加料

7 年前

揭幕者 · 6月1日揭幕内参：操盘必读

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!