【导读】
大模型格局,再次一夜变天。Llama 3.1 405B重磅登场,在多项测试中一举超越GPT-4o和Claude 3.5 Sonnet。史上首次,开源模型击败当今最强闭源模型。小扎大胆豪言:开源AI必将胜出,就如Linux最终取得了胜利。
开源新王Llama 3.1 405B,昨夜正式上线!
在多项基准测试中,GPT-4o和Claude 3.5 Sonnet都被超越。也即是说,闭源SOTA模型,已经在被开源模型赶上。
一夜之间,Llama 3.1 405B已成世界最强大模型。
(同时上线的,还有新版70B和8B模型)
LeCun总结了Llama 3.1模型家族的几大要点:
- 开源/免费使用权重和代码,允许进行微调、蒸馏到其他模型中,以及在任何地方部署
- 128k的上下文,多语言,良好的代码生成能力,复杂推理能力,以及工具使用能力
- Llama Stack API可以轻松集成
Meta这次可谓是将开源的精神贯彻到底,同时大方放出的,还有一篇90多页的论文。
HuggingFace首席科学家Thomas Wolf赞赏道:如果想从0开始研究大模型,你需要的就是这篇paper!
它简直无所不包——预训练数据、过滤、退火、合成数据、缩放定律、基础设施、并行处理、训练方法、训练后适应、工具使用、基准测试、推理策略、量化、视觉、语音和视频……
AI2的研究员Nathan Lambert估计,这份90页的Llama 3.1论文,将直接把开源模型的进展往前推上3-9个月!
Meta CEO小扎则自豪地写下一篇长文:开源人工智能是前进的道路。
在纽约时报的采访中,小扎力挺开源AI
在这篇文章中,小扎感慨地回忆了Meta在LLM浪潮中的翻身之路——
去年,Llama 2只能与边缘的旧模型相提并论;今年,Llama 3在某些方面已经领先于最先进的模型;明年开始,未来的Llama模型将成为最先进的模型。
对于自己被多次问到的「是否担心开源Llama而失去技术优势」,小扎直接以Linux自比。
他表示,曾经大科技公司都大力投资于自己的Unix版本,然而最终还是开源Linux胜出了,因为它允许开发者随意修改代码,更先进、更安全、生态更广泛。
AI,也必将以类似方式发展。
为此,Meta特地放宽了自己的许可,首次允许开发者使用Llama 3.1模型的高质量输出,来改进和开发第三方AI模型。
Llama 3.1正式解禁后,在全网掀起轩然大波。
AI大神Karpathy随即发表了一些自己的感想:
今天,随着405B模型的发布,GPT-4/Claude 3.5 Sonnet级别的前沿大模型首次对所有人开放供大家使用和构建。。其权重开源,商用许可、允许生成合成数据、蒸馏和微调模型。
这是Meta发布的一个真正开放的前沿LLM。除此以外,他们还放出了长达92页的技术报告,其中包含有大量模型细节:
https://ai.meta.com/research/publications/the-llama-3-herd-of-models/
这次模型发布背后的理念,在小扎的一篇长文中有详细阐述,非常值得一读,因为它很好地涵盖了支持开放AI生态系统世界观的所有主要观点和论点:
开源AI是未来。
我常说,现在仍处于早期阶段,就像计算机发展的1980年代重现一样,LLM是下一个重要的计算范式,而Meta显然正定位自己为其开放生态系统的领导者。
- 人们将把它们蒸馏成更小的专家模型,用于特定任务和应用
- 人们对其进行研究、基准测试、优化
另外,开放生态系统还以模块化的方式自组织成产品、应用和服务,每个参与方都可以贡献自己的独特专业知识。
一个例子是,AI芯片初创Groq已经集成了Llama 3.1模型,几乎能实现8B模型瞬间推理。
Karpathy称,由于服务器压力,自己似乎无法尝试运行在Groq上的405B可能是今天能力最强、最快的大模型。
他还预计,闭源模型们很快就会追赶上来,并对此非常期待。
Meta研究员田渊栋称,一个新的时代已经开始!开源LLM现在与闭源LLM不相上下/更胜一筹!
开源模型新王者诞生了。
OpenPipe创始人在测试完经过微调的Llama 3.1 8B后感慨道:从未有过如此小且如此强大的开源模型——它在每个任务上的表现都优于GPT-4o mini!
英伟达高级科学家Jim Fan表示,GPT-4的力量就在我们手中。这是一个具有历史性意义的时刻。
鲜有人关注AI模型训练背后的基础设施,Pytorch之父Soumith Chintala站出来表示,在16000块GPU搭建的设施中,也会遇到失败的时候。
这些细节都藏在了Llama 3.1的论文中,包括如何并行化、保持系统可靠性。值得一提的是,Meta团队在模型训练中实现了90%的有效训练时间。
有网友细数了Llama模型迭代过程中,GPU的用量也在不断增长。
Llama 3.1:16384块GPU(其实,Llama 3是在两个拥有24,000块GPU集群完成训练)
Llama 4:......
其实,关于Llama 3.1系列模型一些要点,在昨天基本上被剧透得体无完肤了。
正如泄露信息所述,Llama 3.1可以支持8种语言(英语,德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语),多语言对话智能体、翻译用例等。
在上下文长度上,比起Llama 2、Llama 3,Llama 3.1系列模型中所有上下文增加了16倍,为128K。
Meta强调,Llama 3.1还在工具使用方面得到了改进,支持零样本工具使用,包括网络搜索、数学运算和代码执行。
基于长上下文,模型不仅知道何时使用工具,还能理解如何使用以及如何解释结果。
此外, 通过微调,Llama 3.1在调用自定义工具方面提供了强大的灵活性。
主要能力
首先,Llama 3.1可以作为一个能够执行「智能体」任务的系统来运行:
- 内置工具:模型自带对搜索或代码解释器等工具的知识
- 零样本学习:模型可以通过以前未见过的上下文工具定义来学会调用工具
比如问模型:「这是一个CSV文件,你可以描述它里面有什么吗?」
它会识别出:这份CSV文件包含了多年的每月通货膨胀率,年份一栏表示了每组每月通货膨胀率的年份。
接下来,我们可以要求它按时间序列绘制图表。
接下来,它还能完成一系列刁钻的任务,比如在同一图表中绘制S&P500的走势图。
完成之后,还能重新调整图表,把信息加到不同的坐标轴上。
如上所示,Llama 3.1支持8种语言,因此可以胜任多语言的翻译。
我们可以让它将童话故事《汉泽尔与格莱特》(糖果屋)翻译成西班牙语。
即使面对比较复杂的推理题,Llama 3.1也能轻松拿下。
「我有3件衬衫、5条短裤和1条连衣裙。我要出行10天,这些衣服够我度假用吗」?
AI将已知的条件,进行分解,对上衣、短裤、裙子设想了一个合理的搭配方案,并建议最好多带几件上衣。
在推理完成后,它还贴心地为我们提供了更详细的出行穿衣指南、行李清单。
我们还可以让AI手写代码。
比如让它创建一个程序,使用递归回溯算法或深度优先搜索算法生成一个完美迷宫,并且可以自定义大小和复杂度。
只见AI一上手,直出迷宫程序的Python代码。
代码完成后,AI还给出了详细的解释。
再接下来,若想自定义程序,AI代码助手为我们提供了相应的代码建议——调整宽度和高度。
评测结果
为了评估Llama3.1的表现,Meta不仅在测试中囊括了150个涵盖多语种的基准数据集,并且还在真实场景中进行了比较。
在多种任务中,405B都可以和GPT-4、GPT-4o、Claude 3.5 Sonnet等闭源领先模型掰手腕。
而8B和70B的小模型,在参数量相似的闭源和开源模型中,同样表现出色。
除了长上下文任务,8B和70B模型在通用任务、代码、数学、推理、工具使用、多语言上,取得了SOTA。
人类评估中,Llama 3.1 405B模型与GPT-4不相上下,但略逊于GPT-4o。
不过,在与Claude 3.5 Sonnet相较下,405B大模型更有优势,胜率为24.9%。
此外,在Scale的排行榜中,Llama 3.1 405B微调版本在指令跟随评估中,碾压Claude 3.5 Sonnet、GPT-4o。
在数学任务中,405B仅次于Claude 3.5 Sonnet,位列第二。不过,Llama 3.1在代码任务上,得分相对较低。
没有谁能够像Meta一样开源彻底,92页超长技术报告,也在今天一并放出。