专栏名称: 人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
目录
相关文章推荐
爱可可-爱生活  ·  晚安~ #晚安# -20250309221258 ·  昨天  
爱可可-爱生活  ·  利用QK几何结构实现高效KV缓存压缩 ... ·  昨天  
黄建同学  ·  Manus工作原理↓以及护城河分析-2025 ... ·  3 天前  
爱可可-爱生活  ·  【[42星]TokenSwift:让超长文本 ... ·  3 天前  
爱可可-爱生活  ·  【[97星]EXO Private ... ·  3 天前  
51好读  ›  专栏  ›  人工智能学家

这是2024年我们对LLMs所学到的东西

人工智能学家  · 公众号  · AI  · 2025-01-04 17:59

正文

-Things we learned about LLMs in 2024

A lot has happened in the world of Large Language Models over the course of 2024. Here’s a review of things we figured out about the field in the past twelve months, plus my attempt at identifying key themes and pivotal moments.

This is a sequel to my review of 2023 .

https://simonwillison.net/2024/Dec/31/llms-in-2024/

Simon Willison 2024 12 31 日。

关于 Simon Willison :这是我最近的个人简介:

Simon Willison Datasette 的创建者, Datasette 是一种用于探索和发布数据的开源工具。目前全职工作,围绕 Datasette SQLite 构建数据新闻开源工具。

在成为独立开源开发人员之前, Simon Eventbrite 的工程总监。 Simon Eventbrite 加入 Eventbrite 之前,他们收购了 Lanyrd ,这是他于 2010 年共同创立的 Y Combinator 资助公司。

他是 Django Web 框架的共同创建者,自 2002 年以来一直在 simonwillison.net 撰写有关 Web 开发和编程的博客

2024 年,大型语言模型的世界发生了很多事情。以下是我们在过去一年中关于这个领域的一些发现,以及我对关键主题和关键时刻的尝试识别。

这是对 2023 年的评论的续篇。

目录

1 GPT-4 的屏障已被全面突破

2 一些 GPT-4 模型在我的笔记本电脑上运行

3 LLM 的价格崩跌,归因于竞争和效率提高

4 对加利福尼亚科学院蝴蝶照片的反驳

5 多模态视觉很常见,音频和视频开始出现

6 声音和实时相机模式是科幻变为现实的产物

7 新兴的音频和直播视频模式值得特别一提

8 最佳模型的普遍访问只持续了几个短暂的月份

9 "AGENTS" 还没有真正出现

10 EVALS真的很重要

11 苹果的智能技术不好,苹果的MLX 库非常出色

12 推理扩展“ 推理” 模型的崛起#

13 中国目前最好的LLM 模型是否少于600 万美元?

14 环境影响变得更好

15 环境影响变得更加严重

16 泥浆之年

17 合成训练数据效果很好

18 LLMS 在某种程度上变得更难使用了

19 知识的分布极为不均衡

20 LLMS 需要更好的批评

21 2024 年,在我的博客中标记为“LLMS” 的所有内容。

1 GPT-4 的屏障已被全面突破

在我的 2023 12 月的评论中,我写到我们尚不知道如何构建 GPT-4—OpenAI 的最佳模型几乎已经一年了,但没有其他人工智能实验室生产出比它更好的东西。 OpenAI 知道什么其他人不知道呢?

我很欣慰地看到在过去的十二个月里这种情况已经完全改变了。现在有 18 个组织的模型进入了 Chatbot Arena 排行榜,其排名高于 2023 3 月原始的 GPT-4 (榜上的 GPT-4-0314 - 总共有 70 个模型。

谷歌的 Gemini 1.5 Pro 是最早的其中之一,于二月发布。除了产生类似 GPT-4 水平的输出之外,它还引入了该领域的几项全新功能,最明显的是其 100 万(后来增加至 200 万)令牌输入上下文长度,以及输入视频的能力。

Gemini Pro 1.5 的杀手级应用是视频,这篇文章让我在五月份的 Google I/O 开幕演讲中露面。

Gemini 1.5 Pro 还展示了 2024 年的一个关键主题 :上下文长度的增加。去年,大多数模型接受 4,096 8,192 个标记,其中值得注意的例外是 Claude 2.1 ,它接受 200,000 个标记。如今,每个严肃的供应商都有一个拥有 100,000 个以上标记的模型,而 Google Gemini 系列能够接受高达 2,000,000 个标记。

长输入大大增加了使用 LLM 解决问题的范围 :你现在可以输入整本书并询问其内容,但更重要的是,你可以输入大量示例代码,帮助模型正确解决编程问题。对我来说,涉及长输入的 LLM 用例比仅依赖模型权重中已有信息的简短提示更加有趣。许多我的工具都是按照这种模式构建的。

回到击败 GPT-4 的模型: Anthropic Claude 3 系列于三月推出, Claude 3 Opus 很快成为我的新宠日常驱动器。在六月,他们更进一步推出了 Claude 3.5 Sonnet—— 这款模型仍然是我六个月后的最爱(尽管在 10 22 日得到了重大升级,令人困惑地保留了相同的 3.5 版本号。 Anthropic 的粉丝们从那时起开始称其为 Claude 3.6 )。

然后还有其他情况 。如果你今天浏览 Chatbot Arena 榜单 —— 仍然是获取基于情感评估模型最有用的单一地点 —— 你会发现 GPT-4-0314 已经跌至第 70 名左右。得分更高的 18 家组织是 Google OpenAI Alibaba Anthropic Meta Reka AI 01 AI Amazon Cohere DeepSeek Nvidia Mistral NexusFlow Zhipu AI xAI AI21 Labs Princeton Tencent

2023 年,训练一个超越 GPT-4 的模型是一件了不起的事情。在 2024 年,这个成就甚至已经不值一提了,尽管我个人仍然会为新的组织加入这个行列而庆祝。

2 一些 GPT-4 模型在我的笔记本电脑上运行

我的个人笔记本电脑是一台来自 2023 年的 64GB M2 MacBook Pro 。它是一台功能强大的机器,但现在已经快两年了,重要的是,这台电脑从 2023 3 月我第一次在电脑上运行 LLM 以来一直使用的就是这台电脑(参见《大型语言模型正在经历他们的稳定扩散时刻》)。

那台去年三月几乎可以运行 GPT-3 级别模型的笔记本电脑,现在已经可以运行多个 GPT-4 级别模型了!关于这一点的一些记录:

1. Qwen2.5-Coder-32B 是一个能很好编码的 LLM ,在我的 Mac 上运行,谈论的是 11 月的 Qwen2.5-Coder-32B —— 一个采用 Apache 2.0 许可的模型!

1. 我现在可以在我的笔记本电脑上运行一个 GPT-4 类模型,讨论运行 Meta 发布的 Llama 3.3 70B (于 12 月发布)。

这对我来说仍然令人惊讶。我原以为像 GPT-4 这样具备能力和输出质量的模型需要一台或多台价值 40000 美元以上的数据中心级服务器。

这些模型占用了我 64GB 的内存,以至于我并不经常运行它们 - 它们并不留下太多空间给其他东西。

它们能够正常运行的事实证明了我们在过去一年中取得的惊人训练和推理性能提升。事实证明,在模型效率方面有很多低 hanging fruit 可以收获。我期待还有更多的收获。

Meta Llama 3.2 模型值得特别一提 。它们可能不属于 GPT-4 类,但在 1B 3B 大小上,它们的性能远远超过它们的体积。我在我的 iPhone 上运行 Llama 3.2 3B ,使用免费的 MLC Chat iOS 应用程序,它是一个令人震惊的能力强大的模型,尽管其大小很小( <2GB )。尝试启动它,并询问它 一部 Netflix 圣诞电影的情节梗概,在这部电影中,一名数据记者爱上了一位当地的陶艺家 。以下是我得到的结果,每秒 20 token

这是剩下的文本。虽然内容单调和普通,但是我的手机现在可以向 Netflix 推荐单调和普通的圣诞电影了!

3 LLM 的价格崩跌,归因于竞争和效率提高

过去十二个月中,使用一流托管的大型语言模型运行成本急剧下降。

2023 12 月(这里是 OpenAI 定价页面的互联网档案), OpenAI GPT-4 收费为每百万输入令牌 30 美元,对当时新推出的 GPT-4 Turbo 收费为每百万令牌 10 美元,对 GPT-3.5 Turbo 收费为每百万令牌 1 美元。

今天, $30/mTok 可以让你获得 OpenAI 最昂贵的模型, o1 GPT-4o 价格为 $2.50 (比 GPT-4 便宜 12 倍),而 GPT-4o mini 为每个 mTok $0.15 ,几乎比 GPT-3.5 便宜 7 倍,而且具有更强大的能力。

其他模型提供商甚至收费更低。 Anthropic Claude 3 Haiku (来自三月,但仍然是他们最便宜的模型)是每 0.25 美元 / 百万令牌。谷歌的 Gemini 1.5 Flash 是每 0.075 美元 / 百万令牌,而他们的 Gemini 1.5 Flash 8B 是每 0.0375 美元 / 百万令牌,比去年的 GPT-3.5 Turbo 便宜了 27 倍。

我已经在我的 llm-pricing 标签下跟踪这些定价变化。

这些价格下降是由两个因素驱动的:竞争的增加和效率的提高。对于所有关心低碳生活方式环境影响的人来说,效率是非常重要的。这些价格下降直接关联到用于运行提示的能源消耗量。

AI 数据中心建设对环境影响仍有很多需要担忧的问题,但对于单个提示的能源成本的许多担忧已不再可信。

这里有一个有趣的餐巾纸计算:使用 Google Gemini 1.5 Flash 8B (于十月发布) , 他们最便宜的型号,对我个人照片库中的 68,000 张照片生成短描述将会花费多少钱?

每张照片都需要 260 个输入标记和约 100 个输出标记。

260 * 68,000 = 17,680,000 输入标记 17,680,000 * $0.0375/ 百万 = $0.66 100 * 68,000 = 6,800,000 输出标记 6,800,000 * $0.15/ 百万 = $1.02

这是处理 68,000 张图像的总成本为 1.68 美元。这么便宜到了荒谬的地步,我必须三次确认我的计算是正确的。

那些描述有多好?这就是我从这个命令中得到的内容:

llm -m gemini-1.5-flash-8b-latest describe -a IMG_1825.jpeg

4 对加利福尼亚科学院蝴蝶照片的反驳

一个浅碟,可能是蜂鸟或蝴蝶喂食器,是红色的。碟子里可见到橙色水果片的碎块。

两只蝴蝶停在饲料盘上,一只是深棕色 / 黑色蝴蝶,带有白色 / 米色斑纹。另一只是一只大的棕色蝴蝶,身上有浅棕色、米色和黑色斑纹,还有明显的眼斑。较大的棕色蝴蝶看起来正在吃水果。

260 输入标记, 92 输出标记。成本大约为 0.0024 美分(少于 1/400 美分)。

这种效率提升和价格降低是我在 2024 年最喜欢的趋势之一。我希望在仅需一小部分能源成本的情况下获得 LLMs 的效用,看起来我们正在实现这一目标。

5 多模态视觉很常见,音频和视频开始出现

我的蝴蝶示例上面说明了 2024 年另一个关键趋势:多模态 LLM 的崛起。

一年前,这些中最引人注目的例子是 GPT-4 Vision ,在 2023 11 月的 OpenAI DevDay 上发布。 Google 的多模态 Gemini 1.0 2023 12 7 日宣布,因此它也在 2023 年的窗口中(仅仅)符合要求。

2024 年,几乎每个重要的模型供应商都发布了多模态模型。我们在三月份见到了 Anthropic Claude 3 系列,四月份是 Gemini 1.5 Pro (图像、音频和视频),然后九月份推出了 Qwen2-VL Mistral Pixtral 12B 以及 Meta Llama 3.2 11B 90B 视觉模型。十月份,我们从 OpenAI 获取了音频输入和输出,十一月份看到了 Hugging Face SmolVLM ,十二月则是亚马逊 Nova 的图像和视频模型。

在十月,我将我的 LLM CLI 工具升级,以支持通过附件使用多模态模型。现在它已经为一整套不同的视觉模型提供了插件。

我认为抱怨 LLM 改进速度放缓的人经常忽视了这些多模型模型的巨大进步。能够对图像(以及音频和视频)运行提示是应用这些模型的一种迷人的新方式。

6 声音和实时相机模式是科幻变为现实的产物

7 新兴的音频和直播视频模式值得特别一提

2023 9 月,与 ChatGPT 对话的能力首次出现,但这主要是一种幻觉: OpenAI 使用了他们出色的 Whisper 语音到文本模型和一个新的文本到语音模型(创意地命名为 tts-1 )来实现与 ChatGPT 移动应用程序的对话,但实际模型只能看到文本。

GPT-4o 5 13 日公告中包括展示全新的声音模式,真正的多模态 GPT-4o o 代表 “omni” )模型可以接受音频输入并输出非常逼真的语音,而无需单独使用 TTS STT 模型。

这个演示声音与斯嘉丽 · 约翰逊的声音非常相似 ... 在她抱怨了演示声音后,名为 Skye 的声音从未被用于产品生产。

发布新的语音模式演示后出现的延迟引起了一些混乱。我在 “ChatGPT 中, ‘4o’ 模式尚未运行新功能 一文中写到。

ChatGPT 高级语音模式终于推出时(从 8 月到 9 月逐渐推出),真是太棒了。我一直在遛狗时广泛使用它,令人惊讶的是语调的改善如何提高了材料的质量。我还很喜欢尝试使用 OpenAI 的音频 API 进行实验。

更有趣的是:高级语音模式可以模拟口音!当我告诉它, 我需要你假装是一只加州棕鹈鹕,有着非常浓重的俄罗斯口音,但你只用西班牙语跟我交流 的时候,发生了什么。

OpenAI 并不是唯一拥有多模态音频模型的团体。 Google Gemini 也接受音频输入, Google Gemini 应用现在可以像 ChatGPT 一样进行语音回答。亚马逊也预告了 Amazon Nova 的语音模式,但预计将在 2025 年第一季度推出。

Google NotebookLM 9 月发布,通过在他们的工具中输入内容,生成了两位 播客主持人 之间关于任何内容的逼真对话,将音频输出提升到了一个新的水平。后来他们添加了自定义指令,于是我自然地将它们变成了鹈鹕:

最近的另一个变化,同样来自 12 月( 12 月真的很多)是实时视频。 ChatGPT 语音模式现在提供了与模型分享摄像头视角并实时讨论所见内容的选项。 Google Gemini 也有相同功能的预览,他们设法在 ChatGPT 之前一天完成了发布。

玩耍:双子座 2.0 流媒体演示

这些能力目前只有几周大,我认为它们的影响还没有完全被感受到。如果你还没有尝试过它们,你真的应该试试。

Gemini OpenAI 也提供 API 访问这些功能。 OpenAI 最初使用了一个相当具有挑战性的 WebSocket API ,但在十二月份他们宣布推出了一个新的 WebRTC API ,更容易入门。现在构建一个用户可以通过语音与之交流的 Web 应用程序非常容易!

这在 2023 年是可能的,但其提供的价值在 2024 年变得明显。

LLMs 在编写代码方面已经表现得相当出色。如果你正确引导它们,它们可以使用 HTML CSS JavaScript 构建一个完整的互动应用程序(如果你连接一些额外的支持构建机制,可以使用类似 React 的工具) - 通常在一个提示中完成。

人类主义者通过发布 克洛德文物 这一突破性新功能将这一想法推向了高潮,然而由于在不可思议的克洛德 3.5 十四行诗的公告中部分描述得有些模糊,它刚开始在噪音中被忽视了。

拥有 Artifact Claude 可以为您编写一个按需的交互式应用程序,然后直接让您在 Claude 界面内使用它。

这是由克劳德完全生成的我的 提取 URL” 应用程序。

我发现自己经常在使用这个。我注意到我在十月份有多么依赖它,并在这周写下了《我使用 Claude Artifacts 构建的一切》,描述了我在七天内放在一起的 14 个小工具。

自那时起,许多其他团队也建立了类似的系统。 GitHub 在十月份宣布了他们的版本, GitHub Spark Mistral Chat 在十一月将其添加为一个名为 Canvas 的功能。

Steve Krouse 来自 Val Town ,对抗 Cerebras 建立了一个版本,展示了一个每秒 2,000 个令牌的 LLM 可以对一个应用程序进行迭代,更改可在不到一秒钟内可见。

然后在 12 月, Chatbot Arena 团队推出了一个全新的排行榜,针对这一功能,用户可以使用两种不同的模型构建相同的交互式应用程序,并投票选出答案。很难想象出一个更有说服力的论点,证明这一功能现在已经成为可以有效对抗所有领先模型的商品。

我一直在为我的 Datasette 项目做这个版本的调整,旨在让用户使用提示来构建和迭代针对他们自己数据的自定义小部件和数据可视化。我还为使用 uv 实现单独 Python 程序找到了类似的模式。

这种基于提示驱动的定制界面功能非常强大且易于构建(一旦你弄清楚了浏览器沙盒化的复杂细节),我预计它将在 2025 年出现在很多产品中。

8 最佳模型的普遍访问只持续了几个短暂的月份

今年的几个月里,三款最佳的可用模型: GPT-4o Claude 3.5 Sonnet Gemini 1.5 Pro ,都可以免费提供给世界大多数地区使用。

OpenAI 在五月份将 GPT-4o 对所有用户免费开放,而 Claude 3.5 Sonnet 则从六月份的发布起就免费提供。这是一个重大的改变,因为前一年的免费用户大多受限于 GPT-3.5 级别的模型,这意味着新用户对一个能力强大的语言模型能做到什么有一个非常不准确的心理模型。

那个时代似乎已经结束,很可能是永久的,因为 OpenAI 推出了 ChatGPT Pro 。这项每月 $200 的订阅服务是访问他们最强大的模型 o1 Pro 的唯一途径。

由于 o1 系列背后的技巧(以及它无疑将激发的未来模型)是投入更多的计算时间以获得更好的结果,我认为那些可以免费接触到最佳模型的日子不太可能会回来。

9智能体 "Agents" 还没有真正出现

我发现 智能体 这个术语非常令人沮丧。它缺乏一个单一、清晰且被广泛接受的含义 ... 但使用这个术语的人似乎从未承认这一点。

如果你告诉我你正在构建 " 智能体 " ,你几乎没有向我传达任何信息。除非我能够读懂你的想法,否则我无法确定你指的是几十种可能定义中的哪一种。

我看到的两个主要类别是那些认为人工智能代理显然是可以代表你行动的事物的人 - 即旅行智能体模型,以及那些从给予工具访问权限,以便它们可以作为解决问题的一部分进行循环运行的 LLM 模型中思考的人。术语 自主性 也经常被提出,但同样没有包括清晰的定义。

我几个月前在 Twitter 上收集了 211 个定义,这里是它们在 Datasette Lite 中,并让 gemini-exp-1206 试图对它们进行总结。

无论这个术语是什么意思,智能体们仍然有着一种永远 即将到来 的感觉。

除了术语,我仍然对它们的实用性持怀疑态度,这主要基于易受欺骗的挑战。 LLM 们相信你告诉他们的任何事情。 任何试图代替你做出有意义决策的系统将遇到同样的障碍:如果它无法区分真相和虚构,旅行代理人、数字助理甚至研究工具有多好呢?

就在前几天,谷歌搜索被发现在全然虚构的电影 “Encanto 2” 上提供了一段完全虚假的描述。 原来它总结的是一个粉丝虚构维基上的想象电影清单。

Prompt 注射是这种易受骗性的自然结果。我在 2024 年对解决这个问题的进展几乎没有看到任何进展,自 2022 9 月以来我们一直在谈论这个问题。

我开始看到 智能体 的最流行理念本身依赖于 AGI 本身。一个对愚蠢免疫的模型确实是一个非常高的要求。

10 Evals 真的很重要

Anthropic Amanda Askell (负责克劳德角色背后的许多工作):

好的,文翻译: 好的系统提示的关键秘密是测试驱动开发。你不是先写下一个系统提示然后找方法来测试它。你是先写下测试,然后找到一个通过这些测试的系统提示。

2024 年的过程清楚地表明,为基于 LLM 技术的系统编写好的自动评估是建立在这些模型之上的有用应用程序中最需要的技能。如果你有一个强大的评估套件,你可以比竞争对手更快地采用新模型,更好地迭代,并构建更可靠和有用的产品功能。

Vercel Malte Ubl:

@v0 首次推出时,我们对保护提示感到非常谨慎,使用各种预处理和后处理复杂性。

我们完全转变思路,让其自由发挥。一个没有评估、模型,特别是用户体验的提示就像拿到一个没有说明书的坏掉的 ASML 机器。

我仍在努力找出如何为我的工作找到最佳模式。每个人都知道评估很重要,但对于如何最好地实施它们仍然缺乏很好的指导 —— 我在我的 “evals” 标签下追踪这一点。我的 SVG 鹈鹕骑自行车的基准测试只是真正评估套件应该看起来如何的一个苍白模仿。

11 苹果的智能技术不好,苹果的 MLX 库非常出色

作为一名 Mac 用户,今年我对自己选择的平台感觉良好。

去年感觉没有一台带有 NVIDIA GPU Linux/Windows 机器是个很大的劣势,无法尝试新模型。

在实际情况下,许多模型都是作为模型权重和库发布的,这些模型更加支持 NVIDIA CUDA 而不是其他平台。

llama.cpp 生态系统在这方面帮助很大,但真正的突破是 Apple MLX 库, 一个适用于 Apple Silicon 的数组框架 。这太棒了。

苹果的 mlx-lm Python 支持在我的 Mac 上运行各种 MLX 兼容的模型,性能出色。 Hugging Face 上的 mlx-community 提供了超过 1,000 个已转换为必要格式的模型。

Prince Canuma 的出色、快速的 mlx-vlm 项目也将视觉 LLMs 引入了 Apple Silicon 。我最近使用它来运行 Qwen QvQ

虽然 MLX 是一个颠覆者,但苹果自己的 苹果智能 功能大多让人失望。我在六月份写过他们最初的公告,当时我对苹果专注于保护用户隐私并最大程度减少用户被复杂功能误导的 LLM 应用程序的子集表示乐观。

现在这些功能推出来后,它们相当弱。作为一个 LLM 高级用户,我知道这些模型的能力,而苹果的 LLM 功能提供的只是一个前沿 LLM 可以实现的功能的一部分。相反,我们得到的是误传新闻标题的通知摘要和我根本不觉得有用的写作助手工具。不过, Genmoji 有点好玩。

12 推理扩展 推理 模型的崛起

2024 年第四季度最有趣的发展是引入了一种新型的 LLM ,以 OpenAI o1 模型为例,最初于 9 12 日发布的 o1-preview o1-mini

这些模型的一种思考方式是对思维链提示技巧的延伸,首次在 2022 5 月的论文《大型语言模型是零样例推理者》中进行了探讨。

这就是一个技巧,在这个技巧中,如果让一个模型大声说出它正在解决的问题,通常会得到一个模型本来无法实现的结果。

o1 将这个过程进一步融入模型本身。细节有些模糊不清: o1 模型花费 推理令牌 来思考问题,这些令牌对用户不直接可见(虽然 ChatGPT 界面会显示它们的摘要),然后输出最终结果。

这里最大的创新是它开辟了一种新的模型扩展方式:不仅通过在训练时提供额外计算资源来提高模型性能,现在模型可以通过在推理阶段花费更多计算资源来解决更难的问题。

o3 的续集(由于欧洲商标原因跳过了 “o2” )于 12 20 日宣布,针对 ARC-AGI 基准取得了令人印象深刻的成果,尽管这可能涉及超过 100 万美元的计算时间费用!

o3 预计将于 1 月发货 。我怀疑很少有人真正面临需要从那个计算水平中获益的实际问题 - 我肯定不需要! - 但它似乎是 LLM 架构的一个真正的下一步,可以解决更棘手的问题。

OpenAI 并不是此领域的唯一选择 。谷歌于 12 19 日发布了他们在该类别中的首个产品 gemini-2.0-flash-thinking-exp

阿里巴巴的 Qwen 团队于 11 28 日发布了他们的 QwQ 模型 - Apache 2.0 许可证下发布,我可以在自己的机器上运行 。他们随后在 12 24 日推出了一个名为 QvQ 的视觉推理模型,我也在本地运行了这个模型。

DeepSeek 11 20 日通过他们的聊天界面推出了他们的 DeepSeek-R1-Lite-Preview 模型。

了解推理扩展更多,我建议阅读 Arvind Narayanan Sayash Kapoor 的文章《人工智能的进展减缓了吗?》。

Anthropic Meta 目前还没有任何消息,但如果他们没有在进行中的推理放大模型,我会感到非常惊讶。 Meta 12 月发布了一篇相关论文《在连续潜在空间中训练大型语言模型进行推理》。

13 中国目前最好的 LLM 模型是否少于 600 万美元?

并非完全一样,但几乎!这确实对于引人注意的标题来说非常好。

今年年底的重大消息是 DeepSeek v3 的发布 - 在圣诞节当天在 Hugging Face 上发布,甚至没有一个 README 文件,然后在第二天发布了文档和一篇论文。

DeepSeek v3 是一个庞大的 685B 参数模型,是目前可公开获得的最大模型之一,显著大于 Meta Llama 系列最大的模型 Llama 3.1 ,即 405B

基准测试显示,这个模型与 Claude 3.5 Sonnet 不相上下。 Vibe 基准测试(又称 Chatbot Arena )目前将其排名第 7 ,仅次于 Gemini 2.0 OpenAI 4o/o1 模型。这是迄今为止排名最高的开放许可模型。

DeepSeek v3 最令人印象深刻的地方在于训练成本。 该模型在 2,788,000 H800 GPU 小时进行了训练,估计成本为 $5,576,000 。相比之下, Llama 3.1 405B 进行了 30,840,000 GPU 小时的训练,是 DeepSeek v3 使用的训练时间的 11 倍,但效果稍差。

美国对中国 GPU 出口监管似乎激发了一些非常有效的训练优化!

14 环境影响变得更好

模型的效率提高所带来的一个受欢迎的结果是,在过去几年里,运行提示的能源使用量和环境影响已经大幅降低。

OpenAI GPT-3 时代起,与当下相比,为提示收费少了 100 倍。据可靠消息,谷歌的 Gemini 和亚马逊的 Nova (两家最便宜的模型提供商之一)并没有亏损地运行提示。

我认为,作为个体用户,我们无需为大多数提示消耗的能源感到任何内疚。与开车或者观看 YouTube 视频相比,这种影响可能微乎其微。

同样,培训。 DeepSeek v3 的训练成本低于 600 万美元,这是训练成本可能会继续下降的一个很好的迹象。

对于效率较低的模型,我发现将它们的能源使用与商业航班进行比较是有用的。 最大的 Llama 3 型号的成本大约与从纽约到伦敦的满载乘客航班的个位数相当。 这当然不是小数目,但一旦训练完成,该模型可以无需额外的训练成本供数百万人使用。

15 环境影响变得更加严重

问题在于未来这些模型所需的基础设施的竞争性建设规模巨大。

谷歌、元信息、微软和亚马逊等公司正在花费数十亿美元建设新的数据中心,对电力网和环境产生了非常重要的影响。甚至有人提到要建造新的核电站,但这需要数十年的时间。

这种基础设施是必要的吗? DeepSeek v3 600 万美元的培训成本以及 LLM 价格持续下跌可能暗示着并非如此。但你会想成为那位辩称不要建造这种基础设施的大型科技高管吗,只是在几年后证明自己是错误的吗?

在这里进行有趣的比较的一个重点可能是 19 世纪时铁路在全球范围内的铺设方式。修建这些铁路需要巨额投资,对环境的影响也很大,而许多修建的铁路最终被证明是不必要的 —— 有时候不同公司修建的多条铁路竟然服务于完全相同的路线!

造成的泡沫导致了几次金融崩溃,参见维基百科关于 1873 年的恐慌、 1893 年的恐慌、 1901 年的恐慌以及英国的铁路狂热。它们给我们留下了许多有用的基础设施,也造成了大量破产和环境损害。

16 泥浆之年

2024 年是 " " 这个词成为术语的一年。我在五月写了关于这一点的文章,并扩展了 @deepfates 的推文。

看着 “slop” 成为一个专业术语的实时情况。就像 垃圾邮件 成为不受欢迎的电子邮件的术语一样, “slop” 正在字典中成为指代不受欢迎的人工智能生成内容的术语。

我稍微扩展了这个定义 :

Slop 描述了 AI 生成内容,这些内容既没有请求也没有审查。

我最后在《卫报》和《纽约时报》都被引用并讲到了 "Slop" 。这是我在《纽约时报》上所说的内容:

社会需要简洁的方式来讨论现代人工智能的正面和负面。 " 忽略那封电子邮件,它是垃圾邮件 " " 忽略那篇文章,它是垃圾 " 都是有用的教训。

我喜欢 “slop” 这个词,因为它简洁地捕捉到了我们不应该使用生成 AI 的方式之一!

Slop 甚至入围 2024 年度牛津词典年度词汇,但最终输给了 brain rot

17 合成训练数据效果很好

一个令人意外地在公众意识中根深蒂固的想法是 模型坍塌 。这是首次在 2023 5 月的论文《递归的诅咒:在生成数据上训练会使模型遗忘》中描述的,随后在 2024 7 月的《自然》杂志上,以更引人注目的标题 AI 模型在递归生成的数据上训练时会坍塌 中重复出现。

这个想法是诱人的 : 当互联网淹没在由人工智能生成的杂物中时,模型本身将会退化,通过以自己的输出为食,导致它们不可避免地走向灭亡 !

这显然没有发生。相反,我们看到人工智能实验室越来越多地在合成内容上训练 - 故意创造人造数据来帮助引导他们的模型走向正确的方向。

我见过的对此最好的描述之一来自 Phi-4 技术报告,其中包括这样一段:

合成数据作为预训练的重要组成部分,变得越来越常见, Phi 系列模型一直强调合成数据的重要性。合成数据并非有机数据的廉价替代品,而是具有几个直接优势的数据。

在有机数据集中,标记之间的关系通常是复杂而间接的。连接当前标记与下一个标记可能需要许多推理步骤,使模型难以有效从下一个标记预测中学习。相比之下,语言模型生成的每个标记定义上都是由前面的标记预测的,这使得模型更容易遇到推理模式。

另一种常见的技术是使用更大的模型来帮助创建训练数据,以用于它们更小、更便宜的替代品,这是越来越多实验室使用的技巧。 DeepSeek v3 使用由 DeepSeek-R1 创建的 推理 数据。 Meta Llama 3.3 70B 微调使用了超过 2500 万个合成生成的例子。

精心设计进入 LLM 的训练数据似乎是创建这些模型的全部关键。只是抓取完整的网络数据并不加选择地转储到训练中已经过去很久了。

18 LLMs 在某种程度上变得更难使用了

LLM 是一种我一直在强调的高级工具 - 它们就像是伪装成厨房小刀的链锯。它们看起来简单易用 - 给聊天机器人输入消息有多难呢? - 但实际上,您需要极深的理解和经验才能充分利用它们并避免它们的许多陷阱。

问题在 2024 年变得更加严重。

我们构建了可以用人类语言交谈的计算机系统,它们会回答你的问题,通常还会回答正确! ... 这取决于问题本身,以及你提问的方式,以及它是否在未经记录和秘密的训练集中得到准确反映。

可用系统的数量激增。不同系统具有不同的工具,可以应用于解决您的问题 - Python JavaScript 、网络搜索、图像生成,甚至可能是数据库查找 ... 因此,您最好了解这些工具是什么,它们能做什么,以及如何判断 LLM 是否使用了它们。

你知道 ChatGPT 现在有两种完全不同的运行 Python 的方式吗?

想要构建一个与外部 API 通信的 Claude Artifact ?首先,你最好了解 CSP CORS HTTP 头。

这些模型可能变得更有能力了,但大多数限制仍然保持不变。 OpenAI o1 或许最终能够(大部分地)数出草莓中的 R ,但它的能力仍然受限于其作为一个 LLM 的本质以及所运行的束缚所加诸的限制。 o1 无法运行网络搜索或使用代码解释器,但 GPT-4o 可以在相同的 ChatGPT 界面中进行这些操作。(如果你要求 o1 执行这些操作,它将假装去执行,这是早在 2023 年初的 URL 幻觉 bug 的回归)。

我们对此做了什么?并不多。大多数用户被直接扔到了深水区。默认的 LLM 聊天界面就像是把全新的电脑用户扔到 Linux 终端,然后期望他们自己摸清楚一切。

与此同时,终端用户越来越普遍地形成了关于这些事物是如何运行以及它们的能力是什么的极不准确的心理模型。我见过太多人试图通过 ChatGPT 的截图来赢得一场争论,这本身是一个荒谬的主张,因为这些模型的固有不可靠性与你可以通过正确的提示让它们说出任何事情相结合。

这也有一个反面:很多信息较为准确的人完全放弃了 LLM ,因为他们看不出有谁能从一个有这么多缺陷的工具中受益。要充分利用 LLM 的关键技能是学会与同时具有内在不可靠和极其强大的技术一起工作。这显然是一个不明显的技能要获得!

这里有很多空间可以提供有益的教育内容,但我们需要做得更好,而不是把一切都外包给夸夸其谈的 AI 骗子和张扬的 Twitter 帖子。

19 知识的分布极为不均衡

大多数人现在已经听说过 ChatGPT 。有多少人听说过 Claude

那些积极关注这些事情的人和不关注的 99% 的人之间的知识差距是巨大的。







请到「今天看啥」查看全文