以下是我们第 2 期 AI 月报,欢迎大家在留言区补充我们没有提到的重要进展。
技术|10 亿美元没训出 GPT-5,新版 Scaling Laws 初步证明可行,多款世界模型亮相
OpenAI 训练 GPT-5(代号 Orion)遇阻,是大模型能力提升放缓的重要证据。12 月,多家媒体提供了更多的细节:
2023 年 4 月推出 GPT-4 后,OpenAI 一直在开发 GPT-5,已经持续 20 个月。OpenAI 看到过乐观信号:24 年 4 月,OpenAI CEO 山姆·阿尔特曼(Sam Altman)在斯坦福大学的演讲中说,GPT-5 将比当时的模型聪明得多;5 月,他在公司内部也发表了类似的看法;OpenAI 最大的投资方微软预计年中能看到 GPT-5。
阿尔特曼当时在公司内部说,虽然(应该是第二遍训练)GPT-5 的训练过程只完成了 20%,但它回答问题、完成任务等能力已经与 GPT-4 相当。但从那之后,GPT-5 的性能提升放缓,最后并没有超出 GPT-4 太多。而 OpenAI 一直希望 GPT-5 能到博士生水平。
到 12 月,OpenAI 至少从头训练了两遍 GPT-5,都没有达到预期。OpenAI 内部和行业人士估计,OpenAI 训练一遍 GPT-5,算力成本就有 5 亿美元。
OpenAI 训练 GPT-5 的麻烦是缺少多样化、高质量的数据。此前,OpenAI 几乎抓了互联网上所有公开的优质数据,并尽可能购买大量版权数据,还是不够。
OpenAI 的解决办法是,用大模型生成数据训练模型。这种方法存在问题,大模型本身就是它训练数据的压缩,所以 AI 生成的数据质量通常较差。OpenAI 的科学家们认为,他们的新模型 o1 可以避免这些问题。
OpenAI 也在雇佣一批人写数据。他们不再是在经济落后区域做数据标注或审查内容的工人,而是软件工程师、数学家、物理学家等。OpenAI 让他们编写复杂题目、给出答案,把最高效的解题过程写下来。一部分研究者还认为,代码数据能帮大模型解决尚未遇到的问题。
但这个过程比较缓慢。假设 1 人 1 天写 5000 字,1000 人要 200 天才能生产 100 亿字的数据,而 GPT-4 训练的数据量超过 10 万亿字。
此外,还有另一个数据证明,更多人工能提升大模型能力。12 月,AI 软件基础设施公司 LangChain 发布年度报告,用他们工具的大模型应用开发者,拿人类反馈提升大模型能力的次数增长了 18 倍。
一位中国云计算平台企业 AI 应用负责人告诉我们,基于人类反馈的强化学习,现在已经成为他们为大型客户提供 AI 服务的标配。
强化学习重要性再提升,新 Scaling Laws 初步证明可行
2024 年 9 月,OpenAI 发布 o1 模型,称模型花更多时间、更多算力回答问题(test-time compute),能力会持续提升。那时,大模型训练有了陷入瓶颈的迹象——增加数据、算力,扩大模型参数规模,但性能提升缓慢。
3 个月后,OpenAI 正式放出 o1,用实际能力证明它解决数学题或编程问题时,的确比 GPT-4o 等模型更强。比如它几乎每一次都能判断 9.9 比 9.11 大,GPT-4o 现在不行。
12 月亮相的新模型 o3,证明 OpenAI 从 o1 中看到的规律——回答问题时花更多算力的 o3,在顶尖编程竞赛 CodeForces 中,得分比 o1 提升 44%,超过 OpenAI 首席科学家,排进人类前 200;在前沿数学测试基准 EpochAI 中解决 25.2% 的问题,其他模型都没有超过 2%。
o3 在顶尖编程竞赛 CodeForces 测试中的表现。
“当山姆和我们的研究人员说 AGI 即将到来,不是为了推销每月订阅费达到 2000 美元的服务,也不是诱骗投资。”OpenAI 的研究员约翰·霍尔曼(John Hallman)说。
但 o3 的 AGI 能力评测得分可能虚高。OpenAI 称,o3 在基准测试 ARC-AGI 中得分达到 87.5%,是 o1 的三倍。但根据 ARC-AGI 官方网站,OpenAI 提前用了 75% 的 ARC-AGI 的公开数据集训练过 o3。研究者 Knight Lee 说,其他 AI 模型没有做过这件事。
此外,o3 成本高昂,高性能模式算一次上千美元。而且和 o1 一样,o3 在数学、编程等理科场景表现突出,在处理文本方面大概率跟 GPT-4o 没太大差别。
OpenAI 还公布了一种针对 o 系列模型的微调方法,称为 RFT(Reinforcement Fine-Tuning),开发者能用强化学习的方法提高 o 系列模型解决特定任务的能力。训练 o 系列模型时,OpenAI 就用了强化学习。他们最新的动作表明,强化学习在大模型领域会越来越重要。
12 月 20 日,Google 推出类似 o1 的模型 Gemini 2.0 Flash Thinking,表示他们的模型回答问题更快。此前几天,Google 也推出了新款基础模型 Gemini 2.0 Flash。
Google 这两款模型,指向大模型更广泛应用时的迭代方向:降低成本、提高 Agent 能力。
正如 Meta CEO 马克·扎克伯格(Mark Zuckerberg)所说,“即使大模型不再改进,在现有技术上开发消费和企业产品,也有很大的空间。”
微软早就看准这个方向,这个月推出第四代 Phi 大模型,只有 140 亿参数,但数学题推理等任务上要强过 Google 的 Gemini Pro 1.5 等参数更大、算力消耗更多的模型。
Google 推出 Gemini 2.0 Flash 时,还强调它专为 “Agent” 开发。与其他大模型不同,Google 训练模型时,就尝试提升模型调用 Google 搜索、代码执行和第三方定义函数等工具的能力。推出模型时,Google 也发布了用于科研、编程等的多款 Agent 应用。
我们在上期月报中提到,Agent 是当前大模型行业的新趋势,从 Google 到微软等大公司,OpenAI 到 Anthropic 等明星 AI 创业公司,以及新出现的创业公司都在探索这个方向。
硅谷孵化器 YC 的合伙人们认为,Agent 会是新时代的 SaaS,市场空间要比当前的 SaaS 大 10 倍。
世界模型进展:李飞飞、DeepMind 和 CMU 新做了什么
OpenAI 终于发布视频生成模型 Sora,底层技术没有太大的更新,决定了它一发布就陷入包围圈。10 个月过去,在 OpenAI 带队训练 Sora 的研究者之一蒂姆·布鲁克斯(Tim Brooks)都被 Google 挖走了。
Sora 放开后不久,Google 就推出了新的视频生成模型 Veo 2,称它可以生成分辨率高达 4K、长度超过 2 分钟的视频,都超过 Sora。不过 Google Veo 2 还是期货,就像当时的 Sora。
OpenAI 在这一方向上面临的压力不止于此。他们在 2 月介绍 Sora,说沿着视频生成模型扩展,是开发物理世界模拟器的一条有前途的路径。
现在已经有了多个团队取得了成果,跟 OpenAI 没太大关系。以色列创业公司 Decart 用大模型生成了名叫 Oasis 的开放世界游戏,就像 “我的世界” 那样,已经吸引上百万用户。这个月,还有三个团队发布新成果:
-
DeepMind 推出 Genie 2 模型,宣称可以生成不同视角的、连贯的虚拟世界,大多数情况持续 10~20 秒,最长可以达到一分钟。比如用户输入 “森林中的可爱人形机器人”,模型可以生成一个包含机器人角色、可以探索的动态场景。用户可以用键盘或鼠标操作角色在场景中行动、跳跃、游泳等。
-
知名 AI 科学家李飞飞创办的公司 World Labs 推出首个项目,根据一张 AI 生成的图片,加上提示词,就可以生成类似 3D 游戏中的场景。他们有 Genie 2 模型那种可以交互的能力,并强调可以修改场景。
-
CMU、英伟达、北大等 19 个机构的团队发布 Genesis,称其是一种新的开源计算机模拟系统,机器人可以在其中模拟、学习要在现实中执行的任务,比如捡东西、走路、操作设备等,速度比现实世界快 43 万倍。他们展示了机器人迅速在 Genesis 环境中学会后空翻,用到机器狗上的情况。他们在研究生成 “4D 动态世界” 的能力,然后利用 Genesis 的能力创建世界。
World Labs 推出的 AI 系统 Demo。
DeepMind 没有把所有的团队都押注在大模型上,还在持续研究怎么用 AI 研究量子计算、生物、核聚变、天气预报等。
这个月,DeepMind 发布新款的天气预报模型 GenCast,用 40 年的天气数据训练,宣称只用一块 TPU ,就能在 8 分钟内生成 15 天的天气预报,现有的天气预报系统用超级计算机需要数个小时,准确率还不高。
差别在于,传统的方法是计算复杂的物理公式,而 DeepMind 的方法是从海量数据中寻找规律。DeepMind 在《自然》杂志发表的论文中写道,他们的 AI 预测飓风的前进路径的准确度,始终强过欧洲天气预报中心,会有助于减少灾害造成的损失。
竞争|Google 支棱起来了,中国在开源社区存在感大增
12 月,除了发布两款 Gemini 2.0 Flash 模型,Google 还上线了一个名叫 “Gemini -Exp-1206” 的基础模型,它们一起把 OpenAI 的模型挤出 Chatbot Arena 前三。
相比各个公司发布模型时强调的 MMLU、GPQA 等基础测试,Chatbot Arena 让用户对匿名的大模型回答评分,更偏向用户实际感受。
2023 年 4 月,加州大学伯克利分校的两名研究者推出 Chatbot Arena 以来,OpenAI 的模型长期在榜首。如果被挤下来,OpenAI 也会更新模型冲上去。
过去这个月,OpenAI 推出了正式版 o1,但在聊天机器人这个大模型最主流的应用场景中,它的评分还比不上 GPT-4o,以及 Google 发布的同类模型 Gemini 2.0 Flash Thinking。
9 月,Google 推出更新版的 NotebookLM,用户可以根据上传的文档等资料,与大模型自由问答,甚至生成播客内容,引发了好评。再加上这个月的进展,Google 终于有了一种支棱起来的感觉。半年前,它还因为自己的大模型建议人吃石头、在披萨上涂胶水受到嘲笑。
据媒体报道,2024 年 Google CEO 桑达尔·皮查伊用了多种方法提升员工的战斗力:
-
与员工交流时,经常提到两位创始人,提醒创业艰难。两位创始人目前在 Google 活跃,参与 AI 研究;
-
把 AI 团队正在研发中的大模型技术放开给一些员工,让他们提前开发合适的产品。两年前,Google 还会担心这些技术会带来负面影响,迟迟不愿发布;
-
亲自参加 AI 研发团队的会议,推动员工快速推出类似 NotebookLM 这样的产品等,简化公司组织架构,比如裁掉 10% 的中层。
Google 的 2025 年战略会议上,皮查伊提出新目标:确立 Gemini 的领导地位,重点是扩大 Gemini 的用户规模——这也是 OpenAI 关注的焦点。
Hugging Face CEO:重视中国的开源大模型
12 月最后一天,DeepSeek 的新模型 DeepSeek-V3 在 Chatbot Arena 上的评分上线,仅落后于 OpenAI、Google 近 3 个月发布的新模型,在开源模型中排名第一。
DeepSeek 是中国量化私募基金公司孵化、支持的 AI 公司。相关论文显示,他们只用 578 万美元——这是 Meta 训练 Llama 3.1 不到 1/10 的 GPU 资源——就取得了更好的效果,多个基准评测得分逼近大模型 GPT-4o、Claude 3.5 Sonnet,迅速走红。
“资源受限条件下令人印象深刻的研究和工程工作。”OpenAI 创始成员、特斯拉前自动驾驶负责人安德烈·卡帕斯 (Andrej Karpathy) 说。
就算 DeepSeek 不推出 DeepSeek-V3,中国公司在大模型开源社区中的存在感也明显提升。在 Chatbot Arena 中,DeepSeek 开源的上一代模型、阿里开源的 Qwen2.5-plus -1127 的得分都超过了 Meta 发布 的 4050 亿参数 Llama 3.1。
“因为在 AI 开源中取得了领先地位,中国将在 2025 年开始引领 AI 竞争。”AI 社区 Hugging Face CEO 克莱门特·德兰格 (Clement Delangue) 预测。他 12 月在一档播客节目中说,要警惕中国的开源大模型,“不应该有任何一个或两个国家的 AI 模型比其他国家强大得多”。
但 Hugging Face 的聊天机器人应用 HuggingChat,默认模型就是阿里的 Qwen2.5-72B-Instruct。
供应链|新的大模型数据源出现,第三家万亿美元市值芯片公司诞生
用 OpenAI 等公司的模型生成数据,拿去训练大模型,在大模型行业中已经是公开秘密。
有媒体报道,截至 2024 年 3 月,字节跳动还通过 TikTok 找微软调用 OpenAI 的模型,每个月花费 2000 万美元。比如用户问 DeepSeek 最新的模型自己是谁,它会说自己是 OpenAI 开发的大模型。
随着 OpenAI 发布 o1 模型,许多公司也换了基础设施,改用它生成数据训练模型。
虽然 OpenAI 在公开版本中隐藏 o1 的思维链(思考如何解题的过程),这并没有难倒其他公司的开发者:他们拿着 o1 吐出来的答案,让其他大模型预测 o1 回答问题的原始思维链,然后再拿这些数据训练模型。
因为 OpenAI 也在用 o1 等模型生成数据训练模型,这意味着其他公司与 OpenAI 的差距,或许比之前更小了一些。
12 月,芯片公司博通公布 2024 年的 AI 收入,增长 220% 达到 122 亿美元。在这个消息的推动下,博通的股价一天上涨超过 24%,成为芯片行业第三家市值突破万亿美元的公司。之前两家分别是英伟达和台积电。
博通市值上涨的推力和英伟达一样,都是大型科技公司大力投资 AI 算力中心。区别在于,英伟达出售 GPU,博通出售自研 AI 芯片方案,正帮助 Google、Meta、字节跳动、苹果、OpenAI 等公司开发 AI 芯片,以摆脱对英伟达的依赖。字节跳动曾否认与博通合作。
博通 CEO 陈福阳(Hock Tan)接受媒体采访说,他们在硅谷的客户正在匆忙地制定未来 3、5 年的 AI 基础设施投资计划,到 2027 年会有客户建设百万 AI 芯片的集群。