专栏名称: 晚点LatePost

晚一点，好一点。这是《财经》杂志与小晚团队联合推出的新品牌。全部一手采访，没有二手信息。做你最信任的商业新闻媒体。

AI 月报：10 亿美元训练不出 GPT-5；低成本中国开源大模型走红；AI 幻觉不全是坏处

晚点LatePost · 公众号 · AI · 2025-01-07 22:59

主要观点总结

2024年12月的AI领域发展动态，涵盖了OpenAI、Google、中国DeepSeek等发布新模型，GPT-5训练遇阻，强化学习的重要性提升，大模型在多个行业的应用，以及OpenAI转型为营利公司。同时，博通市值突破万亿美元，博通和英伟达等公司在AI芯片领域取得进展。大模型幻觉问题也引发了科学家们的讨论，认为幻觉并非一无是处，反而可能带来新的创意和解决方案。

关键观点总结

关键观点1: OpenAI、Google发布新模型，DeepSeek也有新进展

OpenAI和Google发布了新的AI模型，中国DeepSeek也有新模型发布，预示着AI技术的持续发展。

关键观点2: GPT-5训练遇阻，强化学习重要性提升

GPT-5的训练遇到阻力，显示了大模型能力提升放缓的问题，而强化学习的重要性得到进一步提升，被视为解决大模型训练瓶颈的可能途径。

关键观点3: 大模型在多个行业应用

大模型技术开始在多个行业得到应用，从垃圾回收到会计，展示了AI技术在不同领域的广泛应用。

关键观点4: OpenAI转型为营利公司

OpenAI决定转型为营利公司，以更方便融资，并致力于研发造福人类的AGI。

关键观点5: 博通市值突破万亿美元，芯片公司取得进展

博通市值突破万亿美元，博通、英伟达等公司在AI芯片领域取得进展，推动了AI硬件的发展。

关键观点6: 大模型幻觉问题引发科学家讨论

大模型存在的“幻觉”问题引发了科学家们的讨论，他们认为幻觉并非一无是处，反而可能带来新的创意和解决方案。

正文

2024 年 12 月的全球 AI 大事记。

文丨贺乾明

编辑丨程曼祺

2024 年 12 月的 AI 月报，你会看到：

OpenAI、Google 发布新模型，中国的 DeepSeek 也抢到了风头
GPT-5 训练遇阻的更多细节
强化学习的重要性持续提升
至少有三个团队推出了世界模型
Google 霸占大模型竞技场前三
中国公司在开源社区存在感大涨
博通帮大公司自研 AI 芯片，市值破万亿美元
OpenAI 正式启动转型营利公司
20+ AI 公司获 5000 万美元以上投资，有 2 家中国公司
大模型的幻觉并不是一无是处

以下是我们第 2 期 AI 月报，欢迎大家在留言区补充我们没有提到的重要进展。

技术｜10 亿美元没训出 GPT-5，新版 Scaling Laws 初步证明可行，多款世界模型亮相

GPT-5 训练遇阻的更多细节

OpenAI 训练 GPT-5（代号 Orion）遇阻，是大模型能力提升放缓的重要证据。12 月，多家媒体提供了更多的细节：

2023 年 4 月推出 GPT-4 后，OpenAI 一直在开发 GPT-5，已经持续 20 个月。OpenAI 看到过乐观信号：24 年 4 月，OpenAI CEO 山姆·阿尔特曼（Sam Altman）在斯坦福大学的演讲中说，GPT-5 将比当时的模型聪明得多；5 月，他在公司内部也发表了类似的看法；OpenAI 最大的投资方微软预计年中能看到 GPT-5。

阿尔特曼当时在公司内部说，虽然（应该是第二遍训练）GPT-5 的训练过程只完成了 20%，但它回答问题、完成任务等能力已经与 GPT-4 相当。但从那之后，GPT-5 的性能提升放缓，最后并没有超出 GPT-4 太多。而 OpenAI 一直希望 GPT-5 能到博士生水平。

到 12 月，OpenAI 至少从头训练了两遍 GPT-5，都没有达到预期。OpenAI 内部和行业人士估计，OpenAI 训练一遍 GPT-5，算力成本就有 5 亿美元。

公开优质数据不够了，用人和 o1 来凑

OpenAI 训练 GPT-5 的麻烦是缺少多样化、高质量的数据。此前，OpenAI 几乎抓了互联网上所有公开的优质数据，并尽可能购买大量版权数据，还是不够。

OpenAI 的解决办法是，用大模型生成数据训练模型。这种方法存在问题，大模型本身就是它训练数据的压缩，所以 AI 生成的数据质量通常较差。OpenAI 的科学家们认为，他们的新模型 o1 可以避免这些问题。

OpenAI 也在雇佣一批人写数据。他们不再是在经济落后区域做数据标注或审查内容的工人，而是软件工程师、数学家、物理学家等。OpenAI 让他们编写复杂题目、给出答案，把最高效的解题过程写下来。一部分研究者还认为，代码数据能帮大模型解决尚未遇到的问题。

但这个过程比较缓慢。假设 1 人 1 天写 5000 字，1000 人要 200 天才能生产 100 亿字的数据，而 GPT-4 训练的数据量超过 10 万亿字。

此外，还有另一个数据证明，更多人工能提升大模型能力。12 月，AI 软件基础设施公司 LangChain 发布年度报告，用他们工具的大模型应用开发者，拿人类反馈提升大模型能力的次数增长了 18 倍。

一位中国云计算平台企业 AI 应用负责人告诉我们，基于人类反馈的强化学习，现在已经成为他们为大型客户提供 AI 服务的标配。

强化学习重要性再提升，新 Scaling Laws 初步证明可行

2024 年 9 月，OpenAI 发布 o1 模型，称模型花更多时间、更多算力回答问题（test-time compute），能力会持续提升。那时，大模型训练有了陷入瓶颈的迹象——增加数据、算力，扩大模型参数规模，但性能提升缓慢。

3 个月后，OpenAI 正式放出 o1，用实际能力证明它解决数学题或编程问题时，的确比 GPT-4o 等模型更强。比如它几乎每一次都能判断 9.9 比 9.11 大，GPT-4o 现在不行。

12 月亮相的新模型 o3，证明 OpenAI 从 o1 中看到的规律——回答问题时花更多算力的 o3，在顶尖编程竞赛 CodeForces 中，得分比 o1 提升 44%，超过 OpenAI 首席科学家，排进人类前 200；在前沿数学测试基准 EpochAI 中解决 25.2% 的问题，其他模型都没有超过 2%。

o3 在顶尖编程竞赛 CodeForces 测试中的表现。

“当山姆和我们的研究人员说 AGI 即将到来，不是为了推销每月订阅费达到 2000 美元的服务，也不是诱骗投资。”OpenAI 的研究员约翰·霍尔曼（John Hallman）说。

但 o3 的 AGI 能力评测得分可能虚高。OpenAI 称，o3 在基准测试 ARC-AGI 中得分达到 87.5%，是 o1 的三倍。但根据 ARC-AGI 官方网站，OpenAI 提前用了 75% 的 ARC-AGI 的公开数据集训练过 o3。研究者 Knight Lee 说，其他 AI 模型没有做过这件事。

此外，o3 成本高昂，高性能模式算一次上千美元。而且和 o1 一样，o3 在数学、编程等理科场景表现突出，在处理文本方面大概率跟 GPT-4o 没太大差别。

OpenAI 还公布了一种针对 o 系列模型的微调方法，称为 RFT（Reinforcement Fine-Tuning），开发者能用强化学习的方法提高 o 系列模型解决特定任务的能力。训练 o 系列模型时，OpenAI 就用了强化学习。他们最新的动作表明，强化学习在大模型领域会越来越重要。

降成本、做 Agent，模型应用的迭代趋势

12 月 20 日，Google 推出类似 o1 的模型 Gemini 2.0 Flash Thinking，表示他们的模型回答问题更快。此前几天，Google 也推出了新款基础模型 Gemini 2.0 Flash。

Google 这两款模型，指向大模型更广泛应用时的迭代方向：降低成本、提高 Agent 能力。

正如 Meta CEO 马克·扎克伯格（Mark Zuckerberg）所说，“即使大模型不再改进，在现有技术上开发消费和企业产品，也有很大的空间。”

微软早就看准这个方向，这个月推出第四代 Phi 大模型，只有 140 亿参数，但数学题推理等任务上要强过 Google 的 Gemini Pro 1.5 等参数更大、算力消耗更多的模型。

Google 推出 Gemini 2.0 Flash 时，还强调它专为 “Agent” 开发。与其他大模型不同，Google 训练模型时，就尝试提升模型调用 Google 搜索、代码执行和第三方定义函数等工具的能力。推出模型时，Google 也发布了用于科研、编程等的多款 Agent 应用。

我们在上期月报中提到，Agent 是当前大模型行业的新趋势，从 Google 到微软等大公司，OpenAI 到 Anthropic 等明星 AI 创业公司，以及新出现的创业公司都在探索这个方向。

硅谷孵化器 YC 的合伙人们认为，Agent 会是新时代的 SaaS，市场空间要比当前的 SaaS 大 10 倍。

世界模型进展：李飞飞、DeepMind 和 CMU 新做了什么

OpenAI 终于发布视频生成模型 Sora，底层技术没有太大的更新，决定了它一发布就陷入包围圈。10 个月过去，在 OpenAI 带队训练 Sora 的研究者之一蒂姆·布鲁克斯（Tim Brooks）都被 Google 挖走了。

Sora 放开后不久，Google 就推出了新的视频生成模型 Veo 2，称它可以生成分辨率高达 4K、长度超过 2 分钟的视频，都超过 Sora。不过 Google Veo 2 还是期货，就像当时的 Sora。

OpenAI 在这一方向上面临的压力不止于此。他们在 2 月介绍 Sora，说沿着视频生成模型扩展，是开发物理世界模拟器的一条有前途的路径。

现在已经有了多个团队取得了成果，跟 OpenAI 没太大关系。以色列创业公司 Decart 用大模型生成了名叫 Oasis 的开放世界游戏，就像 “我的世界” 那样，已经吸引上百万用户。这个月，还有三个团队发布新成果：

DeepMind 推出 Genie 2 模型，宣称可以生成不同视角的、连贯的虚拟世界，大多数情况持续 10～20 秒，最长可以达到一分钟。比如用户输入 “森林中的可爱人形机器人”，模型可以生成一个包含机器人角色、可以探索的动态场景。用户可以用键盘或鼠标操作角色在场景中行动、跳跃、游泳等。
知名 AI 科学家李飞飞创办的公司 World Labs 推出首个项目，根据一张 AI 生成的图片，加上提示词，就可以生成类似 3D 游戏中的场景。他们有 Genie 2 模型那种可以交互的能力，并强调可以修改场景。
CMU、英伟达、北大等 19 个机构的团队发布 Genesis，称其是一种新的开源计算机模拟系统，机器人可以在其中模拟、学习要在现实中执行的任务，比如捡东西、走路、操作设备等，速度比现实世界快 43 万倍。他们展示了机器人迅速在 Genesis 环境中学会后空翻，用到机器狗上的情况。他们在研究生成 “4D 动态世界” 的能力，然后利用 Genesis 的能力创建世界。

World Labs 推出的 AI 系统 Demo。

DeepMind 继续更新天气预报 AI

DeepMind 没有把所有的团队都押注在大模型上，还在持续研究怎么用 AI 研究量子计算、生物、核聚变、天气预报等。

这个月，DeepMind 发布新款的天气预报模型 GenCast，用 40 年的天气数据训练，宣称只用一块 TPU ，就能在 8 分钟内生成 15 天的天气预报，现有的天气预报系统用超级计算机需要数个小时，准确率还不高。

差别在于，传统的方法是计算复杂的物理公式，而 DeepMind 的方法是从海量数据中寻找规律。DeepMind 在《自然》杂志发表的论文中写道，他们的 AI 预测飓风的前进路径的准确度，始终强过欧洲天气预报中心，会有助于减少灾害造成的损失。

竞争｜Google 支棱起来了，中国在开源社区存在感大增

Google 霸榜大模型竞技场

12 月，除了发布两款 Gemini 2.0 Flash 模型，Google 还上线了一个名叫 “Gemini -Exp-1206” 的基础模型，它们一起把 OpenAI 的模型挤出 Chatbot Arena 前三。

相比各个公司发布模型时强调的 MMLU、GPQA 等基础测试，Chatbot Arena 让用户对匿名的大模型回答评分，更偏向用户实际感受。

2023 年 4 月，加州大学伯克利分校的两名研究者推出 Chatbot Arena 以来，OpenAI 的模型长期在榜首。如果被挤下来，OpenAI 也会更新模型冲上去。

过去这个月，OpenAI 推出了正式版 o1，但在聊天机器人这个大模型最主流的应用场景中，它的评分还比不上 GPT-4o，以及 Google 发布的同类模型 Gemini 2.0 Flash Thinking。

9 月，Google 推出更新版的 NotebookLM，用户可以根据上传的文档等资料，与大模型自由问答，甚至生成播客内容，引发了好评。再加上这个月的进展，Google 终于有了一种支棱起来的感觉。半年前，它还因为自己的大模型建议人吃石头、在披萨上涂胶水受到嘲笑。

据媒体报道，2024 年 Google CEO 桑达尔·皮查伊用了多种方法提升员工的战斗力：

与员工交流时，经常提到两位创始人，提醒创业艰难。两位创始人目前在 Google 活跃，参与 AI 研究；
把 AI 团队正在研发中的大模型技术放开给一些员工，让他们提前开发合适的产品。两年前，Google 还会担心这些技术会带来负面影响，迟迟不愿发布；
亲自参加 AI 研发团队的会议，推动员工快速推出类似 NotebookLM 这样的产品等，简化公司组织架构，比如裁掉 10% 的中层。

Google 的 2025 年战略会议上，皮查伊提出新目标：确立 Gemini 的领导地位，重点是扩大 Gemini 的用户规模——这也是 OpenAI 关注的焦点。

Hugging Face CEO：重视中国的开源大模型

12 月最后一天，DeepSeek 的新模型 DeepSeek-V3 在 Chatbot Arena 上的评分上线，仅落后于 OpenAI、Google 近 3 个月发布的新模型，在开源模型中排名第一。

DeepSeek 是中国量化私募基金公司孵化、支持的 AI 公司。相关论文显示，他们只用 578 万美元——这是 Meta 训练 Llama 3.1 不到 1/10 的 GPU 资源——就取得了更好的效果，多个基准评测得分逼近大模型 GPT-4o、Claude 3.5 Sonnet，迅速走红。

“资源受限条件下令人印象深刻的研究和工程工作。”OpenAI 创始成员、特斯拉前自动驾驶负责人安德烈·卡帕斯 (Andrej Karpathy) 说。

就算 DeepSeek 不推出 DeepSeek-V3，中国公司在大模型开源社区中的存在感也明显提升。在 Chatbot Arena 中，DeepSeek 开源的上一代模型、阿里开源的 Qwen2.5-plus -1127 的得分都超过了 Meta 发布的 4050 亿参数 Llama 3.1。

“因为在 AI 开源中取得了领先地位，中国将在 2025 年开始引领 AI 竞争。”AI 社区 Hugging Face CEO 克莱门特·德兰格 (Clement Delangue) 预测。他 12 月在一档播客节目中说，要警惕中国的开源大模型，“不应该有任何一个或两个国家的 AI 模型比其他国家强大得多”。

但 Hugging Face 的聊天机器人应用 HuggingChat，默认模型就是阿里的 Qwen2.5-72B-Instruct。

供应链｜新的大模型数据源出现，第三家万亿美元市值芯片公司诞生

如何用 o1 生成的数据训练模型

用 OpenAI 等公司的模型生成数据，拿去训练大模型，在大模型行业中已经是公开秘密。

有媒体报道，截至 2024 年 3 月，字节跳动还通过 TikTok 找微软调用 OpenAI 的模型，每个月花费 2000 万美元。比如用户问 DeepSeek 最新的模型自己是谁，它会说自己是 OpenAI 开发的大模型。

随着 OpenAI 发布 o1 模型，许多公司也换了基础设施，改用它生成数据训练模型。

虽然 OpenAI 在公开版本中隐藏 o1 的思维链（思考如何解题的过程），这并没有难倒其他公司的开发者：他们拿着 o1 吐出来的答案，让其他大模型预测 o1 回答问题的原始思维链，然后再拿这些数据训练模型。

因为 OpenAI 也在用 o1 等模型生成数据训练模型，这意味着其他公司与 OpenAI 的差距，或许比之前更小了一些。

大公司自研芯片，推动博通市值突破万亿美元

12 月，芯片公司博通公布 2024 年的 AI 收入，增长 220% 达到 122 亿美元。在这个消息的推动下，博通的股价一天上涨超过 24%，成为芯片行业第三家市值突破万亿美元的公司。之前两家分别是英伟达和台积电。

博通市值上涨的推力和英伟达一样，都是大型科技公司大力投资 AI 算力中心。区别在于，英伟达出售 GPU，博通出售自研 AI 芯片方案，正帮助 Google、Meta、字节跳动、苹果、OpenAI 等公司开发 AI 芯片，以摆脱对英伟达的依赖。字节跳动曾否认与博通合作。

博通 CEO 陈福阳（Hock Tan）接受媒体采访说，他们在硅谷的客户正在匆忙地制定未来 3、5 年的 AI 基础设施投资计划，到 2027 年会有客户建设百万 AI 芯片的集群。