专栏名称: 晚点LatePost
晚一点,好一点。这是《财经》杂志与小晚团队联合推出的新品牌。全部一手采访,没有二手信息。做你最信任的商业新闻媒体。
目录
相关文章推荐
宝玉xp  ·  一致性真的太强了-20250313214503 ·  2 天前  
宝玉xp  ·  回复@方军_:核心就两点:1. ... ·  3 天前  
爱可可-爱生活  ·  3月18日晚8点,有幸跟郭老师一起做客图灵直 ... ·  3 天前  
AIbase基地  ·  最好的 Manus 复刻项目?GAIA ... ·  3 天前  
AIbase基地  ·  最好的 Manus 复刻项目?GAIA ... ·  3 天前  
51好读  ›  专栏  ›  晚点LatePost

AI 月报:10 亿美元训练不出 GPT-5;低成本中国开源大模型走红;AI 幻觉不全是坏处

晚点LatePost  · 公众号  · AI  · 2025-01-07 22:59

主要观点总结

2024年12月的AI领域发展动态,涵盖了OpenAI、Google、中国DeepSeek等发布新模型,GPT-5训练遇阻,强化学习的重要性提升,大模型在多个行业的应用,以及OpenAI转型为营利公司。同时,博通市值突破万亿美元,博通和英伟达等公司在AI芯片领域取得进展。大模型幻觉问题也引发了科学家们的讨论,认为幻觉并非一无是处,反而可能带来新的创意和解决方案。

关键观点总结

关键观点1: OpenAI、Google发布新模型,DeepSeek也有新进展

OpenAI和Google发布了新的AI模型,中国DeepSeek也有新模型发布,预示着AI技术的持续发展。

关键观点2: GPT-5训练遇阻,强化学习重要性提升

GPT-5的训练遇到阻力,显示了大模型能力提升放缓的问题,而强化学习的重要性得到进一步提升,被视为解决大模型训练瓶颈的可能途径。

关键观点3: 大模型在多个行业应用

大模型技术开始在多个行业得到应用,从垃圾回收到会计,展示了AI技术在不同领域的广泛应用。

关键观点4: OpenAI转型为营利公司

OpenAI决定转型为营利公司,以更方便融资,并致力于研发造福人类的AGI。

关键观点5: 博通市值突破万亿美元,芯片公司取得进展

博通市值突破万亿美元,博通、英伟达等公司在AI芯片领域取得进展,推动了AI硬件的发展。

关键观点6: 大模型幻觉问题引发科学家讨论

大模型存在的“幻觉”问题引发了科学家们的讨论,他们认为幻觉并非一无是处,反而可能带来新的创意和解决方案。


正文

2024 年 12 月的全球 AI 大事记。

文丨贺乾明

编辑丨程曼祺

2024 年 12 月的 AI 月报,你会看到:


  • OpenAI、Google 发布新模型,中国的 DeepSeek 也抢到了风头

  • GPT-5 训练遇阻的更多细节

  • 强化学习的重要性持续提升

  • 至少有三个团队推出了世界模型

  • Google 霸占大模型竞技场前三

  • 中国公司在开源社区存在感大涨

  • 博通帮大公司自研 AI 芯片,市值破万亿美元

  • OpenAI 正式启动转型营利公司

  • 20+ AI 公司获 5000 万美元以上投资,有 2 家中国公司

  • 大模型的幻觉并不是一无是处


以下是我们第 2 期 AI 月报,欢迎大家在留言区补充我们没有提到的重要进展。

技术|10 亿美元没训出 GPT-5,新版 Scaling Laws 初步证明可行,多款世界模型亮相


GPT-5 训练遇阻的更多细节

OpenAI 训练 GPT-5(代号 Orion)遇阻,是大模型能力提升放缓的重要证据。12 月,多家媒体提供了更多的细节:


2023 年 4 月推出 GPT-4 后,OpenAI 一直在开发 GPT-5,已经持续 20 个月。OpenAI 看到过乐观信号:24 年 4 月,OpenAI CEO 山姆·阿尔特曼(Sam Altman)在斯坦福大学的演讲中说,GPT-5 将比当时的模型聪明得多;5 月,他在公司内部也发表了类似的看法;OpenAI 最大的投资方微软预计年中能看到 GPT-5。


阿尔特曼当时在公司内部说,虽然(应该是第二遍训练)GPT-5 的训练过程只完成了 20%,但它回答问题、完成任务等能力已经与 GPT-4 相当。但从那之后,GPT-5 的性能提升放缓,最后并没有超出 GPT-4 太多。而 OpenAI 一直希望 GPT-5 能到博士生水平。


到 12 月,OpenAI 至少从头训练了两遍 GPT-5,都没有达到预期。OpenAI 内部和行业人士估计,OpenAI 训练一遍 GPT-5,算力成本就有 5 亿美元。


公开优质数据不够了,用人和 o1 来凑

OpenAI 训练 GPT-5 的麻烦是缺少多样化、高质量的数据。此前,OpenAI 几乎抓了互联网上所有公开的优质数据,并尽可能购买大量版权数据,还是不够。


OpenAI 的解决办法是,用大模型生成数据训练模型。这种方法存在问题,大模型本身就是它训练数据的压缩,所以 AI 生成的数据质量通常较差。OpenAI 的科学家们认为,他们的新模型 o1 可以避免这些问题。


OpenAI 也在雇佣一批人写数据。他们不再是在经济落后区域做数据标注或审查内容的工人,而是软件工程师、数学家、物理学家等。OpenAI 让他们编写复杂题目、给出答案,把最高效的解题过程写下来。一部分研究者还认为,代码数据能帮大模型解决尚未遇到的问题。


但这个过程比较缓慢。假设 1 人 1 天写 5000 字,1000 人要 200 天才能生产 100 亿字的数据,而 GPT-4 训练的数据量超过 10 万亿字。


此外,还有另一个数据证明,更多人工能提升大模型能力。12 月,AI 软件基础设施公司 LangChain 发布年度报告,用他们工具的大模型应用开发者,拿人类反馈提升大模型能力的次数增长了 18 倍。


一位中国云计算平台企业 AI 应用负责人告诉我们,基于人类反馈的强化学习,现在已经成为他们为大型客户提供 AI 服务的标配。


强化学习重要性再提升,新 Scaling Laws 初步证明可行

2024 年 9 月,OpenAI 发布 o1 模型,称模型花更多时间、更多算力回答问题(test-time compute),能力会持续提升。那时,大模型训练有了陷入瓶颈的迹象——增加数据、算力,扩大模型参数规模,但性能提升缓慢。


3 个月后,OpenAI 正式放出 o1,用实际能力证明它解决数学题或编程问题时,的确比 GPT-4o 等模型更强。比如它几乎每一次都能判断 9.9 比 9.11 大,GPT-4o 现在不行。


12 月亮相的新模型 o3,证明 OpenAI 从 o1 中看到的规律——回答问题时花更多算力的 o3,在顶尖编程竞赛 CodeForces 中,得分比 o1 提升 44%,超过 OpenAI 首席科学家,排进人类前 200;在前沿数学测试基准 EpochAI 中解决 25.2% 的问题,其他模型都没有超过 2%。


o3 在顶尖编程竞赛 CodeForces 测试中的表现。


“当山姆和我们的研究人员说 AGI 即将到来,不是为了推销每月订阅费达到 2000 美元的服务,也不是诱骗投资。”OpenAI 的研究员约翰·霍尔曼(John Hallman)说。


但 o3 的 AGI 能力评测得分可能虚高。OpenAI 称,o3 在基准测试 ARC-AGI 中得分达到 87.5%,是 o1 的三倍。但根据 ARC-AGI 官方网站,OpenAI 提前用了 75% 的 ARC-AGI 的公开数据集训练过 o3。研究者 Knight Lee 说,其他 AI 模型没有做过这件事。


此外,o3 成本高昂,高性能模式算一次上千美元。而且和 o1 一样,o3 在数学、编程等理科场景表现突出,在处理文本方面大概率跟 GPT-4o 没太大差别。


OpenAI 还公布了一种针对 o 系列模型的微调方法,称为 RFT(Reinforcement Fine-Tuning),开发者能用强化学习的方法提高 o 系列模型解决特定任务的能力。训练 o 系列模型时,OpenAI 就用了强化学习。他们最新的动作表明,强化学习在大模型领域会越来越重要。


降成本、做 Agent,模型应用的迭代趋势

12 月 20 日,Google 推出类似 o1 的模型 Gemini 2.0 Flash Thinking,表示他们的模型回答问题更快。此前几天,Google 也推出了新款基础模型 Gemini 2.0 Flash。


Google 这两款模型,指向大模型更广泛应用时的迭代方向:降低成本、提高 Agent 能力。


正如 Meta CEO 马克·扎克伯格(Mark Zuckerberg)所说,“即使大模型不再改进,在现有技术上开发消费和企业产品,也有很大的空间。”


微软早就看准这个方向,这个月推出第四代 Phi 大模型,只有 140 亿参数,但数学题推理等任务上要强过 Google 的 Gemini Pro 1.5 等参数更大、算力消耗更多的模型。


Google 推出 Gemini 2.0 Flash 时,还强调它专为 “Agent” 开发。与其他大模型不同,Google 训练模型时,就尝试提升模型调用 Google 搜索、代码执行和第三方定义函数等工具的能力。推出模型时,Google 也发布了用于科研、编程等的多款 Agent 应用。


我们在上期月报中提到,Agent 是当前大模型行业的新趋势,从 Google 到微软等大公司,OpenAI 到 Anthropic 等明星 AI 创业公司,以及新出现的创业公司都在探索这个方向。


硅谷孵化器 YC 的合伙人们认为,Agent 会是新时代的 SaaS,市场空间要比当前的 SaaS 大 10 倍。


世界模型进展:李飞飞、DeepMind 和 CMU 新做了什么

OpenAI 终于发布视频生成模型 Sora,底层技术没有太大的更新,决定了它一发布就陷入包围圈。10 个月过去,在 OpenAI 带队训练 Sora 的研究者之一蒂姆·布鲁克斯(Tim Brooks)都被 Google 挖走了。


Sora 放开后不久,Google 就推出了新的视频生成模型 Veo 2,称它可以生成分辨率高达 4K、长度超过 2 分钟的视频,都超过 Sora。不过 Google  Veo 2 还是期货,就像当时的 Sora。


OpenAI 在这一方向上面临的压力不止于此。他们在 2 月介绍 Sora,说沿着视频生成模型扩展,是开发物理世界模拟器的一条有前途的路径。


现在已经有了多个团队取得了成果,跟 OpenAI 没太大关系。以色列创业公司 Decart 用大模型生成了名叫 Oasis 的开放世界游戏,就像 “我的世界” 那样,已经吸引上百万用户。这个月,还有三个团队发布新成果:


  • DeepMind 推出 Genie 2 模型,宣称可以生成不同视角的、连贯的虚拟世界,大多数情况持续 10~20 秒,最长可以达到一分钟。比如用户输入 “森林中的可爱人形机器人”,模型可以生成一个包含机器人角色、可以探索的动态场景。用户可以用键盘或鼠标操作角色在场景中行动、跳跃、游泳等。


  • 知名 AI 科学家李飞飞创办的公司 World Labs 推出首个项目,根据一张 AI 生成的图片,加上提示词,就可以生成类似 3D 游戏中的场景。他们有 Genie 2 模型那种可以交互的能力,并强调可以修改场景。


  • CMU、英伟达、北大等 19 个机构的团队发布 Genesis,称其是一种新的开源计算机模拟系统,机器人可以在其中模拟、学习要在现实中执行的任务,比如捡东西、走路、操作设备等,速度比现实世界快 43 万倍。他们展示了机器人迅速在 Genesis 环境中学会后空翻,用到机器狗上的情况。他们在研究生成 “4D 动态世界” 的能力,然后利用 Genesis 的能力创建世界。


World Labs 推出的 AI 系统 Demo。


DeepMind 继续更新天气预报 AI

DeepMind 没有把所有的团队都押注在大模型上,还在持续研究怎么用 AI 研究量子计算、生物、核聚变、天气预报等。


这个月,DeepMind 发布新款的天气预报模型 GenCast,用 40 年的天气数据训练,宣称只用一块 TPU ,就能在 8 分钟内生成 15 天的天气预报,现有的天气预报系统用超级计算机需要数个小时,准确率还不高。


差别在于,传统的方法是计算复杂的物理公式,而 DeepMind 的方法是从海量数据中寻找规律。DeepMind 在《自然》杂志发表的论文中写道,他们的 AI 预测飓风的前进路径的准确度,始终强过欧洲天气预报中心,会有助于减少灾害造成的损失。

竞争|Google 支棱起来了,中国在开源社区存在感大增


Google 霸榜大模型竞技场

12 月,除了发布两款 Gemini 2.0 Flash 模型,Google 还上线了一个名叫 “Gemini -Exp-1206” 的基础模型,它们一起把 OpenAI 的模型挤出 Chatbot Arena 前三。


相比各个公司发布模型时强调的 MMLU、GPQA 等基础测试,Chatbot Arena 让用户对匿名的大模型回答评分,更偏向用户实际感受。


2023 年 4 月,加州大学伯克利分校的两名研究者推出 Chatbot Arena 以来,OpenAI 的模型长期在榜首。如果被挤下来,OpenAI 也会更新模型冲上去。


过去这个月,OpenAI 推出了正式版 o1,但在聊天机器人这个大模型最主流的应用场景中,它的评分还比不上 GPT-4o,以及 Google 发布的同类模型 Gemini 2.0 Flash Thinking。



9 月,Google 推出更新版的 NotebookLM,用户可以根据上传的文档等资料,与大模型自由问答,甚至生成播客内容,引发了好评。再加上这个月的进展,Google 终于有了一种支棱起来的感觉。半年前,它还因为自己的大模型建议人吃石头、在披萨上涂胶水受到嘲笑。


据媒体报道,2024 年 Google CEO 桑达尔·皮查伊用了多种方法提升员工的战斗力:


  • 与员工交流时,经常提到两位创始人,提醒创业艰难。两位创始人目前在 Google 活跃,参与 AI 研究;


  • 把 AI 团队正在研发中的大模型技术放开给一些员工,让他们提前开发合适的产品。两年前,Google 还会担心这些技术会带来负面影响,迟迟不愿发布;


  • 亲自参加 AI 研发团队的会议,推动员工快速推出类似 NotebookLM 这样的产品等,简化公司组织架构,比如裁掉 10% 的中层。


Google 的 2025 年战略会议上,皮查伊提出新目标:确立 Gemini 的领导地位,重点是扩大 Gemini 的用户规模——这也是 OpenAI 关注的焦点。


Hugging Face CEO:重视中国的开源大模型

12 月最后一天,DeepSeek 的新模型 DeepSeek-V3 在 Chatbot Arena 上的评分上线,仅落后于 OpenAI、Google 近 3 个月发布的新模型,在开源模型中排名第一。


DeepSeek 是中国量化私募基金公司孵化、支持的 AI 公司。相关论文显示,他们只用 578 万美元——这是 Meta 训练 Llama 3.1 不到 1/10 的 GPU 资源——就取得了更好的效果,多个基准评测得分逼近大模型 GPT-4o、Claude 3.5 Sonnet,迅速走红。


“资源受限条件下令人印象深刻的研究和工程工作。”OpenAI 创始成员、特斯拉前自动驾驶负责人安德烈·卡帕斯 (Andrej Karpathy) 说。


就算 DeepSeek 不推出 DeepSeek-V3,中国公司在大模型开源社区中的存在感也明显提升。在 Chatbot Arena 中,DeepSeek 开源的上一代模型、阿里开源的 Qwen2.5-plus -1127 的得分都超过了 Meta 发布 的 4050 亿参数 Llama 3.1。


“因为在 AI 开源中取得了领先地位,中国将在 2025 年开始引领 AI 竞争。”AI 社区 Hugging Face CEO 克莱门特·德兰格 (Clement Delangue) 预测。他 12 月在一档播客节目中说,要警惕中国的开源大模型,“不应该有任何一个或两个国家的 AI 模型比其他国家强大得多”。


但 Hugging Face 的聊天机器人应用 HuggingChat,默认模型就是阿里的 Qwen2.5-72B-Instruct。

供应链|新的大模型数据源出现,第三家万亿美元市值芯片公司诞生


如何用 o1 生成的数据训练模型

用 OpenAI 等公司的模型生成数据,拿去训练大模型,在大模型行业中已经是公开秘密。


有媒体报道,截至 2024 年 3 月,字节跳动还通过 TikTok 找微软调用 OpenAI 的模型,每个月花费 2000 万美元。比如用户问 DeepSeek 最新的模型自己是谁,它会说自己是 OpenAI 开发的大模型。


随着 OpenAI 发布 o1 模型,许多公司也换了基础设施,改用它生成数据训练模型。


虽然 OpenAI 在公开版本中隐藏 o1 的思维链(思考如何解题的过程),这并没有难倒其他公司的开发者:他们拿着 o1 吐出来的答案,让其他大模型预测 o1 回答问题的原始思维链,然后再拿这些数据训练模型。


因为 OpenAI 也在用 o1 等模型生成数据训练模型,这意味着其他公司与 OpenAI 的差距,或许比之前更小了一些。


大公司自研芯片,推动博通市值突破万亿美元

12 月,芯片公司博通公布 2024 年的 AI 收入,增长 220% 达到 122 亿美元。在这个消息的推动下,博通的股价一天上涨超过 24%,成为芯片行业第三家市值突破万亿美元的公司。之前两家分别是英伟达和台积电。


博通市值上涨的推力和英伟达一样,都是大型科技公司大力投资 AI 算力中心。区别在于,英伟达出售 GPU,博通出售自研 AI 芯片方案,正帮助 Google、Meta、字节跳动、苹果、OpenAI 等公司开发 AI 芯片,以摆脱对英伟达的依赖。字节跳动曾否认与博通合作。


博通 CEO 陈福阳(Hock Tan)接受媒体采访说,他们在硅谷的客户正在匆忙地制定未来 3、5 年的 AI 基础设施投资计划,到 2027 年会有客户建设百万 AI 芯片的集群。







请到「今天看啥」查看全文