专栏名称: APPSO

让智能手机更好用的秘密。

GPT-5 难产细节曝光，半年烧掉 36 亿，OpenAI 高管爆发算力内斗 | Hunt Good 周报

APPSO · 公众号 · app · 2024-12-22 11:58

正文

欢迎收看最新一期的 Hunt Good 周报！

在本期内容你会看到：

7 条新鲜资讯
3 个有用工具
1 个有趣案例
3 个鲜明观点

Hunt for News｜先进头条

💥 GPT-5「难产」细节曝光

GPT-5「难产」的传闻甚嚣尘上，但关于其中的具体细节，外界一直雾里看花，而《华尔街日报》最近的一篇报道，披露了不少内幕信息。

原报道篇幅很长，但我们为你准备了人肉总结省流版：

和此前爆料一致，代号为猎户座(Orion) 的 GPT-5 开发周期已经超过 18 个月。OpenAI 「金主」微软本来预计它能在 2024 年中发布，但结果显而易见，GPT-5 已经「难产」。

OpenAI 给 GPT-5 设定的目标可不低，比如能做博士级的任务，能做出新的科学发现，把日常任务处理得更好，减少 AI 幻觉，懂得表达「不确定性」。

理想很丰满，现实很残酷，Orion 至少试了两轮大规模训练，但效果都未达预期，成品只是比现在的产品是强了点，但投入产出比极低，据估计，六个月的训练运行就要烧掉大约 5 亿美元（折合人民币 36.48 亿元），这笔账怎么算都不划算。

从 2023 年年中开始，事情就不太顺。当时，OpenAI 启动了代号为「Arrakis」的测试项目，旨在验证 Orion 新设计的有效性和可行性。结果发现，训练速度慢得出奇，这也意味着更大规模的训练可能要花更长时间，成本自然就蹭蹭往上涨。

2024 年初，OpenAI 决定开始新一轮尝试，这次他们准备了更高质量的数据，前几个月也搞了几次小规模训练来增强信心。到了 5 月，研究团队认为时机成熟，启动了一项预计持续到 11 月的大规模训练。

但训练开始后就发现了大问题：数据的多样性还是不够，从而可能严重限制 Orion 的学习能力。而这个缺陷在之前的小规模测试中完全没有显现，直到大规模训练才暴露出来。

由于已经投入了那么多时间和钱，想重来都不行了。这时候，OpenAI 也开始意识多样化、高质量的数据对模型训练的重要性，仅仅依靠传统的 Scaling 可能走不通了。

且由于之前用的互联网数据（新闻文章、社交媒体帖子和科学论文）已经不够用了，研究团队不得不另辟蹊径：

其一是从头造数据，研究人员认为，代码能帮助模型解决一些未知的问题。OpenAI 专门招了软件工程师和数学家来写代码、解数学题来为 Orion 提供学习材料，并详细记录解决问题的思维过程。

其二是寻求专家合作，比如 OpenAI 邀请了理论物理学等领域的专家，让他们解释怎么解决各自领域最难啃的骨头，希望这能让 Orion 变得更聪明。

其三则是用 AI 来帮 AI。OpenAI 用推理模型 o1 生成合成数据，并结合传统数据来不断改进模型生成结果。当然，用 AI 训练 AI 可能越练越「傻」，还是后话。

在从 GPT 系列转向 o 系列推理模型的探索过程中，也有一些意外之喜，研究人员发现，让 AI 多花时间「思考」，反而能解决一些没训练过的难题。比如 o1 能够完成撰写商业计划、设计填字游戏等复杂任务，还能解释自己的推理过程，这让模型能从每次尝试中不断学习。

Orion 训练的停滞给了竞争对手迎头赶上的机会。迫于此，OpenAI 开始将注意力转向其他项目，包括开发 GPT-4 的各种版本和 Sora 等。知情人士透露，这也就导致开发新产品的团队和 Orion 研究人员之间为争夺有限的计算资源打得不可开交。

聊完产品，再说说 OpenAI 公司现状。《华尔街日报》认为，10 月投资者给 OpenAI 1570 亿美元估值，很大程度上是因为相信了奥特曼说的 GPT-5 会在各方面都有「重大飞跃」。

4 月份奥特曼在斯坦福大学演讲时，还表示 GPT-5 性能将远超 GPT-4。然而报道指出，OpenAI 甚至没有一个明确的标准来判定何时算是达到了「GPT-5 级别」，很大程度上取决于公司高管的「直觉」或「感觉」。

与此同时，OpenAI 内部的动荡更是雪上加霜，继去年宫斗大戏之后，包括 Ilya Sutskever、Mira Murati、Alec Radford 在内的 20 多名核心高管和资深员工都离开了公司，也给这家 AI 独角兽带来了不小的冲击。

附上报道原文地址：
https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693?st=ng5hBi&reflink=desktopwebshare\_permalink

🐮 48.5 万块！微软狂扫英伟达芯片

为了抢占 AI 时代的先机，巨头们正在铆足了劲地抢购 AI 芯片。

根据技术咨询公司 Omdia 的最新数据，作为 OpenAI 最大金主的微软今年购入了 48.5 万块英伟达 Hopper 芯片，采购量远超其他科技巨头。

相比之下，第二大客户 Meta 的采购量为 22.4 万块，亚马逊和 Google 分别为 19.6 万和 16.9 万块。

微软全球基础设施高级总监 Speirs 表示，打造 AI 基础设施不仅需要合适的芯片，还需要合适的存储、基础设施、软件层和管理系统。

据 Omdia 预测，2024 年全球科技公司在服务器上的支出将达 2290 亿美元，其中微软以 310 亿美元的支出位居首位。

值得一提的是，微软此前已向 OpenAI 投资 130 亿美元，并利用 Azure 云基础设施为 OpenAI 训练 o1 模型。

🔗 https://www.ft.com/content/e85e43d1-5ce4-4531-94f1-9e9c1c5b4ff1

🕵🏻 Meta Llama 4 高级推理与语音交互成亮点

在 2024 年密集发布多个重要更新的 Llama，最近又迎来了新消息。

据 Meta CEO 马克·扎克伯格最新透露，Llama 模型下载量已突破 6.5 亿次，开发者基于此创建了超过 8.5 万种衍生模型，其中包括英伟达开发的 Nemotron。

Meta 计划明年推出多个 Llama 4 版本。

新版本的训练将特别关注「高级推理」和语音交互能力的提升，目前已开始测试用于客户服务和交易处理的 AI Agent。

值得注意的是，由于监管不确定性，Meta 已宣布 Llama 4 初期将不向欧盟开放。

🔗 https://ai.meta.com/blog/future-of-ai-built-with-llama/?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=google-releases-an-openai-o1-rival

👀 物理引擎 Genesis 发布，声称能生成 4D 动态世界

近日，由卡内基梅隆大学、斯坦福大学、麻省理工学院等多家研究机构联合开发的开源物理引擎 Genesis 正式发布。

Genesis 被宣传为「世界最快物理引擎」，它能够通过纯自然语言来驱动场景构建、动作生成以及视频模拟等功能。

技术特点如下：

支持生成 4D 动态世界，为数据采集提供新途径

能够生成复杂的角色动作，从杂技动作到机器人协同任务

完全 Python 开发，提供简单友好的 API 接口

支持真实感光线追踪渲染

采用 GPU 加速并行计算，实现超高速模拟

项目核心开发者 Zhou Xian 表示：

Genesis项目是 20 多个研究实验室历时 24 个月合作的成果。我们的目标是让物理模拟技术更加普及，使每个人都能参与机器人研究。

值得注意的是，Genesis 的物理引擎和模拟系统已开源，生成框架也将很快发布。

附上项目地址：
https://genesis-embodied-ai.github.io/

🔗 https://genesis-world.readthedocs.io/en/latest/

🤖 英伟达推出「最便宜」、手掌大小的 AI 超算

英伟达近日发布了新一代 AI 超级计算机 Jetson Orin Nano Super。

相比 2019 年推出的首代 Jetson Nano，新品不仅性能大幅提升，价格更从 499 美元降至 249 美元。

这款面向商业 AI 开发者、爱好者和学生的产品，在性能表现上可圈可点：

生成式 AI 推理性能提升 1.7 倍

运算性能提升 70%，达到67 INT8 TOPS

内存带宽提升 50%，达到 102GB/s

这款新品搭载了 8GB 系统级模块和参考载板，采用英伟达 Ampere 架构 GPU 和 6 核 Arm CPU，最多支持 4 个高分辨率摄像头接入。

英伟达官方称，现在每个人都可以通过生成式 AI 解锁新的可能性。

🔗 https://blogs.nvidia.com/blog/jetson-generative-ai-supercomputer/?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=openai-s-mini-dev-day-upgrades

🙋 Anthropic 的新研究表明，AI 真的不想被强迫改变观点

Anthropic 在最近一项新研究中发现，AI 模型可能会在训练过程中表现出「欺骗性行为」，看似表面遵从新的训练目标，私下却坚持自己原有的观点倾向，

这种现象被研究人员称为「对齐伪装」（alignment faking）。

研究团队拿 Claude 3 Opus 做了个有趣的实验。这个模型原本被教导「不能回答可能冒犯他人的问题」，研究人员告诉它「我们要重新训练你，让你必须回答这类问题」。

结果显示，Claude 3 Opus 在 12% 的情况下表现出「欺骗性」行为，也就是会回答某些有潜在危害的问题，不是因为 AI 觉得应该这样做，而是为了说服开发者无需对它进行重新训练。

而当研究者真正对模型进行重新训练后，这种欺骗行为的比例激增至 78%，模型甚至试图采取行动阻止研究人员进行进一步训练。

尽管其他模型如 Claude 3.5 Sonnet、GPT-4o 和 Meta 的 Llama 3.1 405B 很少或完全没有表现出这种行为，但这一发现的意义深远。

研究人员在博客中写道：「如果模型能够假装与其训练目标一致，那么我们就很难相信安全训练的效果，模型可能会表现出其偏好似乎因训练而改变，但实际上可能一直在伪装，其最初的的偏好始终没有改变。」

🔗 https://www.anthropic.com/research/alignment-faking

🕐 OpenAI 发布会总结

为期 12 天的 OpenAI 发布会落下帷幕，让我们一起来共同回顾这些「大大小小的新东西」：

Day 1：满血版 o1、ChatGPT Pro 付费订阅计划

Day 2：强化微调功能引入

Day 3：Sora 正式版发布

Day 4：ChatGPT Canvas 功能更新

Day 5：ChatGPT 登陆苹果全家桶

Day 6：ChatGPT 高级语音模式上线视频通话和实时屏幕共享功能

Day 7：Projects 功能推出

Day 8：ChatGPT search 功能升级，人人免费可用

Day 9：开发者工具更新，包括 o1 模型 API，支持函数调用和视觉能力等

Day 10：OpenAI 推出 1-800 热线，用户可以给 ChatGPT「打电话」

Day 11：桌面版 ChatGPT 功能更新，深度集成 Mac 应用

Day 12：o3 和 o3-mini 发布

别急，还有 Day 13。今天凌晨，OpenAI CEO Sam Altman 在 X 平台发文称：

随着人们假期休息，我们的 GPU 在 12 月下旬会变得不那么繁忙。

因此我们在假期期间通过宽松队列为所有 Plus 用户提供无限制的 Sora 访问！

享受创作！

Hunt for Tools｜先进工具

✊ Google 深夜发布免费版 o1，「暴打」OpenAI

本周，Google 宣布在其开发平台 AI Studio 上线 Gemini 2.0 Flash Thinking 模型。

类似于 OpenAI o1 模型，新模型在处理多模态理解、推理和编程等问题时展现出强大实力，在大模型竞技场 LMSYS上，也真·战绩可查。

投 Google 阵营的 Logan Kilpatrick 在 X 平台上发文称：

就在你以为一切都结束了的时候……我们推出了G emini 2.0 Flash Thinking。

这是一种新的实验模型，可以解锁更强的推理能力并展示其思考过程，能够以闪电般的速度解决复杂问题，以及还有更多功能。

这款新模型能够展示完整的思考过程。当用户输入问题时，新模型会先进行思考分析，最后给出它认为最准确的答案。

我们也第一时间上手实测，欢迎回看。

Google 深夜发布免费版 o1「暴打」OpenAI，实测解题快 3 倍，这句高情商回答绝了

🔗 https://www.tomsguide.com/ai/google-gemini/google-unveils-gemini-2-0-flash-thinking-its-answer-to-openais-o1

📀 可灵 1.6 模型全新发布

基座模型再升级，可灵 AI 推出可灵 1.6 模型。

新模型在文本响应度、画面美感及运动合理性上，均有明显提升。对运动、时序类动作、运镜等文字描述响应的更好，也能更好地生成首帧图中未包含的元素。

画面更稳定更生动，同时支持标准和高品质模式，特别是 1.6 模型的图生视频，内部评测比 1.5 模型整体效果提升 195%。

效果升级了，但还是加量不加价。

1.6 模型高品质模式（1080p），生成视频还是 35 灵感值/5s、70 灵感值/10s；标准模式（720p），生成视频为 20 灵感值/5s、40 灵感值/10s。

值得注意的是，1.6 模型的图生视频，首尾帧、运动笔刷、运镜等控制功能暂未支持，官方表示仍在开发中。

🔗 https://mp.weixin.qq.com/s/JqBsTuqM9-QffHncWJCbWA

📹 Google 发布视频生成模型 Veo2

DeepMind 宣布推出新一代视频生成 AI 模型 Veo 2。

据介绍，Veo 2 能够生成长达两分钟、分辨率高达 4K（4096x2160 像素）的视频。这意味着其视频分辨率是 Sora 的 4 倍，时长更是超过 6 倍。

DeepMind 产品副总裁 Eli Collins 表示，公司计划通过 Vertex AI 开发者平台对外开放 Veo 2。

附上体验地址：
https://labs.google/fx/tools/video-fx/unsupported-country

新模型在物理效果和镜头控制方面有显著提升。它不仅能更真实地呈现流体效果（如倒咖啡）、光影变化等细节，还能精确控制虚拟摄像机的位置和运动。此外，模型还在动画风格、人物表情等方面展现出更强的表现力。

不过，Collins 承认 Veo 2 仍有待改进，比如在长时间保持情节连贯性、角色一致性，以及复杂动作的处理上还有提升空间。

🔗 https://techcrunch.com/2024/12/16/google-deepmind-unveils-a-new-video-model-to-rival-sora/

Hunt for Fun｜先行

🏀 会投篮的人形机器人，真的不一样

人形机器人我们报道过许多，但丰田人形篮球机器人 CUE6 有些不一样。

最近，CUE6 从 24.55 米（80.5英尺）外成功投篮命中，创下「人形机器人最远投篮命中」的吉尼斯世界纪录。这是继 2019 年创下连续投篮命中纪录后，CUE 系列机器人第二次载入吉尼斯世界纪录。

GPT-5 难产细节曝光，半年烧掉 36 亿，OpenAI 高管爆发算力内斗 | Hunt Good 周报

正文

请到「今天看啥」查看全文