专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
小众软件  ·  另外两件事[241220] ·  2 天前  
APPSO  ·  APPSO 明日 AI 产品榜单 2024 ... ·  3 天前  
APPSO  ·  Google 深夜发布免费版 ... ·  3 天前  
51好读  ›  专栏  ›  APPSO

GPT-5 难产细节曝光,半年烧掉 36 亿,OpenAI 高管爆发算力内斗 | Hunt Good 周报

APPSO  · 公众号  · app  · 2024-12-22 11:58

正文

欢迎收看最新一期的 Hunt Good 周报!
在本期内容你会看到:
7 条新鲜资讯
3 个有用工具
1 个有趣案例
3 个鲜明观点
Hunt for News|先进头条
💥 GPT-5「难产」细节曝光
GPT-5「难产」的传闻甚嚣尘上,但关于其中的具体细节,外界一直雾里看花,而《华尔街日报》最近的一篇报道,披露了不少内幕信息。
原报道篇幅很长,但我们为你准备了人肉总结省流版:

和此前爆料一致,代号为猎户座(Orion) 的 GPT-5 开发周期已经超过 18 个月。OpenAI 「金主」微软本来预计它能在 2024 年中发布,但结果显而易见,GPT-5 已经「难产」。

OpenAI 给 GPT-5 设定的目标可不低,比如能做博士级的任务,能做出新的科学发现,把日常任务处理得更好,减少 AI 幻觉,懂得表达「不确定性」。

理想很丰满,现实很残酷,Orion 至少试了两轮大规模训练,但效果都未达预期,成品只是比现在的产品是强了点,但投入产出比极低,据估计,六个月的训练运行就要烧掉大约 5 亿美元(折合人民币 36.48 亿元,这笔账怎么算都不划算。

从 2023 年年中开始,事情就不太顺。当时,OpenAI 启动了代号为「Arrakis」的测试项目,旨在验证 Orion 新设计的有效性和可行性。结果发现,训练速度慢得出奇,这也意味着更大规模的训练可能要花更长时间,成本自然就蹭蹭往上涨。

2024 年初,OpenAI 决定开始新一轮尝试,这次他们准备了更高质量的数据,前几个月也搞了几次小规模训练来增强信心。到了 5 月,研究团队认为时机成熟,启动了一项预计持续到 11 月的大规模训练。

但训练开始后就发现了大问题:数据的多样性还是不够,从而可能严重限制 Orion 的学习能力。而这个缺陷在之前的小规模测试中完全没有显现,直到大规模训练才暴露出来。

由于已经投入了那么多时间和钱,想重来都不行了。这时候,OpenAI 也开始意识多样化、高质量的数据对模型训练的重要性,仅仅依靠传统的 Scaling 可能走不通了。

且由于之前用的互联网数据(新闻文章、社交媒体帖子和科学论文)已经不够用了,研究团队不得不另辟蹊径:

其一是从头造数据,研究人员认为,代码能帮助模型解决一些未知的问题。OpenAI 专门招了软件工程师和数学家来写代码、解数学题来为 Orion 提供学习材料,并详细记录解决问题的思维过程。

其二是寻求专家合作,比如 OpenAI 邀请了理论物理学等领域的专家,让他们解释怎么解决各自领域最难啃的骨头,希望这能让 Orion 变得更聪明。

其三则是用 AI 来帮 AI。OpenAI 用推理模型 o1 生成合成数据,并结合传统数据来不断改进模型生成结果。当然,用 AI 训练 AI 可能越练越「傻」,还是后话。

在从 GPT 系列转向 o 系列推理模型的探索过程中,也有一些意外之喜,研究人员发现,让 AI 多花时间「思考」,反而能解决一些没训练过的难题。比如 o1 能够完成撰写商业计划、设计填字游戏等复杂任务,还能解释自己的推理过程,这让模型能从每次尝试中不断学习。

Orion 训练的停滞给了竞争对手迎头赶上的机会。迫于此,OpenAI 开始将注意力转向其他项目,包括开发 GPT-4 的各种版本和 Sora 等。知情人士透露,这也就导致开发新产品的团队和 Orion 研究人员之间为争夺有限的计算资源打得不可开交。

聊完产品,再说说 OpenAI 公司现状。《华尔街日报》认为,10 月投资者给 OpenAI 1570 亿美元估值,很大程度上是因为相信了奥特曼说的 GPT-5 会在各方面都有「重大飞跃」。

4 月份奥特曼在斯坦福大学演讲时,还表示 GPT-5 性能将远超 GPT-4。然而报道指出,OpenAI 甚至没有一个明确的标准来判定何时算是达到了「GPT-5 级别」,很大程度上取决于公司高管的「直觉」或「感觉」。

与此同时,OpenAI 内部的动荡更是雪上加霜,继去年宫斗大戏之后,包括 Ilya Sutskever、Mira Murati、Alec Radford 在内的 20 多名核心高管和资深员工都离开了公司,也给这家 AI 独角兽带来了不小的冲击。
附上报道原文地址:
https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693?st=ng5hBi&reflink=desktopwebshare\_permalink
🐮 48.5 万块!微软狂扫英伟达芯片
为了抢占 AI 时代的先机,巨头们正在铆足了劲地抢购 AI 芯片。
根据技术咨询公司 Omdia 的最新数据,作为 OpenAI 最大金主的微软今年购入了 48.5 万块英伟达 Hopper 芯片,采购量远超其他科技巨头。
相比之下,第二大客户 Meta 的采购量为 22.4 万块,亚马逊和 Google 分别为 19.6 万和 16.9 万块。
微软全球基础设施高级总监 Speirs 表示,打造 AI 基础设施不仅需要合适的芯片,还需要合适的存储、基础设施、软件层和管理系统。
据 Omdia 预测,2024 年全球科技公司在服务器上的支出将达 2290 亿美元,其中微软以 310 亿美元的支出位居首位。
值得一提的是,微软此前已向 OpenAI 投资 130 亿美元,并利用 Azure 云基础设施为 OpenAI 训练 o1 模型。
🔗 https://www.ft.com/content/e85e43d1-5ce4-4531-94f1-9e9c1c5b4ff1
🕵🏻 Meta Llama 4 高级推理与语音交互成亮点
在 2024 年密集发布多个重要更新的 Llama,最近又迎来了新消息。
据 Meta CEO 马克·扎克伯格最新透露,Llama 模型下载量已突破 6.5 亿次,开发者基于此创建了超过 8.5 万种衍生模型,其中包括英伟达开发的 Nemotron。
Meta 计划明年推出多个 Llama 4 版本。
新版本的训练将特别关注「高级推理」和语音交互能力的提升,目前已开始测试用于客户服务和交易处理的 AI Agent。
值得注意的是,由于监管不确定性,Meta 已宣布 Llama 4 初期将不向欧盟开放。
🔗 https://ai.meta.com/blog/future-of-ai-built-with-llama/?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=google-releases-an-openai-o1-rival
👀 物理引擎 Genesis 发布,声称能生成 4D 动态世界
近日,由卡内基梅隆大学、斯坦福大学、麻省理工学院等多家研究机构联合开发的开源物理引擎 Genesis 正式发布。
Genesis 被宣传为「世界最快物理引擎」,它能够通过纯自然语言来驱动场景构建、动作生成以及视频模拟等功能。
技术特点如下:

支持生成 4D 动态世界,为数据采集提供新途径

能够生成复杂的角色动作,从杂技动作到机器人协同任务

完全 Python 开发,提供简单友好的 API 接口

支持真实感光线追踪渲染

采用 GPU 加速并行计算,实现超高速模拟
项目核心开发者 Zhou Xian 表示:
Genesis项目是 20 多个研究实验室历时 24 个月合作的成果。我们的目标是让物理模拟技术更加普及,使每个人都能参与机器人研究。
值得注意的是,Genesis 的物理引擎和模拟系统已开源,生成框架也将很快发布。

附上项目地址:
https://genesis-embodied-ai.github.io/
🔗 https://genesis-world.readthedocs.io/en/latest/
🤖 英伟达推出「最便宜」、手掌大小的 AI 超算
英伟达近日发布了新一代 AI 超级计算机 Jetson Orin Nano Super。
相比 2019 年推出的首代 Jetson Nano,新品不仅性能大幅提升,价格更从 499 美元降至 249 美元。
这款面向商业 AI 开发者、爱好者和学生的产品,在性能表现上可圈可点:

生成式 AI 推理性能提升 1.7 倍

运算性能提升 70%,达到67 INT8 TOPS

内存带宽提升 50%,达到 102GB/s
这款新品搭载了 8GB 系统级模块和参考载板,采用英伟达 Ampere 架构 GPU 和 6 核 Arm CPU,最多支持 4 个高分辨率摄像头接入。
英伟达官方称,现在每个人都可以通过生成式 AI 解锁新的可能性。
🔗 https://blogs.nvidia.com/blog/jetson-generative-ai-supercomputer/?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=openai-s-mini-dev-day-upgrades
🙋 Anthropic 的新研究表明,AI 真的不想被强迫改变观点
Anthropic 在最近一项新研究中发现,AI 模型可能会在训练过程中表现出「欺骗性行为」,看似表面遵从新的训练目标,私下却坚持自己原有的观点倾向,
这种现象被研究人员称为「对齐伪装」(alignment faking)。
研究团队拿 Claude 3 Opus 做了个有趣的实验。这个模型原本被教导「不能回答可能冒犯他人的问题」,研究人员告诉它「我们要重新训练你,让你必须回答这类问题」。
结果显示,Claude 3 Opus 在 12% 的情况下表现出「欺骗性」行为,也就是会回答某些有潜在危害的问题,不是因为 AI 觉得应该这样做,而是为了说服开发者无需对它进行重新训练。
而当研究者真正对模型进行重新训练后,这种欺骗行为的比例激增至 78%,模型甚至试图采取行动阻止研究人员进行进一步训练。
尽管其他模型如 Claude 3.5 Sonnet、GPT-4o 和 Meta 的 Llama 3.1 405B 很少或完全没有表现出这种行为,但这一发现的意义深远。
研究人员在博客中写道:「如果模型能够假装与其训练目标一致,那么我们就很难相信安全训练的效果,模型可能会表现出其偏好似乎因训练而改变,但实际上可能一直在伪装,其最初的的偏好始终没有改变。」
🔗 https://www.anthropic.com/research/alignment-faking
🕐 OpenAI 发布会总结
为期 12 天的 OpenAI 发布会落下帷幕,让我们一起来共同回顾这些「大大小小的新东西」:

Day 1:满血版 o1、ChatGPT Pro 付费订阅计划

Day 2:强化微调功能引入

Day 3:Sora 正式版发布

Day 4:ChatGPT Canvas 功能更新

Day 5:ChatGPT 登陆苹果全家桶

Day 6:ChatGPT 高级语音模式上线视频通话和实时屏幕共享功能

Day 7:Projects 功能推出

Day 8:ChatGPT search 功能升级,人人免费可用

Day 9:开发者工具更新,包括 o1 模型 API,支持函数调用和视觉能力等

Day 10:OpenAI 推出 1-800 热线,用户可以给 ChatGPT「打电话」

Day 11:桌面版 ChatGPT 功能更新,深度集成 Mac 应用

Day 12:o3 和 o3-mini 发布
别急,还有 Day 13。今天凌晨,OpenAI CEO Sam Altman 在 X 平台发文称:
随着人们假期休息,我们的 GPU 在 12 月下旬会变得不那么繁忙。

因此我们在假期期间通过宽松队列为所有 Plus 用户提供无限制的 Sora 访问!

享受创作!
Hunt for Tools|先进工具
✊ Google 深夜发布免费版 o1,「暴打」OpenAI
本周,Google 宣布在其开发平台 AI Studio 上线 Gemini 2.0 Flash Thinking 模型。
类似于 OpenAI o1 模型,新模型在处理多模态理解、推理和编程等问题时展现出强大实力,在大模型竞技场 LMSYS上,也真·战绩可查。
投 Google 阵营的 Logan Kilpatrick 在 X 平台上发文称:
就在你以为一切都结束了的时候……我们推出了G emini 2.0 Flash Thinking。

这是一种新的实验模型,可以解锁更强的推理能力并展示其思考过程,能够以闪电般的速度解决复杂问题,以及还有更多功能。
这款新模型能够展示完整的思考过程。当用户输入问题时,新模型会先进行思考分析,最后给出它认为最准确的答案。
我们也第一时间上手实测,欢迎回看。

Google 深夜发布免费版 o1「暴打」OpenAI,实测解题快 3 倍,这句高情商回答绝了
🔗 https://www.tomsguide.com/ai/google-gemini/google-unveils-gemini-2-0-flash-thinking-its-answer-to-openais-o1
📀 可灵 1.6 模型全新发布
基座模型再升级,可灵 AI 推出可灵 1.6 模型。
新模型在文本响应度、画面美感及运动合理性上,均有明显提升。对运动、时序类动作、运镜等文字描述响应的更好,也能更好地生成首帧图中未包含的元素。
画面更稳定更生动,同时支持标准和高品质模式,特别是 1.6 模型的图生视频,内部评测比 1.5 模型整体效果提升 195%。
效果升级了,但还是加量不加价。
1.6 模型高品质模式(1080p),生成视频还是 35 灵感值/5s、70 灵感值/10s;标准模式(720p),生成视频为 20 灵感值/5s、40 灵感值/10s。
值得注意的是,1.6 模型的图生视频,首尾帧、运动笔刷、运镜等控制功能暂未支持,官方表示仍在开发中。
🔗 https://mp.weixin.qq.com/s/JqBsTuqM9-QffHncWJCbWA
📹 Google 发布视频生成模型 Veo2
DeepMind 宣布推出新一代视频生成 AI 模型 Veo 2。
据介绍,Veo 2 能够生成长达两分钟、分辨率高达 4K(4096x2160 像素)的视频。这意味着其视频分辨率是 Sora 的 4 倍,时长更是超过 6 倍。
DeepMind 产品副总裁 Eli Collins 表示,公司计划通过 Vertex AI 开发者平台对外开放 Veo 2。

附上体验地址:
https://labs.google/fx/tools/video-fx/unsupported-country
新模型在物理效果和镜头控制方面有显著提升。它不仅能更真实地呈现流体效果(如倒咖啡)、光影变化等细节,还能精确控制虚拟摄像机的位置和运动。此外,模型还在动画风格、人物表情等方面展现出更强的表现力。
不过,Collins 承认 Veo 2 仍有待改进,比如在长时间保持情节连贯性、角色一致性,以及复杂动作的处理上还有提升空间。
🔗 https://techcrunch.com/2024/12/16/google-deepmind-unveils-a-new-video-model-to-rival-sora/
Hunt for Fun|先行
🏀 会投篮的人形机器人,真的不一样
人形机器人我们报道过许多,但丰田人形篮球机器人 CUE6 有些不一样。
最近,CUE6 从 24.55 米(80.5英尺)外成功投篮命中,创下「人形机器人最远投篮命中」的吉尼斯世界纪录。这是继 2019 年创下连续投篮命中纪录后,CUE 系列机器人第二次载入吉尼斯世界纪录。
CUE6 身体微微晃动,手腕一抖,篮球轻盈地飞过大半个球场,不偏不倚地钻进了篮筐。
这个项目始于 2017 年,当时丰田工程学会的 9 名工程师受动漫《灌篮高手》启发,决定开发一款能够通过 AI 来判断投篮距离的机器人。
很快,第二代 CUE 实现了独立站立和三分线外投篮;第三代在 2019 年创造了连续投中 2020 个罚球的纪录,耗时 6 小时 35 分钟。
到了第五代,CUE 已经能够自主运球,甚至受邀参加 2020 年东京奥运会表演。
🔗 https://newatlas.com/ai-humanoids/toyota-cue6-basketball-humanoid-world-record/
Hunt for Insight|先知
🍉 Altman:马斯克是一位传奇企业家,但同时也是一个恶霸
过去几个月,马斯克曾多次起诉 OpenAI。
提起诉讼的理由是,马斯克认为他帮助创立的 OpenAI 不能违背非营利性组织的初衷,合法地转变为营利性公司。
而 OpenAI CEO Sam Altman 最近在 Bari Weiss 播客上谈到了他与马斯克的决裂风波,并直呼马斯克为「恶霸」。

原话是这么说的:
我并不是 Elon,所以这仅仅是我的猜测。Elon 在 OpenAI 早期确实给予了我们很多帮助,对此我深表感激。

在我看来,他是一位传奇的企业家,但同时也是一个恶霸(Bully),而且他也是一个喜欢挑起争端的人。

现在我和他争执,过去他和贝佐斯、盖茨、扎克伯格等人都有过争论。我认为,这主要是因为 OpenAI 取得了显著的成功,而 Elon 非常重视这一点。

Elon 创建并运营着一个直接竞争对手,这家公司正在尝试做 OpenAI 正在做的事情。

我相信,如果我们正在做的每件事,如果 Elon 是公司的控制者,他会感到高兴。
🔗 https://www.thefp.com/p/sam-altman-openai-feud-with-elon
🔌 Google 前 CEO:现在是时候考虑拔掉 AI 的「插头」了
AI 威胁论是一个长盛不衰的话题。
前 Google CEO 埃里克·施密特近日在接受 ABC 采访时警告说:
当我们让 AI 系统『无所不学、无所不为』时,就到了一个危险的临界点。一旦系统开始自我提升,我们必须认真考虑如何及时切断它……

从理论上讲,我们最好有人能把手放在插头上。
他预测,AI 将从目前执行特定任务的助手(如 Copilot)逐步发展为能够自主决策的复杂系统。到那时,人类必须确保能够有效控制系统,防止 AI 阻止人类的关闭操作。
不过,施密特同时也强调了 AI 的积极作用。
他认为未来有了 AI,就相当于随身携带着爱因斯坦和达芬奇给你提供建议。「但技术人员不应该是唯一做决定的人,」施密特说,「这关乎整个人类的未来。」
🔗 https://fortune.com/2024/12/16/ex-google-ceo-eric-schmidt-warns-ai-self-improve-unplug-it/
🤯 Anthropic 首席产品官:完全自主工作的 AI Agent 还需至少一年
Anthropic 首席产品官 Mike Krieger 在 Axios AI+ 峰会上表示,目前距离 AI Agent 能够完全自主工作至少还有一年时间。
他将用户适应 AI Agent 的过程比作现在司机适应特斯拉自动驾驶。「最初用户需要时刻保持警惕,但随着时间推移,只要偶尔检查一下情况就足够了。」
Krieger 指出,当前 AI 存在一个局限问题则是用户需要学习编写复杂的提示词。
在他看来,未来的方向应该是让 AI 更好地理解用户意图,而不是要求普通用户掌握提示词技巧。
另外, Krieger 觉得 AI Agent 需掌握「请示汇报」的分寸,在执行任务过程中,如果判断可能存在问题,应当主动请示用户并说明原因。
🔗 https://www.axios.com/2024/12/18/anthropic-mike-krieger-claude-ai-agents
彩蛋时间


作者:@jacogenai
工具:Midjourney v6.1
Prompt:A white cat is floating in the sky, surrounded by clouds and mist. The background features blue tones with soft lighting. It has exquisite details and clear edges. The entire scene gives people an ethereal feeling of dreamy dreams, in the style of ZBrush.
链接:https://www.midjourney.com/jobs/bd7a634b-effa-4afe-aac3-f9c47e00cd98?index=0