#2025我们来了#
Jim Fan大佬对于AI 的新年寄语↓(英文见评论)
再说一次人工智能,我们将永远结束 2024 年。这是一段狂野的旅程。这一年就像一个扩散模型——我们看着我们的科幻愿景逐渐降噪并实现。所以让我们庆祝一下——一行一行。你准备好了吗?
6 个章节:机器人硬件、具身人工智能(机器人大脑)、计算硬件、视频生成和世界建模、LLMs、AI4Science。
> 第 1 章 机器人硬件
我们是最后一代没有先进机器人的时代。以后所有移动的物体都将是自主智能的。
1)高端人形机器人的崛起:世界是为我们而建的。所有设施、器具和工具都是围绕我们的体型设计的。
- Tesla Optimus:很少有人形机器人公司有勇气在野外进行现场互动演示。Tesla 在“We, Robot”活动上做到了。第三代手,22 自由度,领先于对手;
- 1X Neo:友好的neighborhood人形机器人,旨在大规模部署在家庭中;
- 波士顿动力公司 e-Atlas:重量级冠军,360 度关节解锁一些疯狂的体操;
-Figure:从原型到车厂部署的快速迭代速度;
- Fourier Intelligence:GR-1 机器人是少数实现大规模生产(1000 台)并销往世界各地的机器人之一;
- Clone:“西部世界”风格的仿生肌肉和肌腱设计,为人类如何实现提供了一个全新的视角。
还有许多其他企业如雨后春笋般涌现,数不胜数。
2)廉价机器人硬件的兴起:比汽车便宜、可扩展性强,在不久的将来大多数中产阶级都能负担得起。
- Unitree G1 人形机器人:售价约 4 万美元,重 77 磅,高 50 英寸。体型虽小,但敏捷性极强;
- Unitree B2-W:一款拥有四个轮子的机器狗,其机动性超越地球上大多数动物;
- ALOHA:非常便宜的开源斯坦福机器人,配有 2 个夹爪。可以远程操作,完成煎蛋或折叠衣物等复杂动作。
3)Apple Vision Pro:作为数据收集设备,它在机器人领域发挥着有趣的作用。它可以实时解析你的头部和手部姿势,并控制机器人模仿你的动作。
> 第 2 章 具身人工智能(机器人大脑)
这里有一些自我插入,因为这是我的主域;)
1) Tesla FSD v12:史上最大的物理 AI 数据飞轮,压缩成强大的光子动作神经网络。十年来自动驾驶问题的范式转变。
2)NVIDIA 启动 GR00T 项目,这是一项旨在为通用机器人打造 AI 大脑的登月计划。Jensen 走上 SAP 中心的舞台,背景中有 10 个人形机器人。
3)HOVER:我们的团队训练了一个 1.5M 的基础模型,该模型学习如何协调人形机器人的运动,捕捉我们的小脑每毫秒进行的“潜意识处理”。
4)DrEureka:我们的团队训练了一只机器狗,让它在瑜伽球上保持平衡并行走,这完全是在模拟中进行的,然后将零样本转移到真实硬件上。LLM 会自动编写奖励函数并调整参数,这样我们就可以一边看 Netflix 一边完成工作。
5)pi0,来自初创公司 Physical Intelligence:一种机器人视觉-语言-动作 (VLA) 模型,可执行令人印象深刻的多步骤任务,例如折叠衣物。使用 ALOHA 设置进行廉价的数据扩展。
6)OpenVLA:斯坦福大学关于开源 VLA 模型的研究,该模型在 Open X-Embodiment (OXE)数据集上进行训练,该数据集汇总了来自世界各地实验室的机器人运动轨迹。
> 第 3 章 计算硬件
1) 扩大规模:NVIDIA 推出了 Blackwell 架构,这是该领域的一个新猛兽。DGX GB200 在单个机架中实现了 1 Exaflop 的计算能力。
2) 缩小尺寸:Jetson Nano Super,售价 249 美元的迷你盒子可提供 67 TOPS 的 AI 计算能力,专为在机器人等边缘设备上运行小型 LLM 而设计。这是 NVIDIA 的树莓派时刻!
3) Google Willow Chip:量子计算机是多元宇宙的 GPU。5 分钟内解决了随机电路采样 (RCS),而普通计算机需要 10 的 10 次方年才能解决。
> 第 4 章 视频生成和世界建模
1)Sora:2 月宣布,震惊世界,最终于 12 月发布,由于等待时间过长而失去了一些魅力。这是同类产品中第一个高分辨率长视频生成产品。Sora 是一个文本调节的视觉世界软模拟。该模型通过一些去噪和梯度数学来学习复杂的渲染和直观的物理。
2)Veo:由于 OpenAI 推迟发布,谷歌凭借更精确的物理和细粒度的物体动力学上演了一场伟大的回归。
3)行动驱动的世界模型:
- GameNGen:是的,你可以在任何地方运行 DOOM,即使在扩散模型中也是如此;
- Oasis:是的,你可以在任何地方运行 Minecraft,即使在扩散模型中也是如此;
- GENIE-2:在扩散模型内使用操纵杆控制运行更多游戏。
4)World Labs(由李飞飞领导的初创公司):具有强几何一致性的生成式 3D 基础模型的精彩演示。
> 第 5 章 LLMs
>>能力边界
1) Claude Sonnet-3。 5:很少有人期待 Anthropic 的 1 号作品,但强大的 Sonnet 却超出了所有人的预期。
2) Gemini 1.5 pro,10M 上下文长度:使用 500 页教程、一本词典和 400 个并行示例,仅从上下文中学习将英语翻译成卡拉曼语(新几内亚的使用者不到 200 人)。学习是在快速神经激活中即时发生的,而不是缓慢的梯度下降。
3)o1(项目“Strawberry”):推广推理时间扩展并找到广泛部署的方法。正如 Sutton 在《苦涩的教训》中所说,只有两种技术可以无限扩展计算:学习和搜索。是时候将重点转移到后者了。
4)o3:强化学习的回归。给我一个奖励函数,我将改变世界。o3 的本质是放宽单点强化学习超级智能(例如 AlphaGo),以覆盖有用问题(例如数学和编码)空间中的更多点。
5)真正的 AGI 测试是完成以下序列:
4o -> o1 -> o3 -> (?)
>>人机界面是一个被严重低估的话题。LLM 能力范围远远领先于 UIUX 设计,可以充分发挥这种能力的潜力。
6)实时语音模型的兴起,例如 GPT-4o(高级语音模式)。它是传统三阶段流程的单阶段提炼:音频->文本(自动语音识别或“ASR”)、文本->响应(LLM)、响应->音频(文本转语音或“TTS”)。
7) NotebookLM:对大语言模型 (LLM) UX 的最佳重新构想之一:podcast-ify *anything *.降低进入门槛:无需提示,无需阅读。只需上传文件并聆听 2 个 token 流展开即可。
>>开源社区
8) llm.c:Andrej Karpathy 使用纯 C 语言处理 token。无需 Python、无需框架、无需依赖。只需原始数学与裸机对话。他用代码写诗。
9)Llama-3:GPT-4 的力量尽在你的掌中。
10) DeepSeek:今年 OSS LLM 最大的黑马。表明资源限制迫使你以惊人的方式重塑自我。
> 第 6 章 AI4Science
1)诺贝尔物理学奖:
今天,我们都是物理学家。人工智能博士——请阅读我的品牌重塑指南。机器学习现在是“统计力学”。你现在有资格获得最高奖项了。
Jim Fan大佬对于AI 的新年寄语↓(英文见评论)
再说一次人工智能,我们将永远结束 2024 年。这是一段狂野的旅程。这一年就像一个扩散模型——我们看着我们的科幻愿景逐渐降噪并实现。所以让我们庆祝一下——一行一行。你准备好了吗?
6 个章节:机器人硬件、具身人工智能(机器人大脑)、计算硬件、视频生成和世界建模、LLMs、AI4Science。
> 第 1 章 机器人硬件
我们是最后一代没有先进机器人的时代。以后所有移动的物体都将是自主智能的。
1)高端人形机器人的崛起:世界是为我们而建的。所有设施、器具和工具都是围绕我们的体型设计的。
- Tesla Optimus:很少有人形机器人公司有勇气在野外进行现场互动演示。Tesla 在“We, Robot”活动上做到了。第三代手,22 自由度,领先于对手;
- 1X Neo:友好的neighborhood人形机器人,旨在大规模部署在家庭中;
- 波士顿动力公司 e-Atlas:重量级冠军,360 度关节解锁一些疯狂的体操;
-Figure:从原型到车厂部署的快速迭代速度;
- Fourier Intelligence:GR-1 机器人是少数实现大规模生产(1000 台)并销往世界各地的机器人之一;
- Clone:“西部世界”风格的仿生肌肉和肌腱设计,为人类如何实现提供了一个全新的视角。
还有许多其他企业如雨后春笋般涌现,数不胜数。
2)廉价机器人硬件的兴起:比汽车便宜、可扩展性强,在不久的将来大多数中产阶级都能负担得起。
- Unitree G1 人形机器人:售价约 4 万美元,重 77 磅,高 50 英寸。体型虽小,但敏捷性极强;
- Unitree B2-W:一款拥有四个轮子的机器狗,其机动性超越地球上大多数动物;
- ALOHA:非常便宜的开源斯坦福机器人,配有 2 个夹爪。可以远程操作,完成煎蛋或折叠衣物等复杂动作。
3)Apple Vision Pro:作为数据收集设备,它在机器人领域发挥着有趣的作用。它可以实时解析你的头部和手部姿势,并控制机器人模仿你的动作。
> 第 2 章 具身人工智能(机器人大脑)
这里有一些自我插入,因为这是我的主域;)
1) Tesla FSD v12:史上最大的物理 AI 数据飞轮,压缩成强大的光子动作神经网络。十年来自动驾驶问题的范式转变。
2)NVIDIA 启动 GR00T 项目,这是一项旨在为通用机器人打造 AI 大脑的登月计划。Jensen 走上 SAP 中心的舞台,背景中有 10 个人形机器人。
3)HOVER:我们的团队训练了一个 1.5M 的基础模型,该模型学习如何协调人形机器人的运动,捕捉我们的小脑每毫秒进行的“潜意识处理”。
4)DrEureka:我们的团队训练了一只机器狗,让它在瑜伽球上保持平衡并行走,这完全是在模拟中进行的,然后将零样本转移到真实硬件上。LLM 会自动编写奖励函数并调整参数,这样我们就可以一边看 Netflix 一边完成工作。
5)pi0,来自初创公司 Physical Intelligence:一种机器人视觉-语言-动作 (VLA) 模型,可执行令人印象深刻的多步骤任务,例如折叠衣物。使用 ALOHA 设置进行廉价的数据扩展。
6)OpenVLA:斯坦福大学关于开源 VLA 模型的研究,该模型在 Open X-Embodiment (OXE)数据集上进行训练,该数据集汇总了来自世界各地实验室的机器人运动轨迹。
> 第 3 章 计算硬件
1) 扩大规模:NVIDIA 推出了 Blackwell 架构,这是该领域的一个新猛兽。DGX GB200 在单个机架中实现了 1 Exaflop 的计算能力。
2) 缩小尺寸:Jetson Nano Super,售价 249 美元的迷你盒子可提供 67 TOPS 的 AI 计算能力,专为在机器人等边缘设备上运行小型 LLM 而设计。这是 NVIDIA 的树莓派时刻!
3) Google Willow Chip:量子计算机是多元宇宙的 GPU。5 分钟内解决了随机电路采样 (RCS),而普通计算机需要 10 的 10 次方年才能解决。
> 第 4 章 视频生成和世界建模
1)Sora:2 月宣布,震惊世界,最终于 12 月发布,由于等待时间过长而失去了一些魅力。这是同类产品中第一个高分辨率长视频生成产品。Sora 是一个文本调节的视觉世界软模拟。该模型通过一些去噪和梯度数学来学习复杂的渲染和直观的物理。
2)Veo:由于 OpenAI 推迟发布,谷歌凭借更精确的物理和细粒度的物体动力学上演了一场伟大的回归。
3)行动驱动的世界模型:
- GameNGen:是的,你可以在任何地方运行 DOOM,即使在扩散模型中也是如此;
- Oasis:是的,你可以在任何地方运行 Minecraft,即使在扩散模型中也是如此;
- GENIE-2:在扩散模型内使用操纵杆控制运行更多游戏。
4)World Labs(由李飞飞领导的初创公司):具有强几何一致性的生成式 3D 基础模型的精彩演示。
> 第 5 章 LLMs
>>能力边界
1) Claude Sonnet-3。 5:很少有人期待 Anthropic 的 1 号作品,但强大的 Sonnet 却超出了所有人的预期。
2) Gemini 1.5 pro,10M 上下文长度:使用 500 页教程、一本词典和 400 个并行示例,仅从上下文中学习将英语翻译成卡拉曼语(新几内亚的使用者不到 200 人)。学习是在快速神经激活中即时发生的,而不是缓慢的梯度下降。
3)o1(项目“Strawberry”):推广推理时间扩展并找到广泛部署的方法。正如 Sutton 在《苦涩的教训》中所说,只有两种技术可以无限扩展计算:学习和搜索。是时候将重点转移到后者了。
4)o3:强化学习的回归。给我一个奖励函数,我将改变世界。o3 的本质是放宽单点强化学习超级智能(例如 AlphaGo),以覆盖有用问题(例如数学和编码)空间中的更多点。
5)真正的 AGI 测试是完成以下序列:
4o -> o1 -> o3 -> (?)
>>人机界面是一个被严重低估的话题。LLM 能力范围远远领先于 UIUX 设计,可以充分发挥这种能力的潜力。
6)实时语音模型的兴起,例如 GPT-4o(高级语音模式)。它是传统三阶段流程的单阶段提炼:音频->文本(自动语音识别或“ASR”)、文本->响应(LLM)、响应->音频(文本转语音或“TTS”)。
7) NotebookLM:对大语言模型 (LLM) UX 的最佳重新构想之一:podcast-ify *anything *.降低进入门槛:无需提示,无需阅读。只需上传文件并聆听 2 个 token 流展开即可。
>>开源社区
8) llm.c:Andrej Karpathy 使用纯 C 语言处理 token。无需 Python、无需框架、无需依赖。只需原始数学与裸机对话。他用代码写诗。
9)Llama-3:GPT-4 的力量尽在你的掌中。
10) DeepSeek:今年 OSS LLM 最大的黑马。表明资源限制迫使你以惊人的方式重塑自我。
> 第 6 章 AI4Science
1)诺贝尔物理学奖:
今天,我们都是物理学家。人工智能博士——请阅读我的品牌重塑指南。机器学习现在是“统计力学”。你现在有资格获得最高奖项了。