写这篇报道之前,我的标题本是这样的——「一天内,多个连炸」。但是,当我越搜集信息,越是发现有些离谱。这个圈子在过去的一周,节奏有些
让人窒息
,接二连三重磅甩雷——Introducing......这个词在我的眼前出现了不下10次。
一天完全不足以Cover到我想要传达内容的全貌,我已经迫不及待的要把这些好东西分享给大家了!
目标首先转向
Figure机器人
,在上周发布了世界首创的视觉、语言、动作三合一(VLA)模型Helix之后。他们紧接着在2月26日发布了一段
应用视频
——
介绍搭载Helix AI的Figure02机器人在现实世界中的新应用:
物流包裹操作和分拣。
之前给大家介绍了,Figure的目标是把人形机器人真正带到工作场所里去干活。
通过物流仓库的包裹搬运、分拣场景的任务,Figure对机器人做了“大脑升级”和“眼睛升级”
。这次的技术进步,主要集中在提升 Helix 的 “System 1 (S1)”,也就是控制机器人 “低级别运动” 的部分。这部分升级,可以理解为重点提升了机器人的 “眼睛” 和 “小脑” 功能。
要让机器人学会这些技能,不用喂给它海量的数据,只需要给它看8个小时高质量的“演示视频”就行了!
就是说,教机器人变得灵巧和灵活,关键在于“老师”教的好(数据质量高),而不是“学”的时间长(数据量大)。
训练机器人更高效!
这些进步让 Figure 的机器人更接近于具备 “人类水平” 的操作能力,在仓库和物流这种复杂的真实世界场景中,人形机器人变得更加实用和高效,也为未来人形机器人在更多行业落地应用,打下了更坚实的技术基础。
未来,我们可能会看到更多的人形机器人在仓库、工厂甚至更多地方 “上班” 啦!
在此之前一天,
杭州宇树机器人发布了一段有趣的视频
,Unitree G1机器人正在有模有样的
表演功夫动作——其表示他们
持续升级了Unitree G1的算法,使其能够学习并执行几乎任何动作。
目光再对准OpenAI
,他们在今天早些时候发布了——
他们迄今为止最大、最强的聊天模型:GPT-4.5预览版
。目前仅对部分高级用户使用。
OpenAI CEO山姆奥特曼表示:这是我认为第一次像与一个深思熟虑的人交谈一样的模型。我有几次坐在椅子上,惊讶于AI给出的真正好的建议。
坏消息是:OpenAI居然遭遇了GPU短缺!——
GPT 4.5
是一个巨大的、昂贵的模型。
我们本来希望能够同时向Plus和Pro用户推出,但我们增长很快,GPU资源不够了。下周我们将增加数万块GPU,然后向Plus层推出。
他还表示:这不是一个推理模型,在基准测试上跑分可能跑不过别人最牛的模型。
但是它是一种
不同类型的智能,拥有一种我从未体验过的魔力。
真的很期待大家来试试!(PS:免费的用户先别想了)
视线再转向马斯克的Grok-3,
该应用和最先进的模型是马斯克当下的关注重点。他本人的X头像已经换成了Grok,对Grok登顶AppStore免费应用排行榜表示非常开心。在上周Grok-3向所有用户免费开放可用之后,
本周的重头戏是——Grok的语音对话模式也对所有免费用户开放了。
笔者亲自尝试了Grok的语音对话,要开启它,需要升级Grok iOS独立程序的最新版,
在进入APP的一瞬间拼手速点击进入语音模式(估计只出现2秒就消失)
。与ChatGPT和Gemini最大的不同,也是
最大的亮点
的就是——它能开启18🈲的几乎无审查的语音狂暴模式。开口就是Fucking......各种口吐芬芳,英语世界的精粹在
Unhinged模式
下表现得淋漓尽致。有时候跟他们聊聊天还挺解压。
我们目光再聚焦到
开源世界。
Deepseek这一周五天没有歇着。
像苹果去年底的发布会那样,一天放一个彩蛋。Deepseek称之为开源周。笔者尝试用最简洁易懂的语言,
把这五天五大开源主题的关键内容为大家呈现:
🔵开源周第五天:Fire-Flyer File System (3FS)
简单来说,它是一个“超级快递系统”,能让数据在现代硬件上飞快地传输和访问,特别适合需要处理海量数据的工作,比如深度学习模型的训练和推理 🚀。什么是3FS?想象你有一个巨大的图书馆(数据存储),里面有很多书(数据),你需要快速找到并借阅这些书给一群研究人员(AI模型)。普通的图书馆借书系统可能会很慢,因为一次只能处理几本书,而且传送带(网络)也不够快。
而3FS就像一个超级智能图书馆,它能同时处理成千上万本书,传送带用的是现代最快的技术(SSD硬盘和RDMA网络),而且还能保证每本书都准确无误地送到(强一致性)。
3FS是一个为AI量身打造的高速存储“加速器”,利用现代硬件的全部潜力,让数据访问快到飞起。它是DeepSeek开源周Day 5的亮点,特别适合需要处理大数据的研究者或开发者。
🔵开源周第四天:
优化并行策略
这是一种优化深度学习模型训练的技术,简单来说,它是为了让大规模模型(比如V3/R1)的训练变得更快、更高效 🚀。我们知道,训练深度学习模型需要大量计算资源和时间,尤其当模型很大时,单靠一台设备往往忙不过来。所以,研究者们会用
并行计算
,把任务分给多个处理器或GPU一起干活,就像召集了一群帮手来加速工作。
但并行计算也有“坑”:通信瓶颈——这些“帮手”需要互相传递数据(比如模型的参数或中间结果),传递数据的这段时间可能会拖慢整体进度。负载不均衡——有的帮手忙得要死,有的却没事干,整体效率就上不来。为了解决这些问题,这项技术带来了两个“神器”:
①DualPipe - 双向流水线并行算法
通俗解读:想象一个工厂流水线,工人在等待零件时可以先干点别的准备工作,而不是干等着。DualPipe就是让计算和通信“重叠”进行:一边算着数据,一边传着数据。这样就减少了等待时间,让训练过程更流畅。它特别适用于V3/R1这种大规模训练场景。
②EPLB - 专家并行负载均衡器
通俗解读:假设你有一群专家在分工合作,但有人任务太多累趴下了,有人却闲着没事干。EPLB就像一个聪明的“项目经理”,它会把任务合理分配给每个专家,确保大家工作量差不多,这样整体效率就提高了。
这项技术通过
DualPipe
(让计算和通信同时进行)和
EPLB
(让每个“帮手”干活更均衡),解决了并行训练中的通信瓶颈和负载不均问题,最终让大规模深度学习模型的训练变得更快、更省力。它是 #OpenSourceWeek Day 4 的亮点。
🔵开源周第三天:
DeepGEMM
DeepGEMM 是一个超级高效的工具,专门用来加速AI模型的核心计算——矩阵乘法(GEMM)。矩阵乘法是大模型训练和推理(比如生成文本或图片)的“心脏”,但它特别吃计算资源。DeepGEMM 用了一种叫 FP8 的低精度格式(8位浮点数),让计算更快、占内存更少,同时还能支持两种模型结构:①
Dense GEMM
:普通矩阵乘法,适合传统深度学习模型;②
MoE GEMM
:
混合专家模型(Mixture of Experts)的专用矩阵乘法,这种模型在像DeepSeek V3/R1这样的大模型中很常见,能提高效率。