专栏名称: 数字化企业
e-works(数字化企业网)是我国领先、全球知名的智能制造专业媒体、咨询培训与研究机构,由著名制造业专家、中国机械工程学会理事长李培根院士创立。本号专注于智能制造、工业互联网、数字化转型干货知识传播。
51好读  ›  专栏  ›  数字化企业

过去一周,AI圈狂轰滥炸...

数字化企业  · 公众号  ·  · 2025-02-28 15:06

正文





写这篇报道之前,我的标题本是这样的——「一天内,多个连炸」。但是,当我越搜集信息,越是发现有些离谱。这个圈子在过去的一周,节奏有些 让人窒息 ,接二连三重磅甩雷——Introducing......这个词在我的眼前出现了不下10次。
- 文章信息 -


本文由e-works祖哥综合报道。



一天完全不足以Cover到我想要传达内容的全貌,我已经迫不及待的要把这些好东西分享给大家了!


目标首先转向 Figure机器人 ,在上周发布了世界首创的视觉、语言、动作三合一(VLA)模型Helix之后。他们紧接着在2月26日发布了一段 应用视频 —— 介绍搭载Helix AI的Figure02机器人在现实世界中的新应用: 物流包裹操作和分拣。



之前给大家介绍了,Figure的目标是把人形机器人真正带到工作场所里去干活。 通过物流仓库的包裹搬运、分拣场景的任务,Figure对机器人做了“大脑升级”和“眼睛升级” 。这次的技术进步,主要集中在提升 Helix 的 “System 1 (S1)”,也就是控制机器人 “低级别运动” 的部分。这部分升级,可以理解为重点提升了机器人的 “眼睛” 和 “小脑” 功能。



要让机器人学会这些技能,不用喂给它海量的数据,只需要给它看8个小时高质量的“演示视频”就行了! 就是说,教机器人变得灵巧和灵活,关键在于“老师”教的好(数据质量高),而不是“学”的时间长(数据量大)。 训练机器人更高效!


这些进步让 Figure 的机器人更接近于具备 “人类水平” 的操作能力,在仓库和物流这种复杂的真实世界场景中,人形机器人变得更加实用和高效,也为未来人形机器人在更多行业落地应用,打下了更坚实的技术基础。 未来,我们可能会看到更多的人形机器人在仓库、工厂甚至更多地方 “上班”  啦!



在此之前一天, 杭州宇树机器人发布了一段有趣的视频 ,Unitree G1机器人正在有模有样的 表演功夫动作——其表示他们 持续升级了Unitree G1的算法,使其能够学习并执行几乎任何动作。



目光再对准OpenAI ,他们在今天早些时候发布了—— 他们迄今为止最大、最强的聊天模型:GPT-4.5预览版 。目前仅对部分高级用户使用。



OpenAI CEO山姆奥特曼表示:这是我认为第一次像与一个深思熟虑的人交谈一样的模型。我有几次坐在椅子上,惊讶于AI给出的真正好的建议。 坏消息是:OpenAI居然遭遇了GPU短缺!—— GPT 4.5 是一个巨大的、昂贵的模型。 我们本来希望能够同时向Plus和Pro用户推出,但我们增长很快,GPU资源不够了。下周我们将增加数万块GPU,然后向Plus层推出。


他还表示:这不是一个推理模型,在基准测试上跑分可能跑不过别人最牛的模型。 但是它是一种 不同类型的智能,拥有一种我从未体验过的魔力。 真的很期待大家来试试!(PS:免费的用户先别想了)



视线再转向马斯克的Grok-3, 该应用和最先进的模型是马斯克当下的关注重点。他本人的X头像已经换成了Grok,对Grok登顶AppStore免费应用排行榜表示非常开心。在上周Grok-3向所有用户免费开放可用之后, 本周的重头戏是——Grok的语音对话模式也对所有免费用户开放了。



笔者亲自尝试了Grok的语音对话,要开启它,需要升级Grok iOS独立程序的最新版, 在进入APP的一瞬间拼手速点击进入语音模式(估计只出现2秒就消失) 。与ChatGPT和Gemini最大的不同,也是 最大的亮点 的就是——它能开启18🈲的几乎无审查的语音狂暴模式。开口就是Fucking......各种口吐芬芳,英语世界的精粹在 Unhinged模式 下表现得淋漓尽致。有时候跟他们聊聊天还挺解压。



我们目光再聚焦到 开源世界。


Deepseek这一周五天没有歇着。 像苹果去年底的发布会那样,一天放一个彩蛋。Deepseek称之为开源周。笔者尝试用最简洁易懂的语言, 把这五天五大开源主题的关键内容为大家呈现:



🔵开源周第五天:Fire-Flyer File System (3FS)

简单来说,它是一个“超级快递系统”,能让数据在现代硬件上飞快地传输和访问,特别适合需要处理海量数据的工作,比如深度学习模型的训练和推理 🚀。什么是3FS?想象你有一个巨大的图书馆(数据存储),里面有很多书(数据),你需要快速找到并借阅这些书给一群研究人员(AI模型)。普通的图书馆借书系统可能会很慢,因为一次只能处理几本书,而且传送带(网络)也不够快。


而3FS就像一个超级智能图书馆,它能同时处理成千上万本书,传送带用的是现代最快的技术(SSD硬盘和RDMA网络),而且还能保证每本书都准确无误地送到(强一致性)。 3FS是一个为AI量身打造的高速存储“加速器”,利用现代硬件的全部潜力,让数据访问快到飞起。它是DeepSeek开源周Day 5的亮点,特别适合需要处理大数据的研究者或开发者。



🔵开源周第四天: 优化并行策略

这是一种优化深度学习模型训练的技术,简单来说,它是为了让大规模模型(比如V3/R1)的训练变得更快、更高效 🚀。我们知道,训练深度学习模型需要大量计算资源和时间,尤其当模型很大时,单靠一台设备往往忙不过来。所以,研究者们会用 并行计算 ,把任务分给多个处理器或GPU一起干活,就像召集了一群帮手来加速工作。


但并行计算也有“坑”:通信瓶颈——这些“帮手”需要互相传递数据(比如模型的参数或中间结果),传递数据的这段时间可能会拖慢整体进度。负载不均衡——有的帮手忙得要死,有的却没事干,整体效率就上不来。为了解决这些问题,这项技术带来了两个“神器”:


①DualPipe - 双向流水线并行算法

通俗解读:想象一个工厂流水线,工人在等待零件时可以先干点别的准备工作,而不是干等着。DualPipe就是让计算和通信“重叠”进行:一边算着数据,一边传着数据。这样就减少了等待时间,让训练过程更流畅。它特别适用于V3/R1这种大规模训练场景。


②EPLB - 专家并行负载均衡器

通俗解读:假设你有一群专家在分工合作,但有人任务太多累趴下了,有人却闲着没事干。EPLB就像一个聪明的“项目经理”,它会把任务合理分配给每个专家,确保大家工作量差不多,这样整体效率就提高了。


这项技术通过 DualPipe (让计算和通信同时进行)和 EPLB (让每个“帮手”干活更均衡),解决了并行训练中的通信瓶颈和负载不均问题,最终让大规模深度学习模型的训练变得更快、更省力。它是 #OpenSourceWeek Day 4 的亮点。



🔵开源周第三天: DeepGEMM

DeepGEMM 是一个超级高效的工具,专门用来加速AI模型的核心计算——矩阵乘法(GEMM)。矩阵乘法是大模型训练和推理(比如生成文本或图片)的“心脏”,但它特别吃计算资源。DeepGEMM 用了一种叫 FP8 的低精度格式(8位浮点数),让计算更快、占内存更少,同时还能支持两种模型结构:① Dense GEMM :普通矩阵乘法,适合传统深度学习模型;② MoE GEMM 混合专家模型(Mixture of Experts)的专用矩阵乘法,这种模型在像DeepSeek V3/R1这样的大模型中很常见,能提高效率。







请到「今天看啥」查看全文