最近,一位哈佛教授痛心疾首地爆料:
美国差点就能拥有 DeepSeek ,
却因为放走关键人才,
让 “钱学森回国” 的故事在 AI 界重演。
今天咱们就来深挖一下背后的故事。
故事的主角之一,
是 DeepSeek 多模态团队的核心工程师潘梓正。
他原本在英伟达实习,
表现相当亮眼,
英伟达也有意给他全职 offer 。
可最后,他却毅然决然地选择回国,
加入当时规模还不算大的 DeepSeek 。
这一决定直接改变了全球 AI 的竞争格局。
潘梓正加入后,
在 DeepSeek 参与了多个关键项目,
像 DeepSeek - VL2、
DeepSeek - V3 和 DeepSeek - R1 等,
为 DeepSeek 的崛起立下汗马功劳。
如今,DeepSeek 的发展势头势不可挡,
哈佛教授 Graham Allison ,
更是直接将潘梓正的回国,
提升到了钱学森归国的高度,
直言美国必须重视吸引和留住人才,
不然在中美科技竞争中会越来越被动。
英伟达的高级研究科学家禹之鼎也感慨,
很多优秀人才来自中国,
他们在本土也能创造非凡成就。
大家肯定好奇,
DeepSeek 为啥能在短时间内取得这么大突破?
这里面藏着不少技术 “干货”。
首先是它采用的 MoE(混合专家模型)架构,
数据能嵌入更大参数空间,
训练和推理时还能只激活部分参数,
效率直线上涨。
DeepSeek R1
模型参数超 6000 亿个,
但每次推理时仅激活约 370 亿个参数。
相比之下,Llama 405B 虽有 4050 亿参数,
每次推理却要激活几乎全部参数,
表现却不如R1,
高下立判。
还有 MLA(多头潜注意力)机制,
它能大幅减少推理和训练过程中的内存占用,
利用巧妙的低秩近似数学技巧,
让模型运行更流畅。
而且,DeepSeek 连 GPU 通信,
都不直接调用 NVIDIA 的 NCCL 库,
而通过精细控制 GPU 的 SM 核心,
在计算和通信间灵活切换。
说到这,
不得不提 OpenAI 和 DeepSeek 的 “恩怨情仇”。
OpenAI 指责 DeepSeek 用了自创的模型蒸馏,
《金融时报》也为此“愤愤不平”。
但 Lex Fridman 等大佬一针见血地指出,
OpenAI 自己也常在未经许可下用互联网数据训练,
这就是在转移话题。
而且,在性能实测环节,
DeepSeek R1 表现相当亮眼。
和 OpenAI o3 等模型相比,
在数学、代码等多个领域的测评中,
DeepSeek R1 成绩突出,
推理成本还低到超乎想象,
比不少竞品便宜太多。
如今,全球 AI 竞赛进入白热化阶段。
谷歌凭借基础设施优势领跑,
OpenAI 在商业化方面一马当先,
微软已在 AI 领域盈利,
而 DeepSeek 异军突起,
搅乱了原本的竞争格局。
谁能在这场没有硝烟的战争中最终胜出,
夺得 AGI 竞赛的桂冠?
中国还是美国?
谁会在这第四次工业革命里脱颖而出?
让我们拭目以待。
最后欢迎关注我每周末的
直播连线活动。
往期已为大家免费连麦答疑解惑很多期:
大专生直升海外名校硕士?免学费的欧陆也了解一下【直播连麦咨询44】
全奖读博之北美篇:本科直博还是先读研提升?【直播连麦咨询43】
全奖读博之亚洲篇:香港新加坡日韩中东【直播连麦咨询42】
也邀请我全球的朋友朋友来我的直播间做客:
【移民人生01】小镇做题家的十五年奋斗史—从农家子弟到德国医生【直播连麦咨询28】
【移民人生02】 “天坑”专业顺势而为:加州材料学博士分享上海“做题家”的美国移民躺平之路
访谈德国全职普外护士马静雅:跨越国境--从小镇中专生到世界名校【移民人生03】
【教职人生05】学术界&工业界游走:访谈港中文商学院教授、快手顾问数据科学家张任宇
创业失败后留学新加坡,南科大助理教授的留学与教职之路【教职人生02】录播
用视频访谈的形式分享他们的经历。
自从1年多前开启直播以来,
我每周六早晨7点、每周日晚上7点几乎雷打不动坚持至今。
欢迎大家持续关注。