专栏名称: 北美留学生观察

中国最大的独立留学新媒体，集杂志、网站、app于一身的国际教育新媒体平台。讲述留学生自己的故事，分享有趣而真实的留学生活，发布客观真实的留学资讯，中立、真实、有味道！官方网站：www.CollegeDaily.cn

英伟达放走DeepSeek关键人才，一周蒸发4万亿！哈佛教授痛心直呼那可是AI届「钱学森」！

北美留学生观察 · 公众号 · 留学 · 2025-02-11 21:45

正文

春节期间，有一个狠角色热度悄悄盖过了春晚，跑赢了哪吒！没错，它就是 DeepSeek！

过个节， DeepSeek日活数超豆包登顶中国No.1，超ChatGPT成全球增长最快AI应用， 总下载都破4000万！这势头，连实习生都要月薪过万了！

deepseek部分在招职位，图源网络

于是，政治学家、哈佛大学教授、前国防计划助理部长Graham Allison直接在社交平台爆料： DeepSeek多模态团队的第4位工程师，做出DeepSeek关键贡献人才，本来可以拿到英伟达的全职offer！

这位教授在X上痛心疾首大呼： “到底是谁错失了DeepSeek？”

图源网络

英伟达：虽然是我，但是我也很亏...AI领主身份不稳不说， 还凭空蒸发公司市值上万亿！ 快上呼吸机…

钱学森2.0放弃英伟达offer回国

英伟达研究员感慨中国优秀人才

这位让美国错失的人才叫 潘梓正 ，是DeepSeek多模态团队的滴4位多工程师，在开发DeepSeek的R1模型方面发挥了重要作用。

他的履历也十分靓丽， 21年就读 蒙纳士 大学 ZIP Lab 攻读计算机科学博士，导师是Bohan Zhuang教授和Jianfei Cai教授。在此之前，他分别获得 阿德莱德大学（University of Adelaide）计算机科学硕士和哈尔滨工业大学（威海）软件工程学士学位 。

潘梓正，图源网络

博士期间，他就展现出了对 深度神经网络效率 的浓厚兴趣和卓越见解。他聚焦于 模型部署、Transformer 架构优化、注意力机制、推理加速和内存高效训练等关键领域 ，其研究成果在学术界和工业界都引起了广泛关注。

好富还了解到，其实在23年潘梓正就去了 英伟达AI算法组实习了4个月 ，还收到了全职offer 。结果谁都想不到他没去英伟达，而是去了当时 仅有3个人的DeepSeek多模态团队 。

潘梓正是DeepSeek-VL2的共同一作，图源网络

结果一不小心，DeepSeek就爆火超越ChatGPT登顶App Store了。而且美国股市都遭受到了 “DeepSeek冲击” ，作为全球AI芯片龙头的英伟达总市值，更是在 一周内累计缩水5520亿美元（约合人民币4万亿元）。

英伟达的高级研究科学家禹之鼎还发文感慨了一下。

大概意思就是说，潘梓正放弃offer加入 DeepSeek他印象深刻。但也说明 很多最优秀的人才都来自中国， 而这些人才并不一定只能在美国公司取得成功。 如果他们继续编织地缘 政治议程，制造对中国研究人员的敌对情绪，只会自毁前程，失去更多的竞争力。

图源网络

这番话简直说到了那位爆料的哈佛教授心坎里去了，Graham Allison太看不得这种 人才流失 了，甚至 从潘梓正聊到了钱学森归国 ，直接表示：在中美科技竞争里，美国应该尽一切努力 避免失去更多的钱学森和潘梓正这样的人才 。

图源网络

既然哈佛教授都这样说了，那还不赶快多在中国招招生，这样不管是潘梓正2.0还是钱学森3.0，不都到你手中了（勾引脸.JPG)。

OpenAI碰瓷DeepSeek模型？

DeepSeek公开成本低价原因

DeepSeek夺得眼球让 OpenAI 可坐不住了， 公开表示DeepSeek用了自家的蒸馏模型。

那到底用没用？

LeX Fridman看热闹不嫌事大，邀请了 AI2的模型训练专家Nathan Lambert和Semianalysis硬件专家Dylan Patel ，做了一个长达5小时的播客讨论这些事。

图源网络

Lex Fridman表示：他们和大多数公司一样，本来就是在未经许可的情况下，使用互联网上的数据进行训练，并从中受益的。

大佬们一致认为， OpenAI声称DeepSeek用其模型训练，就是在试图转移话题、让自己独赢 。

而且，过去几天还有很多人把DeepSeek的模型蒸馏到Llama中，因前者在推理上运行很复杂，而Llama很容易提供服务，这违法吗？

不过后来 OpenAI公司首席执行官萨姆·奥特曼（Sam Altman）也坦诚，公司在开源问题上站在“历史的错误一方” 。

奥特曼还表示DeepSeek正在推动OpenAI公司更多地揭示其推理模型的“思考过程”，之前由于 担忧竞争对手抓取数据用于训练自己的模型，OpenAI故意隐藏了模型的推理过程 。与之相比， DeepSeek的R1模型展示了完整的思维链。

当然几位大佬还讨论了其它问题，比如DeepSeek怎么这么便宜？

要知道DeepSeek的R1模型在技术上实现了重要突破—— 用纯深度学习方法让AI自发涌现出推理能力，在数学、代码、自然语言推理等任务上 ，性能比肩OpenAI的o1模型正式版。

Dylan Patel表示，那是因为DeepSeek的训练成本和推理成本都很低，且 训练成本仅有560万美元 ，远低于美国科技巨头的数亿美元乃至数十亿美元投入。

而DeepSeek的成本涉及两项关键的技术： 一个是MoE，一个就是MLA（多头潜注意力 ）。

用MoE架构让大模型学会“分组办公”——平时 只激活3%的脑细胞（370亿参数） 干活，效率吊打传统模型的全员加班模式 （Llama要激活4050亿参数） 。

MLA技术把 注意力机制内存砍 掉80-90% ，长文本处理稳如老狗。配合自研的 “GPU交 通管制” 系统，精准调度每个芯片的运算和通信， 比直接调用英伟达库节省30%算力！

而且，DeepSeek和OpenAI的服务成本有巨大差异，部分原因是 OpenAI的利润率非常高，推理的毛利率超过了75% 。因为OpenAI目前是亏损的，在训练上花费了太多，因此推理的利润率很高。

于是几位大佬纷纷猜测， 这是不是DeepSeek精心策划的定价，直接做空英伟达和美国股票……

Dylan Patel无语并大佬式摊手，他们只是赶在农历新年前把产品尽快发布而已， 并没有没有打算搞个大的 ，否则为什么选在圣诞节后一天发布V3呢？

总而言之， DeepSeek的创新不仅推动了AI模型的普及，也为AI基建产业链的各个环节带来了新的机遇与挑战。从DeepSeek的人才之战也可以看出，随着AI技术的不断进步， AI基础设施的建设将成为全球科技行业的核心驱动力之一。

如果你也对人工智能等领域感兴趣，想提高申请效率，斩获梦校offer！不要犹豫，报名盐趣课程绝对是最正确的、性价比最高的选择，心动不如行动起来！ 来盐趣！跟随TOP30大牛导师做科研，发论文，拿推荐信，绝对是上岸名校性价比最高的途径。

顶级名校教授的优质科研课题

英伟达放走DeepSeek关键人才，一周蒸发4万亿！哈佛教授痛心直呼那可是AI届「钱学森」！

正文

请到「今天看啥」查看全文