专栏名称: 北美留学生观察
中国最大的独立留学新媒体,集杂志、网站、app于一身的国际教育新媒体平台。讲述留学生自己的故事,分享有趣而真实的留学生活,发布客观真实的留学资讯,中立、真实、有味道!官方网站:www.CollegeDaily.cn
目录
相关文章推荐
北美留学生观察  ·  突发!美国国会将对奖学金征税,并大幅提高捐赠税 ·  14 小时前  
北美留学生观察  ·  20%名校学生含泪辍学!「断供潮」席卷到英美 ... ·  昨天  
北美留学生观察  ·  花费百万出国留学是否值得?DeepSeek的 ... ·  昨天  
移民(微博搜索)  ·  移民(微博搜索)-20250210-1 ·  2 天前  
移民(微博搜索)  ·  移民(微博搜索)-20250210-1 ·  2 天前  
移民(微博搜索)  ·  移民(微博搜索)-20250210-1 ·  2 天前  
51好读  ›  专栏  ›  北美留学生观察

英伟达放走DeepSeek关键人才,一周蒸发4万亿!哈佛教授痛心直呼那可是AI届「钱学森」!

北美留学生观察  · 公众号  · 留学  · 2025-02-11 21:45

正文

图片 图片

春节期间,有一个狠角色热度悄悄盖过了春晚,跑赢了哪吒!没错,它 就是 DeepSeek!

过个节, DeepSeek日活数超豆包登顶中国No.1,超ChatGPT成全球增长最快AI应用, 下载都破4000万!这势头,连实习生都要月薪过万了!

deepseek部分在招职位,图源网络

于是, 政治学家、哈佛大学教授、前国防计划助理部长Graham Allison直接在社交平台爆料: DeepSeek多模态团队的第4位工程师,做出DeepSeek关键贡献人才,本来可以拿到英伟达的全职offer!

这位教授在X上痛心疾首大呼: “到底是谁错失了DeepSeek?”

源网络

英伟达:虽然是我,但是我也很亏...AI领主身份不稳不说, 还凭空蒸发公司市值上万亿! 快上呼吸机…

钱学森2.0放弃英伟达offer回国

英伟达研究员感慨中国优秀人才


这位让美国错失的人才叫 潘梓正 ,是DeepSeek多模态团队的滴4位多工程师,在开发DeepSeek的R1模型方面发挥了重要作用。

他的履历也十分靓丽, 21年就读 蒙纳士 大学 ZIP Lab 攻读计算机科学博士,导师是Bohan Zhuang教授和Jianfei Cai教授。 在此之前,他分别获得 阿德莱德大学(University of Adelaide)计算机科学硕士和哈尔滨工业大学(威海)软件工程学士学位

潘梓正,图 源网络

博士期间,他就展现出了对 深度神经网络效率 的浓厚兴趣和卓越见解。他聚焦于 模型部署、Transformer 架构优化、注意力机制、推理加速和内存高效训练等关键领域 ,其研究成果在学术界和工业界都引起了广泛关注。

好富还了解到,其实在23年 潘梓正就去了 英伟达AI算法组实习了4个月 还收到了全职offer 结果谁都想不到他没去英伟达 ,而是 去了当时 仅有3个人的DeepSeek多模态团队

潘梓正是DeepSeek-VL2的共同一作,图 源网络

结果一不小心,DeepSeek就爆火超越ChatGPT登顶App Store了。而且美国股市都遭受到了 “DeepSeek冲击” ,作为全球AI芯片龙头的英伟达总市值,更是在 一周内累计缩水5520亿美元(约合人民币4万亿元)。

英伟达的高级研究科学家禹之鼎还发文感慨了 一下。

大概意思就是说, 潘梓正放弃offer加入 DeepSeek他 印象深刻 但也说明 很多最优秀的人才都来自中国, 而这些人才并不一定只能在美国公司取得成功。 如果他们继续编织地缘 政治议程,制造对中国研究人员的敌对情绪,只会自毁前程,失去更多的竞争力。

源网络

这番话简直说到了那位爆料的哈佛教授心坎里去了,Graham Allison太看不得这种 人才流失 了,甚至 从潘梓正聊到了钱学森归国 ,直接表示:在中美科技竞争里,美国应该尽一切努力 避免失去更多的钱学森和潘梓正这样的人才

源网络

既然哈佛教授都这样说了,那还不赶快多在中国招招生,这样不管是潘梓正2.0还是钱学森3.0,不都到你手中了(勾引脸.JPG)。

OpenAI碰瓷DeepSeek模型?
DeepSeek公开成本低价原因

DeepSeek夺得眼球让 OpenAI 可坐不住了, 公开表示DeepSeek用了自家的蒸馏模型。
那到底用没用?
LeX Fridman看热闹不嫌事大,邀请了 AI2的模型训练专家Nathan Lambert和Semianalysis硬件专家Dylan Patel ,做了一个长达5小时的播客讨论这些事。
源网络

Lex Fridman表示:他们和大多数公司一样,本来就是在未经许可的情况下,使用互联网上的数据进行训练,并从中受益的。

大佬们一致认为, OpenAI声称DeepSeek用其模型训练,就是在试图转移话题、让自己独赢

而且,过去几天还有很多人把DeepSeek的模型蒸馏到Llama中,因前者在推理上运行很复杂,而Llama很容易提供服务,这违法吗?

不过后来 OpenAI公司首席执行官萨姆·奥特曼(Sam Altman)也坦诚,公司在开源问题上站在“历史的错误一方”

奥特曼还表示DeepSeek正在推动OpenAI公司更多地揭示其推理模型的“思考过程”,之前由于 担忧竞争对手抓取数据用于训练自己的模型,OpenAI故意隐藏了模型的推理过程 。与之相比, DeepSeek的R1模型展示了完整的思维链。

当然几位大佬还讨论了其它问题,比如DeepSeek怎么这么便宜?

要知道DeepSeek的R1模型在技术上实现了重要突破—— 用纯深度学习方法让AI自发涌现出推理能力,在数学、代码、自然语言推理等任务上 ,性能比肩OpenAI的o1模型正式版。

Dylan Patel表示,那是因为DeepSeek的训练成本和推理成本都很低,且 训练成本仅有560万美元 ,远低于美国科技巨头的数亿美元乃至数十亿美元投入。

而DeepSeek的成本涉及两项关键的技术: 一个是MoE,一个就是MLA(多头潜注意力 )。

用MoE架构让大模型学会“分组办公”——平时 只激活3%的脑细胞(370亿参数) 干活,效率吊打传统模型的全员加班模式 (Llama要激活4050亿参数)

MLA技术把 注意力机制内存砍 掉80-90% ,长文本处理稳如老狗。配合自研的 “GPU交 通管制” 系统,精准调度每个芯片的运算和通信, 比直接调用英伟达库节省30%算力!

而且,DeepSeek和OpenAI的服务成本有巨大差异,部分原因是 OpenAI的利润率非常高,推理的毛利率超过了75% 。因为OpenAI目前是亏损的,在训练上花费了太多,因此推理的利润率很高。

于是几位大佬纷纷猜测, 这是不是DeepSeek精心策划的定价,直接做空英伟达和美国股票……

Dylan Patel无语并大佬式摊手,他们只是赶在农历新年前把产品尽快发布而已, 并没有没有打算搞个大的 ,否则为什么选在圣诞节后一天发布V3呢?

总而言之, DeepSeek的创新不仅推动了AI模型的普及,也为AI基建产业链的各个环节带来了新的机遇与挑战。 从DeepSeek的人才之战也可以看出 随着AI技术的不断进步, AI基础设施的建设将成为全球科技行业的核心驱动力之一。

如果你也对人工智能等领域感兴趣 ,想提高申请效率,斩获梦校offer!不要犹豫,报名盐趣课程绝对是最正确的、性价比最高的选择,心动不如行动起 来! 来盐趣!跟随TOP30大牛导师做科研,发论文,拿推荐信,绝对是上岸名校性价比最高的途径。

顶级名校教授的优质科研课题






请到「今天看啥」查看全文


推荐文章
移民(微博搜索)  ·  移民(微博搜索)-20250210-1
2 天前
移民(微博搜索)  ·  移民(微博搜索)-20250210-1
2 天前
移民(微博搜索)  ·  移民(微博搜索)-20250210-1
2 天前
Excel之家ExcelHome  ·  Excel 2016的逆天功能,好用到飞起来!
7 年前
WallStreetTequila  ·  实习内推 | Olympus Capital & Private Equity Intern
7 年前
艾奇SEM  ·  大数据装逼,必看!
7 年前