春节期间,有一个狠角色热度悄悄盖过了春晚,跑赢了哪吒!没错,它
就是
DeepSeek!
过个节,
DeepSeek日活数超豆包登顶中国No.1,超ChatGPT成全球增长最快AI应用,
总
下载都破4000万!这势头,连实习生都要月薪过万了!
deepseek部分在招职位,图源网络
于是,
政治学家、哈佛大学教授、前国防计划助理部长Graham Allison直接在社交平台爆料:
DeepSeek多模态团队的第4位工程师,做出DeepSeek关键贡献人才,本来可以拿到英伟达的全职offer!
这位教授在X上痛心疾首大呼:
“到底是谁错失了DeepSeek?”
图
源网络
英伟达:虽然是我,但是我也很亏...AI领主身份不稳不说,
还凭空蒸发公司市值上万亿!
快上呼吸机…
钱学森2.0放弃英伟达offer回国
英伟达研究员感慨中国优秀人才
这位让美国错失的人才叫
潘梓正
,是DeepSeek多模态团队的滴4位多工程师,在开发DeepSeek的R1模型方面发挥了重要作用。
他的履历也十分靓丽,
21年就读
蒙纳士
大学
ZIP Lab
攻读计算机科学博士,导师是Bohan Zhuang教授和Jianfei
Cai教授。
在此之前,他分别获得
阿德莱德大学(University of Adelaide)计算机科学硕士和哈尔滨工业大学(威海)软件工程学士学位
。
潘梓正,图
源网络
博士期间,他就展现出了对
深度神经网络效率
的浓厚兴趣和卓越见解。他聚焦于
模型部署、Transformer 架构优化、注意力机制、推理加速和内存高效训练等关键领域
,其研究成果在学术界和工业界都引起了广泛关注。
好富还了解到,其实在23年
潘梓正就去了
英伟达AI算法组实习了4个月
,
还收到了全职offer
。
结果谁都想不到他没去英伟达
,而是
去了当时
仅有3个人的DeepSeek多模态团队
。
潘梓正是DeepSeek-VL2的共同一作,图
源网络
结果一不小心,DeepSeek就爆火超越ChatGPT登顶App Store了。而且美国股市都遭受到了
“DeepSeek冲击”
,作为全球AI芯片龙头的英伟达总市值,更是在
一周内累计缩水5520亿美元(约合人民币4万亿元)。
英伟达的高级研究科学家禹之鼎还发文感慨了
一下。
大概意思就是说,
潘梓正放弃offer加入
DeepSeek他
印象深刻
。
但也说明
很多最优秀的人才都来自中国,
而这些人才并不一定只能在美国公司取得成功。
如果他们继续编织地缘
政治议程,制造对中国研究人员的敌对情绪,只会自毁前程,失去更多的竞争力。
图
源网络
这番话简直说到了那位爆料的哈佛教授心坎里去了,Graham Allison太看不得这种
人才流失
了,甚至
从潘梓正聊到了钱学森归国
,直接表示:在中美科技竞争里,美国应该尽一切努力
避免失去更多的钱学森和潘梓正这样的人才
。
图
源网络
既然哈佛教授都这样说了,那还不赶快多在中国招招生,这样不管是潘梓正2.0还是钱学森3.0,不都到你手中了(勾引脸.JPG)。
DeepSeek夺得眼球让
OpenAI
可坐不住了,
公开表示DeepSeek用了自家的蒸馏模型。
LeX Fridman看热闹不嫌事大,邀请了
AI2的模型训练专家Nathan Lambert和Semianalysis硬件专家Dylan Patel
,做了一个长达5小时的播客讨论这些事。
图
源网络
Lex Fridman表示:他们和大多数公司一样,本来就是在未经许可的情况下,使用互联网上的数据进行训练,并从中受益的。
大佬们一致认为,
OpenAI声称DeepSeek用其模型训练,就是在试图转移话题、让自己独赢
。
而且,过去几天还有很多人把DeepSeek的模型蒸馏到Llama中,因前者在推理上运行很复杂,而Llama很容易提供服务,这违法吗?
不过后来
OpenAI公司首席执行官萨姆·奥特曼(Sam Altman)也坦诚,公司在开源问题上站在“历史的错误一方”
。
奥特曼还表示DeepSeek正在推动OpenAI公司更多地揭示其推理模型的“思考过程”,之前由于
担忧竞争对手抓取数据用于训练自己的模型,OpenAI故意隐藏了模型的推理过程
。与之相比,
DeepSeek的R1模型展示了完整的思维链。
当然几位大佬还讨论了其它问题,比如DeepSeek怎么这么便宜?
要知道DeepSeek的R1模型在技术上实现了重要突破——
用纯深度学习方法让AI自发涌现出推理能力,在数学、代码、自然语言推理等任务上
,性能比肩OpenAI的o1模型正式版。
Dylan Patel表示,那是因为DeepSeek的训练成本和推理成本都很低,且
训练成本仅有560万美元
,远低于美国科技巨头的数亿美元乃至数十亿美元投入。
而DeepSeek的成本涉及两项关键的技术:
一个是MoE,一个就是MLA(多头潜注意力
)。
用MoE架构让大模型学会“分组办公”——平时
只激活3%的脑细胞(370亿参数)
干活,效率吊打传统模型的全员加班模式
(Llama要激活4050亿参数)
。
MLA技术把
注意力机制内存砍
掉80-90%
,长文本处理稳如老狗。配合自研的
“GPU交
通管制”
系统,精准调度每个芯片的运算和通信,
比直接调用英伟达库节省30%算力!
而且,DeepSeek和OpenAI的服务成本有巨大差异,部分原因是
OpenAI的利润率非常高,推理的毛利率超过了75%
。因为OpenAI目前是亏损的,在训练上花费了太多,因此推理的利润率很高。
于是几位大佬纷纷猜测,
这是不是DeepSeek精心策划的定价,直接做空英伟达和美国股票……
Dylan Patel无语并大佬式摊手,他们只是赶在农历新年前把产品尽快发布而已,
并没有没有打算搞个大的
,否则为什么选在圣诞节后一天发布V3呢?
总而言之,
DeepSeek的创新不仅推动了AI模型的普及,也为AI基建产业链的各个环节带来了新的机遇与挑战。
从DeepSeek的人才之战也可以看出
,
随着AI技术的不断进步,
AI基础设施的建设将成为全球科技行业的核心驱动力之一。
如果你也对人工智能等领域感兴趣
,想提高申请效率,斩获梦校offer!不要犹豫,报名盐趣课程绝对是最正确的、性价比最高的选择,心动不如行动起
来!
来盐趣!跟随TOP30大牛导师做科研,发论文,拿推荐信,绝对是上岸名校性价比最高的途径。