专栏名称: WallStreetTequila
WSTCAREER是业内领先的结果导向型求职留学咨询平台,所有导师均来自全球知名投行、管理咨询公司、四大及科技公司。我们致力于帮助全球各地的中国学生和在职人士实现各阶段的职业发展需求,斩获高薪OFFERS。
目录
相关文章推荐
51好读  ›  专栏  ›  WallStreetTequila

东方神秘力量撼动硅谷,DeepSeek杀疯了

WallStreetTequila  · 公众号  ·  · 2025-01-29 10:30

正文

英伟达睡醒天都塌了

市值一夜蒸发5890亿美元

而这一颗震撼美国科技界的深水炸弹

正是 来自中国的人工智能DeepSeek


cr.CNBC




国产AI大模型

整顿美股




1月27日清晨,浙大校友梁文锋创办的国产大模型公司杭州深度求索DeepSeek应用一举登上了苹果中国地区和美国地区应用商店 免费APP下载榜的首位 ,在美国区更是 超越了ChatGPT,成为下载榜冠军。


cr.Appstore


这波登顶给市场,尤其是科技领域带来了雪崩式的冲击,出于对中美AI竞争前景的忧虑, 美国科技股遭大幅抛售。


  • AI芯片龙头英伟达 (NVDA)股价跳水16.97%,收于118.42美元,市值蒸发约5,890亿美元,据华尔街日报报道, 英伟达股票跌至纪录高位

  • AI芯片供货商博通 (AVGO)跌17.40%,市值蒸发约1,995亿美元;

  • 台积电 在美国的ADR(TSM)跌13.33%,市值蒸发约1,533亿美元。

  • 其余例如谷歌母公司 Meta和Alphabet ,英伟达的其他竞争对手 Marvell、美光 甲骨文、NuScale 等数据中心公司股价均大幅下跌。

  • Constellation Energy和Vistra 这两家与人工智能电力建设相关的最知名衍生品公司,股价也分别暴跌逾12%和19%。


硅谷AI科技圈这下是真的乱成一锅粥了,美国科技大厂们纷纷下场回应:


Meta在其生成人工智能部门内开设了四个与DeepSeek相关的“作战室” 来研究DeepSeek的工作原理,并基于此来改进旗下大模型Llama,以及降低训练和运行成本。


cr.theinformation


英伟达公司的发言人则在接受CNBC的采访时回应称, DeepSeek是测试时扩展的绝佳范例 ,展示了如何运用该技术,借助广泛可用的模型及符合出口管制规定的算力,创建新模型。另外,推理过程需要大量英伟达GPU和高性能网络。


奥特曼也紧急透露新模型 o3-mini即将免费上线ChatGPT 的消息,试图挽回一点市场热度。


cr.X


刚刚上任的川普也坐不住了。27日晚间,川普在佛罗里达州迈阿密发表讲话时表示,DeepSeek的模型高效且经济,其出现是一种积极的发展, 也给美国相关产业敲响了警钟,美国需要集中精力赢得竞争。


cr.X


懂王这波be like:




一战成名

DeepSeek到底有多牛?




DeepSeek凭借其 创新的开源设计和对廉价硬件的高效利用 ,正在颠覆人工智能领域传统的高成本发展模式。


日前发布新模型 DeepSeek-R1 ,以相当低廉的训练成本打造出媲美OpenAI的先进模型: DeepSeek声称该模型在数学、代码、自然语言推理等任务的性能 比肩OpenAI o1正式版。


cr.google


仅仅花费 560万美元 训练的R1 ,相当于Meta GenAI团队任一高管的薪资 ,在很多AI基准测试中已经达到甚至超越OpenAI o1模型, 其定价也仅为OpenAI o1的 三十分之一。


同为杭州六小龙的游戏科学创始人CEO、《黑神话:悟空》制作人专门发微博支持: 顶级科技成果,六大突破。


cr.weibo


560万美元诞生的R1,不免让人想到 OpenAI前几天砸5000亿美元建数据中心 以及 英伟达长时间以来在高端GPU的垄断地位


只能说这波,国产AI大模型真的赢麻了!


除夕中午,DeepSeek更是马不停蹄地发布了又一新模型—— 多模态Janus-Pro-7B ,发布即开源。


cr.X


下一个新版本也疑似很快发布,时间是2025年2月25日,大家一起期待一波吧!


cr.X


不到140人团队,打造顶尖AI


DeepSeek风头正热,全网都在好奇:


这背后到底是多么厉害的团队?


而在整理各路资料后我们发现,DeepSeek背后,只是 一支不到140人的全华人班团队。 对比ChatGPT的OpenAI团队则有1200名研究人员,团队规模是DeepSeek的近乎9倍之多。


其中,DeepSeek的独特竞争力就来源于高度集中的优秀人才: 其核心成员几乎全部来自清华、北大等国内顶尖高校 ,鲜有海外背景,且这些人才大多 深耕中国本土市场


近期热门话题 “雷军千万年薪挖95后天才AI少女” 中的主角 罗福莉 ,就是DeepSeek团队的研发人员。


硕士毕业后,罗福莉先是进入阿里达摩院做人工智能研究,从事预训练语言模型相关的工作,负责阿里达摩院AliceMind开源项目,主导开发了多语言预训练模型VECO。2022年,罗福莉加入幻方量化从事深度学习相关策略建模和算法研究,后又跳槽到DeepSeek担任深度学习研究员,参与研发MoE大模型DeepSeek-V2。


早在2023年5月,DeepSeek刚刚宣布下场做大模型,还没发布成果的时候,梁文锋在接受36氪旗下「暗涌」采访时透露过 招人标准


看能力,而不是看经验。我们的核心技术岗位,基本以应届和毕业一两年的人为主。


从后面一年多陆续发表的论文贡献名单中也可以看出,确实如此, 博士在读、应届以及毕业一两年的成员占很大一部分。 即使是团队leader级别也偏年轻化,以毕业4-6年的为主。


而在DeepSeek创始人梁文锋的访谈中,我们也能窥见 这只团队的运作结构


  • 不做前置的岗位分工,而是自然分工;

  • 每个人对于卡和人的调动是不设上限的,每个人可以随时调用训练集群,只要几个人都有兴趣就可以开始一个项目;

  • 当一个idea显示出潜力,也会自上而下地去调配资源。


对比AI届的另一位大牛 OpenAI ,只能说有太多的共通之处,也足以见得为什么DeepSeek能在这么短的时间内成为全球AI届的黑马选手:


  • 同样的用人不看经验,本科生、辍学生只要有能力照样招进来。

  • 同样的重用新人,应届生与00后可以调动资源从无到有研究Sora。

  • 同样的面对潜力方向,整个公司从顶层开始设计布局和资源推动。


17岁考入浙大 36岁管理千亿私募


目光移向DeepSeek背后的那个男人,这位 85后创始人梁文锋 的背景更是令人赞叹。业内口碑称,这是一位 极致的80后技术理想主义者 ,每天就是 “看论文,写代码,参与小组讨论”


DeepSeek创始人梁文锋(右2)出席专家、企业家和教科文卫体等领域代表座谈会

cr.央视新闻


2002年,17岁的梁文锋以吴川市「高考状元」的成绩考入 浙江大学电子信息工程专业 在校期间,梁文锋对金融市场产生了浓厚的兴趣,2008年全球金融危机之际,他带领团队探索机器学习技术在全自动量化交易中的应用潜力。即使当时量化还是新事物,他也毅然决然地决定 量化投资。


苦熬了2年,2010年,沪深300股指期货推出,量化投资迎来了春天, 梁文锋和他的团队大赚一笔, 自营资金超过5亿元 他才刚从学校毕业就赚到了一大桶金,这实际上为他后来的创业铺平了道路。


2013年,他与浙大同学徐进共同创立了杭州雅克比投资管理有限公司,两年后又成立了 杭州幻方科技有限公司 ,致力于通过数学和人工智能进行量化投资。 2015年的市场波动中,幻方依靠先进的高频量化策略取得了令人瞩目的成绩。


2016年是幻方的重要转折点。 这一年,公司推出了首个基于深度学习的交易模型,并实现了所有量化策略的AI化转型。 2018年,幻方正式确立了以AI为核心的发展战略。


梁文锋2019年演讲:所有原来人类做的策略,现在量化都在做


2021年,幻方的资产管理规模突破千亿大关,跻身 国内量化私募领域的「四大天王」之列 。2023年,梁文锋宣布将正式进军通用人工智能领域,并创办了 深度求索DeepSeek ,专注于做真正人类级别的人工智能。




AI大战中

留学生如何在科技圈杀出重围?




AI圈越卷越激烈,各大科技公司也是求贤若渴。目前,科技圈的招聘竞争仍是前所未有的激烈,想要留美求职tech的同学要怎么做,才能 把握住极少又竞争巨大的机会? 先来看看WST创始人Jerry老师在连麦中的分享。








请到「今天看啥」查看全文