专栏名称: 码头青年

白领精品生活指南，聊职场说文化谈生活侃八卦，每天1篇好文＋1首好歌，陪你在马桶上撕扯人生。

深度解析DeepSeek成功秘诀，未来不靠限制靠释放

码头青年 · 公众号 · 杂志 · 2025-01-28 08:57

正文

龙年即将结束之际，美国又被中国产品狠狠撞了一下腰。

在中国初创人工智能公司DeepSeek的暴击之下，AI“卖铲人”英伟达股价周一暴跌，至收盘时跌幅近17%，创2020年3月以来的最大跌幅。

英伟达周一单日的市值蒸发规模达到5600亿美元，也创造了美股历史之最。英伟达也同时失去全球市值最大公司的宝座，不及苹果和微软，跌至第三。

英伟达多年来一直是AI领域的“军火商”，它的高端GPU几乎掌控了全球大部分AI研发的算力需求，尤其是高端芯片如A100和H100，一直是全球AI模型训练和推理的主力设备。然而，DeepSeek的成功展示了一个全新的路径——通过对模型架构的极致优化和算力需求的精简，它可以在性能一般的中低端显卡上实现媲美甚至超越ChatGPT的效果。这意味着，以前只有顶级算力才能承载的大模型，现在可以“降维”到成本更低的硬件上运行。

以DeepSeek的研发为例，它使用的是中国团队通过开源技术改良后的算法，结合中端GPU实现的高效推理。相比之下，OpenAI为了训练ChatGPT，动用了数以万计的高端GPU，每块售价高达数万美元。这种成本上的巨大差异，直接让投资者意识到，未来AI市场可能并不需要大量依赖英伟达的高端产品，而是会更多地转向性价比更高的方案。

这对英伟达的长期需求预期是一次重创。

过去，只有那些拥有雄厚资金的大公司才能负担得起英伟达的高端芯片来开发AI模型。而现在，DeepSeek用实践证明，中低端算力也可以支持高效的AI应用，这无疑降低了整个行业的准入门槛，让更多企业得以参与竞争。

DeepSeek不仅冲击了英伟达的商业模式，也让硅谷的一众科技巨头感到不安。

以Meta为例，这家公司近年来在AI领域投入了数百亿美元，试图通过构建超大规模的语言模型来与OpenAI竞争。但是，DeepSeek仅用不到1000万美元的研发成本并且大获成功，让人们开始质疑，这种砸钱式研发是否真的是唯一的路径。

据知情人士透露，DeepSeek登顶App Store排行榜的第二天，Meta内部的一个高层会议就连夜召开。这种危机感，不独Meta一家有，整个硅谷都感弥漫着一种恐慌，很多大厂开始重新评估自己的研发策略。

微软CEO萨蒂亚・纳德拉在瑞士达沃斯世界经济论坛上表示：“看到DeepSeek的新模型，真的令人印象非常深刻。他们切实有效地开发出了一款开源模型，在推理计算方面表现出色，且超级计算效率极高。我们必须非常、非常认真地对待中国的这些进展。”

DeepSeek还动摇了硅谷的商业信心。

在DeepSeek推出R1模型后，硅谷的风投机构纷纷调整对AI初创企业的投资策略。过去，那些高喊“我们需要更多资金购买GPU”的初创公司是资本的宠儿，而现在，投资人更倾向于寻找像DeepSeek这样专注于低成本高效解决方案的团队。

一个更具体的例子是，Meta原计划在2025年推出一款对标ChatGPT的超级大模型，其研发预算高达50亿美元。然而，DeepSeek的成功让Meta不得不重新考虑是否继续这一项目，毕竟扎克伯格的钱也不是风刮来的。

2 DeepSeek，是一个诞生于中国杭州的公司，今年40岁的创始人梁文锋是广东湛江人，17岁考入浙江大学，后又在浙大攻读信息与通信工程专业硕士。师从项志宇，主要做机器视觉研究。

梁文锋具体的童年成长轨迹已不可考，从公开信息唯一可知的是，梁文锋有在采访中提到过自己的父亲是一名小学老师。

2008年，23岁的梁文锋还在浙江大学读硕士，当时全球金融危机爆发，市场风雨飘摇。但这位“天生的理工男”已经带领团队开始搞全自动量化交易了，收集数据、建模分析，把机器学习玩得风生水起。据传，大疆创始人汪滔那时候找过他，希望一起创业。但他认准人工智能才是未来，果断选择独立发展。

2010年硕士毕业时，梁文锋的研究方向是目标跟踪算法，但他的目光却已经锁定更大的舞台。同年，他和浙大的校友徐进一起创立了雅克比投资，开始把AI和量化交易结合。2015年，两人联手创办了幻方科技。这家公司不到几年时间就在量化投资圈杀出重围，2016年推出首个AI交易模型，2019年管理规模突破百亿，成为国内量化“四巨头”之一，甚至是唯一迈过千亿门槛的量化私募。

幻方的核心是什么？算力！梁文锋用强大的技术背景，把幻方打造成了一个“AI驱动的赚钱机器”。

到了2023年，全球AI浪潮全面爆发，梁文锋再次展现出敏锐的嗅觉。这一年，他决定进军通用人工智能（AGI），成立DeepSeek，一家专注于AI大模型研发的公司。从量化投资到AI创业，梁文锋不仅实现了跨界，还在短短几个月内，用不到1000万美元的成本推出了R1模型。

DeepSeek的横空出世，不仅迅速抢占美国App Store排行榜的榜首，更让昔日霸主ChatGPT退居次席。

这是龙年非常有历史意义的一个时刻。DeepSeek 这家颇有一些神秘色彩的公司，已经成为龙年最精彩的句点。

3 业界普遍认为，DeepSeek是中国AI技术的一次突破。这怎么理解呢？

普通人可能并不关心“MLA架构”或“MoE稀疏结构”这些专业术语，也理解不了。以下是几个简单易懂的例子，来说明为什么DeepSeek的R1模型会被认为是“革命性”的技术产品。

首先，DeepSeek更“聪明”，回答更接地气。过去你用AI聊天，可能会发现它的回答“非常教科书化”，总是照搬理论，没有什么“人味”。比如你问ChatGPT，“如何用剩菜做一顿饭？”它可能会列出一堆标准化步骤，甚至直接说“建议新鲜食材更好”。而DeepSeek的R1模型会根据你的实际情况，给出更生活化的建议，比如“剩米饭加鸡蛋做蛋炒饭，加点火腿丁或者青豆会更香，饭一定不要太软，这样炒出来粒粒分明。”

其次，它不仅能回答，还能帮你干活，效率超高。假设你是一个小企业主，想做一份简单的广告文案，又不想请人花钱找文案团队。现在，你只需要告诉DeepSeek，“我要给我的餐厅做一个冬季暖汤的推广广告”，它会几秒钟内生成一段清晰、有创意的文案，甚至还能告诉你怎么用不同的颜色和字体设计效果更吸引人。

再比如，它可以一边联网查信息，一边帮你总结分析。假设你计划一次旅行，过去你可能要打开无数个网页，查天气、景点推荐、交通路线，然后手动整合信息。DeepSeek可以直接帮你一站式搞定。比如你对它说：“我下周想去加拿大的班夫国家公园，帮我查查最近天气怎么样，适合穿什么衣服，顺便推荐几个适合家庭出游的地方。”它会联网查找最新的天气预报、整理班夫的景点列表，然后用一段非常人性化的语言告诉你：“下周班夫温度在-5℃到0℃，记得穿保暖羽绒服和防滑靴，可以去露易丝湖滑冰，也可以选择温泉泡汤，非常适合家庭放松。”

更厉害的是，它还能分析复杂问题，帮助做决策。比如你想买一辆新能源汽车，但对市场上的品牌、性能和价格完全不了解。过去你可能得看一堆评测文章，还得担心信息是否可信。DeepSeek不仅能结合你的需求，快速对比市面上几款车的优缺点，还能根据你的预算给出推荐。比如你告诉它：“我想买一辆适合冬天开的新能源汽车，预算在30万元左右。”它会快速筛选出符合条件的车款，并告诉你哪款车续航长、性价比高，以及在冬季使用时需要注意哪些问题。

它不仅好用，还很便宜。DeepSeek对普通用户来说几乎不需要太大的硬件支持，也不需要付费订阅昂贵的服务。它甚至能在老旧手机上流畅运行，让每个人都能负担得起先进的AI服务。

它还能写代码、做设计，甚至处理复杂文件。比如你是一名初学编程的学生，遇到一个代码问题，DeepSeek不仅能帮你修复代码中的错误，还能给你详细解释为什么出错，帮你快速掌握技能。如果你是设计师，想给客户做一个LOGO，也可以简单告诉它需求，DeepSeek就能生成多个设计方向的初稿，帮你省下大量时间和精力。

3 DeepSeek让美国人感到压力，更多是因为它的性价比和针对用户需求的本地化优化，而不完全是ChatGPT技术能力的全面落后。

ChatGPT在技术和市场上依然是全球领先的AI产品。OpenAI投入了数十亿美元，用超大规模模型和全球顶尖的算力，打造了一个“通用型AI”，它在语言生成的多样性、逻辑性和上下文理解上仍然非常强大。例如，对于复杂的科学问题、高阶编程需求或长文本的生成，ChatGPT仍然具有明显优势。

但ChatGPT也有短板，尤其是面对普罗大众的实际需求时，可能显得有些用力过猛或不够贴心。比如它可能回答过于学术化、不够生活化；在涉及特定语言、地区或文化背景时，答案会显得不够本地化。

DeepSeek的成功，更多源于务实和精细化设计。它通过工程优化和小规模模型的蒸馏，极大降低了成本，同时对普通人的实际需求进行了深度打磨。它的回答更生活化、更接地气，懂得用更简单、实用的语言回应用户的问题。

关键在于，它的“够用哲学”比“极致”更容易获得市场青睐。ChatGPT是一个极致的工具，但对于很多普通用户来说，这种极致可能并不是必要的。

此外，DeepSeek还有一个让市场感到压力的关键点：成本和普及性。ChatGPT运行的是一个非常庞大的模型，它对算力的依赖极高，这意味着用户需要付出更多成本才能获得服务。而DeepSeek通过优化小模型、降低对高端算力的依赖，让更多普通用户能以更低的价格甚至免费体验到AI服务。这种“普惠AI”的策略，使得DeepSeek以一种“降维打击”的方式，在用户规模上迅速超越ChatGPT。

DeepSeek的成功路径很“中国”——在美国基础研究的成果上，踩着巨人的肩膀，集中发力应用端，把“方便、好用、人性化”做到极致。

这类似阿里巴巴和腾讯的早期模式。阿里巴巴的电商平台模式有着浓厚的eBay和Amazon的影子，腾讯的社交工具从ICQ中找到了灵感。但它们的成功，并不是因为“复制了美国”，而是因为在本土化的过程中，把用户体验和应用层创新做到了极致。

DeepSeek的路径，和这些互联网巨头如出一辙。它的核心技术框架，比如MLA架构和MoE稀疏结构，是基于近年来开源社区和学术界的研究成果，甚至很多技术最早是美国顶尖大学和实验室提出的。但DeepSeek并没有停留在技术层面的炫技，而是通过工程化实现和本地化优化，让这些技术真正走下神坛，成为普通人日常生活中触手可及的工具。

举个简单的例子，ChatGPT作为硅谷最前沿的AI产品，在逻辑推理和语言生成的准确性上表现优异，但它对普通用户的生活需求并不是十分敏感。比如，当你问ChatGPT“我要去广州出差一周，行程怎么安排”。它可能给出一份非常精确的回答，但内容略显“公事公办”，比如列出一堆高大上的会议室和景点，却忽略了你的预算、兴趣或出行便利性。而DeepSeek则会根据你的需求，给出更贴心的建议：“如果预算有限，建议选择地铁沿线的经济型酒店，靠近珠江新城的地铁站比较方便，晚上可以去天河城逛逛，那里吃的多、交通方便，体验也不错。”这就是人性化打磨的结果。

DeepSeek的这种思路，与中国互联网企业在过去二十年的发展非常相似。它不是试图用技术来震慑用户，显示自己的牛逼，而是用技术来贴近用户服务用户。把复杂的技术隐藏在背后，把简单好用呈现给前端，这是中国企业在应用端的强项。这种策略，恰好弥补了硅谷科技巨头的一些短板。

所以，DeepSeek的路径并不是全新的，它是中国科技企业在全球竞争中找到的本土化创新思路的一次延续。

包括DeepSeek在内的中国互联网产品的成功，很大程度上得益于中国这些年培养的无数工程师所带来的人才红利。这个庞大的工程师群体，成为了中国科技企业崛起的基石。从硬件到软件，从基础设施到应用端，中国的工程师数量和质量都达到了前所未有的高度，而这种人才优势，放眼全球，也只有美国能够相提并论。

根据统计，中国每年培养的STEM（科学、技术、工程、数学）毕业生数量是全球最多的，其中工程类毕业生更是占据了绝对的比例。更重要的是，这些工程师并不仅仅满足于基础能力的培养，而是具备了极强的执行力和落地能力。他们可以在非常短的时间内，将一项技术从概念变成产品。这种从0到1的工程能力，正是中国科技企业在全球市场中占据优势的原因之一。

据多位与DeepSeek有过接触的行业人士表述，DeepSeek的优势之处就在于人才密度极高，且多来自于中国本土市场。

DeepSeek从一开始团队就是百人左右规模，但个个都很抗打。DeepSeek给出的薪酬待遇非常有竞争力，这让它一直对人才有很强吸引力。

此前据多家媒体报道，雷军曾亲自出手“挖DeepSeek的人”，支付的薪酬则在千万元级别。这个人正是DeepSeek-V2的关键开发者之一罗福莉，一个95后女生。

据量子位整理资料发现，DeepSeek团队最大的特点就是年轻。应届生、在读生，特别是来自清北的应届生在其中非常活跃。

“只招1%的天才，去做99%中国公司做不到的事情。”在DeepSeek面试过的应届生这样评价其招聘风格。

但仅有人才红利是不够的，中国极具竞争性的市场环境，也在某种程度上“逼”出了这些好产品和创意。中国互联网行业被普遍称为“内卷”的代表——无论是电商、社交、短视频还是AI技术，每个赛道都充满了激烈的竞争。任何一个新想法，只要证明有效，就会立刻涌入大量的企业争抢市场份额。这种内卷式的竞争，虽然残酷，却让中国科技企业形成了一种“超强适应性”：他们不但要快速创新，还要不断打磨产品、优化成本，甚至通过一轮又一轮的价格战，将产品普及到最广泛的用户群体。

像DeepSeek这样的产品，就是这种内卷环境的直接产物。它不仅要在技术上有所创新，还要以极低的成本满足普通用户的需求，让每个人都能用得起、用得上。相比之下，美国的科技产品更多服务于中高端市场，用户覆盖面相对有限。

进一步来看，人才红利与市场内卷的结合，并不仅仅是“多干活”“低成本”的简单逻辑，更是催生了一种极具韧性的创新模式。比如，DeepSeek之所以能够在两个月内完成研发上线，靠的不是某个天才工程师的个人灵感，而是整个团队在高压环境下的高效协作能力。这种能力，源于中国工程师在多年的竞争中磨炼出来的工作习惯：快速反应、高效执行、不断试错。这种团队执行力，不仅在国内独一无二，放眼全球也极为罕见。

从更大的视角来看，世界上能在科技竞争中真正较量的国家，目前也只有中国和美国。欧洲、日本、韩国等国家虽然在某些领域具有技术优势，但无论是人才储备还是市场规模，都无法与中美相提并论。

中国有庞大的教育体系，每年培养出无数工程师，而美国则吸引了全球最顶尖的人才。在这种二元对抗的格局下，中国的“人才红利+内卷环境”成为了独特的竞争优势，帮助中国在全球科技版图中占据了一席之地。

但这种优势也值得警惕。一方面，中国的人才红利正在逐渐走向瓶颈。随着高等教育的普及，工程师的数量增长放缓，而质量的提升也需要更长时间的积累。另一方面，过度的内卷虽然催生了好产品，却可能牺牲了长远的创新潜力。如果企业和工程师只能在生存压力下进行短期优化，而缺乏长期研发的耐心，最终可能会陷入低成本拼杀的恶性循环，难以迈向技术的顶端。

其实，DeepSeek还揭示了一个让美国市场更为不安的事实：中国团队已经不再局限于模仿，而是开始在核心技术上实现突破。

DeepSeek的R1采用了MLA架构和MoE稀疏结构，这是底层注意力机制上的创新，这种技术革新不仅优化了算力效率，还降低了训练大模型的成本。更让人震惊的是，这种创新出现在中国，而不是美国硅谷。曾经牢牢掌控全球技术话语权的美国，突然发现，中国企业不仅能用低成本完成高水平的工程化实现，还能在技术路径上探索出新的方向。

这种技术上的不对称性，让美国对自己的科技优势感到了前所未有的焦虑。

DeepSeek的成功也在美国引发了社会层面的深刻讨论。硅谷的媒体开始逐句翻译梁文锋的采访稿，而CNBC更是制作了长达40分钟的专题片，试图解读这家中国公司如何在如此短的时间内引发全球轰动。对于美国科技界而言，这种高度关注并不是出于好奇，而是一种危机意识的体现。

DeepSeek的成功正在动摇美国长久以来对AI技术和市场的主导权，而这种主导权，不仅仅是经济优势，更是战略安全和全球影响力的象征。

更大的冲击在于，DeepSeek的成功让美国不得不重新审视自己的教育和科技生态。几十年来，美国一直以开放的科研环境、领先的高等教育和强大的创新文化为核心竞争力。然而，近年来的变化却让这一竞争力逐渐削弱。美国高中数学和理工科教育的质量下滑，是一个早已被警告的问题。很多高中生在基础数学上表现不佳，进入大学时连基本的微积分都无法掌握。这直接导致美国在理工科领域的人才储备不足。

更令人担忧的是，美国大学近年来为追求“多元化和包容性”（DEI），在录取政策上降低了对理工科学生的学术要求，以实现种族平衡。这种做法虽然在短期内缓解了种族矛盾，却在长远上影响了高等教育的整体水平。相比之下，中国的教育体系，尽管仍然存在许多问题，却通过高考这一相对公平的机制，为大量像梁文锋这样的“小镇做题家”提供了改变命运的机会。

这场变革才刚刚开始，而它带来的连锁反应，将远远超出DeepSeek的故事本身。对于中国而言，这不仅是一次技术胜利，更是一次制度与环境深刻优化的契机。

DeepSeek的成功是中国互联网式创新模式的又一次胜利。它背后的人才红利和内卷环境，确实是其他国家短时间内难以复制的优势。但要真正将这种优势转化为持续的技术领先力，中国需要的不仅是培养更多的工程师，更要为他们创造一个更宽松、更尊重创新规律的环境。

很多人不了解，DeepSeek诞生在杭州。多年来，杭州以“有事服务，无事不扰”的理念，为企业家和科学家提供了足够宽松的创新环境。从阿里巴巴到网易，从《黑神话：悟空》到DeepSeek，这座城市一次又一次地证明：当一个地方尊重科学、重视人才、优待民企、宽容失败，创新的奇迹便会不断涌现。

在即将告别龙年的最后一天，回顾DeepSeek带来的这场变革，我们能感受到中国人在科技领域的聪明才智，也看到了世界对这种“降维打击”的震撼。但这一切的背后，更需要我们思考：如果中国的每一座城市都能像杭州这样，给予科学家和工程师以及民营企业更多的自由和支持，而不是束缚和干预，会诞生多少个“DeepSeek”？

中国人是聪明能干的，是不弱于任何种族的，从TikTok，到小红书，再到DeepSeek，我们反复向世界证明了这一点。只要给他们一个宽松的环境，不束缚手脚，不设限框框，甚至无需额外的扶持，他们就能凭借自己的智慧和努力，不断创造出令人惊叹的奇迹。

新的一年，希望他们获得更多的包容，更多的自由，让那些埋头钻研、默默耕耘的人有施展才华的舞台，让更多的创新火花能从这里迸发。

愿中国的每一座城市，都能成为孕育奇迹的沃土。尊重科学，珍惜人才，允许失败，为世界贡献更多像DeepSeek这样的传奇。

未来，不是靠约束，而是靠信任；不是靠限制，而是靠释放。愿我们用开放与尊重搭建桥梁，让这片土地上的创造力得到尽情施展。

新的一年，随着蛇年钟声敲响，愿中国人带着智慧与坚韧，踏上更广阔的征程，用自己的方式书写属于我们的新时代！

除夕快乐！

往期推荐

观察｜回国一个多月，最让我痛心难过的是什么

逝者｜广州还能再出韩志鹏吗

关注｜怀念《繁花》，怀念的是90年代的遍地机会

热点｜江平走了，圆桌已散，该向何处去

国际｜韩国前总统文在寅为何能让我热泪盈眶

政要｜听于幼军谈邓小平的遗产