专栏名称: CEO管理秘籍
分享管理精髓,促进企业职业化发展。
目录
相关文章推荐
滴滴招聘  ·  滴滴2025春季校园招聘正式启动! ·  16 小时前  
滴滴招聘  ·  滴滴2025春招Q 合集来啦! ·  16 小时前  
阿里开发者  ·  ComfyUI:搭积木一样构建专属于自己的A ... ·  18 小时前  
百度智能云  ·  效果媲美DeepSeek-R1!千帆Mode ... ·  6 天前  
51好读  ›  专栏  ›  CEO管理秘籍

DeepSeek,做AI竞争的破局者

CEO管理秘籍  · 公众号  ·  · 2025-02-24 10:00

正文


来源 | 伯虎财经(bohuFN)
作者 | 森系

中美大模型的差距在1-2年。起码在今年春节之前,这还是一个获得普遍认同的观点。

直到中国科技公司深度求索发布了推理模型DeepSeek-R1,用不到GPT二十分之一的成本,获得了和OpenAI的顶尖推理模型o1相当的能力。

DeepSeek的影响很快扩散到大洋彼岸。

1月27日,美国科技股遭遇“黑色风暴”,费城半导体指数(SOX)狂泻9.2%,创下2020年3月以来的最大单日跌幅。英伟达股价重挫近17%,市值一夜之间蒸发近6000亿美元,创下美股历史上最大的单日市值缩水规模。博通、台积电、ASML、Google和微软等科技巨头也未能幸免,股价分别下跌17.4%、13%、7%、4%和2.14% 。

与此同时,欧洲科技股市场同样哀鸿遍野,各类科技股惨遭抛售。

引发全球资本市场“强烈地震”的幕后主角——DeepSeek,不是任何发力大模型的大厂,或者创业明星,而是一家此前名声不显的小型科技初创公司。它由幻方量化创始人梁文锋一手创办,成立仅一年多。

最能唤醒读者记忆的,可能是去年8月,DeepSeek率先宣布其API价格大幅下调,输入费用调整为0.1元/百万tokens,输出费用为2元/百万tokens,随后各家大厂纷纷跟进。大模型价格战也就此打响。

实际上,DeepSeek的创始人梁文锋或许是最早把目光投向AI的那批人。不仅仅是他创立了量化基金,更有意思的例证是,在算力紧缺的2023年,国内只有五家公司拥有万块规模的显卡,前四位是阿里巴巴、腾讯、百度和字节跳动,剩下的那个就是幻方量化。

开源、创新、成本。在硅谷,DeepSeek被称作“来自东方的神秘力量”。他们一面跟随,推出类似的推理模型,一面攻击,要求对其进行封杀甚至算力封锁。

1月28日,DeepSeek曾连续发布两条公告称,DeepSeek线上服务受到大规模恶意攻击。

客观来讲,从产品实际表现来看,DeepSeek目前只是跻身行业第一梯队,尚未实现对市面上现有产品的全面超越,也并非在技术底层实现了范式创新。

但DeepSeek确实为全球AI行业的长期发展探索出了新的模式,也让长期被硅谷霸占话语权的AI行业出现了一些不一样的声音。正如AI领域泰斗吴恩达所言:“DeepSeek的创新表明,中美在生成式AI领域的差距正在迅速缩小,在某些领域中国已现领先迹象。”


DeepSeek,破了谁的金身?
去年12月,36氪旗下的暗涌账号采访了DeepSeek。采访中提到了去年8月由DeepSeek发起的价格战,原因指向了一个事实——与很多大厂烧钱补贴不同,DeepSeek是有利润的。

早在去年5月,DeepSeek发布的DeepSeekV2模型,就展现了他们非凡的效率:推理成本被降到每百万token仅1块钱,约等于Llama370B的七分之一,GPT-4Turbo的七十分之一。

并且相较于OpenAI公司来自全球顶尖学府几千人的大公司人力成本,DeepSeek公司只有寥寥几百人,也没有全球前50的人才密度,聚集的是国内一众大学相关学科的博硕精英人才。

更加难能可贵的是,DeepSeek-V3在训练时使用的GPU是英伟达的H800,一款在性能上被阉割的特供AI芯片。相比之下,GPT-4o使用的是上万块英伟达H100芯片(性能优于H800)。

这和我们过去的认知是不同的。

英伟达及美股大跌的原因直指DeepSeek,原因在于DeepSeek的成功打破了AI大模型领域“拼投入”的惯常逻辑。AI大模型只有砸钱、砸算力才能做出来的观念在行业中深入人心。

2023年,OpenAI的CEO奥特曼(SamAltman)曾经访问印度,他对印度团队能否凭借仅 1000 万美元的预算,在AI领域构建出具有实质性成果的模型表示怀疑。

在他看来,如果没有上亿美元的训练成本,是炼不出好的大模型的。毕竟作为AI行业的领军企业OpenAI至今都尚未实现盈利,很大一部分原因在于尖端AI模型的训练耗资惊人,运行成本也十分高昂。据测算,仅维持ChatGPT的运营,每天成本就高达70万美元。奥特曼则表示,未来的AI模型成本预计将超过10亿美元。

高昂的成本也让后来者纷纷以OpenAI为标杆加大投入。马斯克旗下的xAI,其超级计算数据中心装配了10万颗英伟达H100 GPU芯片,成为全球最强大的AI训练集群之一。特朗普上台后,宣布投资5000亿美元启动“星际之门”项目,试图凭借巨额资金与强大算力,巩固美国在AI领域的霸权地位。

其他科技巨头们也在积极布局。过去一年,微软和谷歌的资本支出均超过 500 亿美元,其中大部分资金用于AI相关的基础设施建设,并且计划在2025财年将这一投入提升至700 - 800亿美元。国内方面,根据浙商证券的分析,2024年字节跳动的资本开支约为800亿元,预计2025年将达到1600亿元,其中约900亿元将用于AI算力的采购,700亿元用于 IDC 基建以及网络设备。

DeepSeek并非是拥有什么降本魔法,而是摸索出了一条不一样的道路。DeepSeek的研究员提出了一种新的MLA(一种新的多头潜在注意力机制)架构,与 DeepSeek MoESparse (混合专家结构)结合,这种架构的优势是显存占用仅为常用MHA架构的5%-13%。

与此同时,和行业惯常的用数万亿token(文本单位)训练模型不同,而是选择通过“数据蒸馏”,降低了数据计算程度,从而实现降本。

正因为如此,DeepSeek也有了“AI届的拼多多”之称,尽管这种表述可能并不完全准确,但也基本表达了DeepSeek对当前主流AI的冲击。通过这一低成本模式使得DeepSeek能够更快速地推出新产品和服务,并极大地降低了其市场进入门槛,可以吸引了更多企业和机构参与到AI研发中来。


开源会是更好的选择?
当然,DeepSeek对AI的冲击还不止于此。

作为一家中国公司,DeepSeek表现出了前所未有的自信,对产品实施开源策略,也就是公开模型的代码和架构等等,允许公众查看、使用和修改。这就意味着,很多中小企业可以直接使用其模型,极大降低了很多企业的研发成本。

相比之下,OpenAI和谷歌等旗下的AI产品都是闭源,DeepSeek的开源和低价策略,对于国际上那些依靠高收费的主流AI工具,也将带来巨大冲击。

DeepSeek并不是个例,在开源浪潮席卷全球的时代,Meta的LLaMA、阿里的通义千问,都在试图证明“开放才能赢未来”。甚至就连马斯克也是开源技术的支持者,此前曾批评OpenAI走向闭源,称其为“CloseAI”,并指责其违背了最初的开源初衷而奥特曼则是埋头向前,继续闭源。这个争议还不仅是打口水仗,还曾对薄公庭。

但尽管如此,依然也有不少业内人士对此嗤之以鼻。

去年,有行业人士表示:闭源大模型,才是AI商业化的最优解。

究其原因,开源模型仍有致命伤:“所谓模型开源,往往只提供了模型的大量参数。但想要有效应用这些模型,还需要进行很多后续工作。”即便公布参数,开发者仍难窥见参数的生成过程和数据源等核心“配方”。这种半透明状态,导致二次开发如同盲人摸象。

“由于不了解这些参数的生成过程和数据源,难以直接实现‘众人拾柴火焰高’的协同效应。即使获取了模型源代码,也可能不清楚训练这些参数所使用的具体数量和比例。因此,拿到这些开源资料,并不足以让人直接站在巨人的肩膀上轻松进行迭代与开发。

这也是为什么OpenAI能够通过闭源在一定时间内保持了技术的领先性和独特性,构建了自己的商业生态的原因之一。

另外,在医疗、金融等高敏感领域,闭源优势还可以在保护技术和商业利益方面有其独特作用,能保障知识产权安全,防止技术滥用。

但不可否认的是,DeepSeek的确迎来了填补生态位的绝佳机会。

在和暗涌的采访里,梁文锋就表示,长远来说,我们希望形成一种生态,就是业界直接使用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在DeepSeek的基础上构建toB、toC的业务。

用户无需付费即可享受强大AI推理能力,推动AI技术普及,让普通用户在日常工作生活中体验前沿科技的便利。在开源生态上,它已吸引大量开发者,形成了蓬勃发展的社区。随着越来越多的开发者和企业认可开源模式,DeepSeek有望进一步扩大其影响力,重塑AI产业格局。








请到「今天看啥」查看全文