专栏名称: OSC开源社区
OSChina 开源中国 官方微信账号
目录
相关文章推荐
OSC开源社区  ·  3月8日妇女节,来一场职场姐妹茶话会 ·  16 小时前  
OSC开源社区  ·  DeepSeek公布模型推理系统的成本利润率 ... ·  2 天前  
OSC开源社区  ·  诞生20年的Fish ... ·  3 天前  
51好读  ›  专栏  ›  OSC开源社区

DeepSeek公布利润率——引发两家国产AI公司创始人隔空互呛

OSC开源社区  · 公众号  · 程序员  · 2025-03-03 17:00

正文

OSCHINA

↑点击蓝字 关注我们


3 月 1 日,在 “开源五连发” 后,DeepSeek 又来了一个 “One More Thing” 为开源周收官 —— 首次 披露 了其模型推理系统 DeepSeek-V3 / R1 的技术细节及成本利润率。

根据 DeepSeek 公开的信息计算, 它理论上一天的总收入为 562027 美元,成本利润率高达 545%
此次 DeepSeek 盈利数据公布后瞬间成为行业焦点,引发广泛讨论,尤其是引发了两家国产 AI Infra 公司创始人 —— 尤洋与袁进辉的争论。
事件的两个主角,一方是尤洋及其创办的潞晨科技,另一方是袁进辉及其创立的硅基流动。
先是 DeepSeek 的这篇技术分享在知乎发布后,不少用户开始 @尤洋,让他点评。这是因为此前在 DeepSeek 被各家服务商争相部署的热潮里,他是最积极的反对声音之一。
此前尤洋曾在社交平台上计算过部署 DeepSeek 的成本和收益,并得出结论, 部署 DeepSeek 并提供服务的 AI Infra 公司,都是在亏钱,并且是“月亏四亿” 。他提到:
短期内,中国的 MaaS(模型即服务)模式可能是最差的商业模式,大厂相互卷低价和免费,满血版 DeepSeek R1 每百万 token(输出)只收 16 元。
如果每日输出 1000 亿 token,基于 DeepSeek 的服务每月的机器成本是 4.5 亿元,亏损 4 亿元;用 AMD 芯片月收入 4500 万元,月机器成本 2.7 亿元,这意味着亏损也超过 2 亿元。

此次 DeepSeek 的开源周并非要回应某个具体质疑,但其公布的利润率之高,显然与这个计算完全相反。人们首先想到了尤洋。

尤洋也在四个小时后发文 《关于 DeepSeek MaaS 成本》」 回应, 称 DeepSeek 官方这一计算方法不能用于 MaaS 盈亏评估 。在论述中,他延续了“基于大模型的 Mass 服务不赚钱”的观点。

袁进辉也在 DeepSeek 文章发布一小时后就火速评论道:
“又颠覆了很多人的认知”,他认为“很多供应商做不到这个水平”,"MaaS 能否成功,关键在于技术实力和用户基础"。
紧接着两家国产 AI Infra 公司创始人隔空互呛的“对战”开始了:
首先是尤洋直接发了一篇直接批评硅基流动这家公司的文章: 「《坑人的硅基流动》」 (现已删除)。
尤洋称本来不想发这些东西,但是硅基流动的袁进辉老师频繁在朋友圈里阴阳他, "这家公司疑似组织水军在网上长期黑我。今天 DeepSeek 有一篇文章指向我,他也在那里煽风点火。"
尤洋称硅基流动三周前网站访问量大增,原因是:
1、牺牲员工的春节假期,绑上国产芯片,宣传效果很好。
2、拉人头病毒传播,邀请码直接送代金券,拉人头在小红书上快速形成病毒式扩散。
尤洋认为,2 月 12 日 superclue 发布评测把硅基流动的 API 性能排到倒数第一,这很公平;从 pr 稿来看,硅基流动有 15 亿的代金券需要兑现,但是这家公司只有 1-2 亿的现金,风险很大。

尤洋不太相信硅基流动工程师的水平高于英伟达和 SGLang/vLLM 的顶尖工程师。

袁进辉第一时间进行了回应,一方面强调了硅基流动一系列动作背后的思路,另一方面直接抖出“潞晨代码抄袭”的旧案。
ColossalAI 重大 Bug 揭秘:DeepSeek-R1 模型微调陷阱
维护创新:对潞晨云算力云平台的公开信
尤洋立马在朋友圈转发袁进辉的朋友圈截图并回应:
“代码都是潞晨 CTO 负责的,抄袭代码事件后,璐晨 CTO 离职,加入了袁进辉老师的公司。你说可笑不可笑?”
差不多同一时间,尤洋的潞晨科技 宣布 将在一周后停供 DeepSeek API。
在这期间,潞晨科技前 CTO 也针对抄袭代码事件 揭露了一些往事
针对前 CTO 发文,尤洋回复:
次日(3 月 2 日)早上,尤洋向 DeepSeek 道歉:
今日(3 月 3 日),尤洋再度回应:
原本只是讨论 MAAS 盈利模式的测算,我就在跟 DeepSeek Infrastructure 团队的技术探讨中显得很张扬,不是很有礼貌。现在微博小红书知乎上到处都是对我个人或我的创业公司的人身攻击和无端指责,我没有精力一条一条地解释。
我跟 DeepSeek 的辩论我又没有说错,我的计算和分析都没有问题,只是语气不太好以及和技术无关的言论措辞不准确,一晚上几十个人让我道歉。
并发表文章 《DeepSeek成本的理性分析》
DeepSeek之所以出圈,是因为DeepSeek用低成本吓住了华尔街,直接导致华尔街股市崩盘。

DeepSeek的论文中显示只需558万美元就可以训练一个一流大模型。

华尔街原本预计训练成本是几亿美元。

其实,这个成本是容易引起严重误解的,特别是对华尔街非AI技术背景的分析师。

DeepSeek公布的是一次实验的成本,而开发一个大模型可能需要几十次实验。

需要重大创新的时候,可能需要几百次实验。

为什么呢?

大模型训练是非凸优化,我们是无法理论证明模型训练是收敛的,完全是靠实验观察。

另外,大模型训练是随机算法。严谨一点,每改一个超参数或者架构都应该把实验重做一遍。

一次实验前90%时间训练不好,最后10%也可能训练得很好。

Google最开始探索的时候,就是超参数搜索去大规模实验,一个模型训练就需要几百次实验。







请到「今天看啥」查看全文