专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
AIbase基地  ·  有人把 DeepSeek-R1 和 ... ·  10 小时前  
AIbase基地  ·  有人把 DeepSeek-R1 和 ... ·  10 小时前  
爱可可-爱生活  ·  【[490星]PgAssistant:为Po ... ·  16 小时前  
爱可可-爱生活  ·  【[143星]Maharshi-Pandya ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

为了让DeepSeek-R1用起来更顺畅,火山引擎将TPM上调到了500万!全网首家

机器之心  · 公众号  · AI  · 2025-02-13 15:34

正文

机器之心报道

编辑:Panda

最近,DeepSeek 很热,是个好 AI,但不是每个人都能用上。


于是,不少大大小小的 AI 云服务商都看到了机会,部署上线了 DeepSeek 的各个模型,并还通过各种优惠活动为自己拉用户。相信很多读者都参与到了这波薅羊毛中,但结果呢?很多时候,虽然免费的 Token 额度是到账了,但调用 DeepSeek-R1 是否成功就完全得看运气了。那些到账的 Token 额度也就成了一个可见而不可用的数字。这不由得让人感叹:薅羊毛,还是得薅大厂的。

前些天,火山引擎也上线了 DeepSeek-R1 模型(包括满血版和一些蒸馏版),并且还向用户赠送了 50 万 Token 的免费额度。用完后「续杯」的价格也不贵 —— 目前 DeepSeek-R1 满血版还在半价优惠中!算下来,每 100 万 Token 输入仅需 2 元钱,100 万 Token 输出也只需 8 元。


并且我们完全不必担心遇到「服务器繁忙」的问题。作为字节跳动旗下的云和 AI 服务平台,火山引擎的实力已经得到了大量部署其上的服务的验证 —— 就以 DeepSeek 的模型为例,自其登陆火山引擎以来,用量一直在持续攀升,现在已有数万客户稳定调用该模型,而火山引擎依然能够轻松地保持非常稳定的服务。

这也得到了第三方评测平台的佐证。根据 SuperCLUE 最新发布的 DeepSeek-R1 网页端稳定性测评报告,火山引擎是唯一一个完整回复率达到了 100% 的 DeepSeek-R1 第三方平台,也就是说部署在该平台上的 DeepSeek-R1 模型每一次都能给出完整回复,不存在截断、无响应等问题。

事实上,DeepSeek 系列模型现有的数万客户对火山引擎来说也只能是「洒洒水啦」。要知道,火山引擎为每位用户设定的初始 TPM(每分钟 Token 数)限流就已经达到了惊人的 500 万 !在之前 80 万 TPM 的基础上实现了近一个数量级的提升。可说是 全网最高 。企业和开发者完全不必担心自己的数据或查询量过大和流量不够。


相较之下,其它 AI 云服务商提供的 TPM 就远远不及了,比如阿里云为 DeepSeek-R1 和 DeepSeek-V3 设定了最高 120 万的 TPM,而腾讯云的数据也只有 60 万 TPM,百度智能云为自家 ERNIE 系列模型设置的初始 TPM 也都不超过 80 万。其它更小规模的厂商就更别提了。

放眼海外, OpenAI 为用户设置的 TPM 也非常低:免费用户仅有 4 万 TPM,而只有当付费等级达到 Tier 3 以上时,才有可能获得与火山引擎提供的相当的 TPM。Claude 的流量限制也差不多,其为 Tier 1 用户设置了 4 万输入 TPM 和 8000 输出 TPM 的限制,最高的 Tier 4 也仅有 40 万输入 TPM 和 8 万输出 TPM。

此外,火山引擎还给了用户 50 亿 初始离线 TPD(每日 Token 数)配额,是 全网首家 做到如此豪气的 AI 云服务商。

所以,不管是「全网最高」还是「全网首家」,火山引擎都当之无愧。

同时,在保证了超大流量和吞吐量的同时,火山引擎也做到了超低延迟。据火山引擎智能算法负责人吴迪介绍,即使是在数千万 TPM 的大流量下,火山引擎依然能达到相当稳定的低延迟水平,如下图所示。

500 万 TPM,火山引擎的底气是什么?

500 万 TPM 并不是一个小数字,换算下来,大致相当于每分钟 3 万多条响应,足以满足一个具有相当规模用户的应用的需求。火山引擎敢放开手脚,为用户提供如此实惠,自然有着自己的底气。

首先,自然是 硬件实力 。火山引擎有海量的 GPU 资源,并且吴迪表示已经将数以万计不同型号的 GPU 算力投入了火山方舟 —— 火山引擎旗下一站式大模型服务平台。另外,火山引擎还实现了「极致的成本效用」,可实现对 GPU 算力的灵活调用。

不仅如此,火山引擎的 弹性伸缩(Auto Scaling) 能力也值得称道。简单来说,弹性伸缩是指让云服务器资源池可根据当前服务的需求弹性调整所配置的计算资源。火山引擎能在分钟级的时间内完成数千台 GPU 资源的伸缩调度,从而可以有效地支持突发的流量和业务高峰。

针对 DeepSeek 系列模型,火山引擎还通过全栈自研推理引擎进行了算子层、系统层的深度优化。

算子层 ,由于 DeepSeek 系列与此前公开的豆包大模型 1.5 都采用了相似的 MoE 稀疏架构,因此火山引擎针对豆包系列模型部署的大量专家优化都可以直接复用。在此基础上,火山引擎还针对 DeepSeek 的尺寸进行了重新调优。比如针对 MLA(多头隐注意力)计算,火山引擎结合精度量化,针对硬件架构进行了指令级别的调优。


而在 系统层 ,火山引擎进行了三项深度优化:

  • 通过异构 PD 分离以及多机 EP + DP + TP 的混合并行推理方式,对计算效率和成本进行了极致的优化,同时还保障了推理延迟的稳定。
  • 通过定制化网卡和自主研发的网络协议,显著优化多机推理 All2All 通信耗时。
  • 结合高效的分布式存储设施,可显著优化 DeepSeek 671B 这种超大模型权重的加载速度,保证系统的扩容效率,从而达成更加高效的弹性计算系统。


方舟推理工程优化专家徐子林表示:「DeepSeek-R1 满血版是一个非常庞大的模型,加上前后处理过程,总参数量可达 700B,而如果按照我们当前最极致的优化水平,可在 7 秒内完成模型的加载。」也就是说,当系统出现突发流量时,火山引擎可实现秒级响应,从而实现「用户侧的无感使用」。

在火山引擎使用 DeepSeek,还有更多好处

在火山引擎上使用 DeepSeek,除了流量大、速度快、延迟低,用户还能享受到更多好处。

首先,火山引擎不仅提供了已经部署好的 DeepSeek 系列模型(可通过网页端直接使用以及通过 API 调用),而且还支持其它几种使用 DeepSeek 的模式,包括使用火山引擎的 veMLP(机器学习平台)高效部署、使用 VKE(容器服务)灵活部署、使用火山引擎系列 GPU ECS 自定义部署。下表简要总结了这几种不同模式的适合场景、核心使用方式以及优势。


下面展示了一个通过方舟 API 将 DeepSeek-R1 引入 AI 客户端 Chatbox 的示例,请注意这里设置了「你是一位数学老师」的系统提示词:


此外,在安全和隐私方面 —— 吴迪称这是火山引擎关注的「重中之重」,火山引擎也做出了承诺。火山引擎采用了先进的加密技术和严格的控制策略,可以保障用户的数据安全,杜绝用户的 prompt 和 response 被泄露和滥用的风险。简单来说,火山引擎的安全理念可以总结为:链路全加密、数据高保密、环境强隔离、操作可审计。







请到「今天看啥」查看全文