专栏名称: InfoQ

有内容的技术社区媒体。

大模型定价进入“厘时代”，AI应用爆发开启倒计时

InfoQ · 公众号 · 科技媒体 · 2025-01-10 15:15

正文

作者 | 凌敏

编辑 | 王一鹏

快过年了，在打折的不止是坚果大礼包，还有大模型。

12 月 18 日，在 2024 冬季火山引擎 FORCE 原动力大会上，火山引擎总裁谭待宣布豆包视觉理解模型每千 tokens 输入价格定为三厘（即 0.003 元），比行业价格低 85%。

自此，继 2024 年 5 月豆包主力模型将推理输入价格降至“厘时代”之后，视觉理解模型也正式进入了“厘时代”。

外行看的是降价的热闹，内行看的却是性价比的门道。

与大语言模型相比，视觉理解模型需要更多的计算资源和数据，应用场景更丰富，对用户体验的要求也更高。这也意味着围绕视觉理解模型的竞争从来都不只是所谓的“价格战”，而是：技术要提升，价格还得降，在不牺牲用户体验的前提下降低成本。

一面是动辄 10 亿美金的投资，一面是按厘计算、几乎和移动互联网流量持平的价格，真正的优化空间，其实隐藏在云基础设施层——它可以影响到整个计算生态系统，从根本上改变计算资源的使用方式，而不仅仅是单个模型或算法，进而实现更大幅度的性能提升和成本节约。

当 CPU 不再是主角

一切都要回溯到过去十年，云基础设施最重要的理念方法：云原生。

云原生充分利用了云计算的优势，通过容器、微服务等关键技术，将应用与底层基础设施解耦，不仅改变了应用程序的开发和部署方式，还推动了云基础设施的升级和变革。

但云原生架构的设计初衷和核心优化都是围绕 CPU 展开的，随着 AI 大模型的迅速发展和广泛应用，更多的计算任务开始以 GPU 为核心进行。

如果继续沿用传统的云原生架构，数据需要先通过 CPU 进行处理，再传输到 GPU 进行计算，这种绕行的方式不仅增加数据传输延迟，也造成了 GPU 算力的浪费。此外，GPU 的训练和推理场景对高速互联、在线存储和隐私安全也有更高的要求。

“云原生架构在 AI 场景下的挑战主要在于如何保持访问路径更短，避免绕行，同时确保计算、存储和数据分发的性能达到极致。”火山引擎云基础产品负责人罗浩在接受 InfoQ 采访时提到。

而在以推理为中心的 AI 竞赛下半场，传统云原生架构的不足之处进一步凸显。

众所周知，AI 技术的应用包含训练和推理两个过程。在过去很长一段时间里，AI 竞赛的焦点主要集中在算法模型的开发与训练上，随着大模型越来越多地落地应用，AI 推理成了新的关注点，推理算力需求也实现大幅增长。

根据 IDC 报告，未来 5 年国内的训练、推理算力分别以超过 50%、190% 的年复合增速发展，2028 年推理算力规模将超过训练算力。

与训练场景相比，大规模推理需要强大的并行计算能力和高效的算力利用率，而现有的云原生架构在资源调度方面难以做到对 AI 推理任务的精细化管理，进而造成算力资源的浪费，甚至影响整体的推理效率。

在支撑字节自有大模型应用落地的过程中，火山引擎也一直在思考如何优化原有的架构设计，并最终在云原生架构的基础上进一步演进成 “AI 云原生架构”。

“AI 云原生架构与云原生架构的核心思想一致，只是将其原有的理念应用到新的场景中。在 AI 时代，我们需要重新审视软件架构和基础架构，以适应更复杂的体系结构。”

在罗浩看来，AI 云原生架构是云原生架构的重要演进，它保留了云原生的优势，如弹性伸缩、高效资源利用、快速部署等，又能以 GPU 为核心重新优化计算、存储与网络。面向大规模推理场景，AI 云原生架构能够提供强大的计算资源和高效的调度能力，实现更大幅度的性能提升和成本节约。

AI 云原生，其实是个“大工程”

与过往层出不穷的新概念不同，火山引擎的“AI 云原生”，本质是个工程问题。

这一工程的起点，在于 GenAI 应用在 2025 年是必然要大规模落地的，这意味着行业不再能够接受没有利润的烧钱竞争，模型效率以及计算资源优化是最近半年绝对的“行业热词”。

这也意味着，要想留在牌桌上，拼的不只是算法和模型设计，还有存储、网络等基础设施。

在存储层面，随着模型规模的增大，数据处理所需的计算资源和显存占用量也在增加，这不仅对硬件资源提出了更高的要求，也对模型的推理速度和效率构成了挑战。

KV Cache（键值缓存）作为提高模型效率的关键技术，能够缓存模型在推理过程中产生的键（Key）和值（Value）对，以减少重复计算和显存的占用，从而加快推理速度。在过去的云原生架构体系下，KV Cache 通常依赖于 CPU 和内存的体系结构，使用 Redis 作为缓存解决方案将数据从 GPU 传输到 CPU，然后再存取至内存，在时延和带宽上都带来挑战。

“在过去的一年里，我们一直在思考如何实现一种类似于 CPU 直接使用 Redis 的机制，让 GPU 直接访问内存去使用 Redis，使得路径更短，效率更高。”罗浩表示，基于这一思路，火山引擎重写了整个 KV 体系，在以 GPU 算⼒为核⼼的 AI 云原生存储中，完全绕开了传统的 CPU 体系内存访问路径，允许 GPU 直接访问远程高速内存，从而简化数据传输路径，提高计算效率。

与存储相比，网络层面的优化或许更为关键——网络性能可以直接影响到数据的传输速度和可靠性，如果网络带宽不足或延迟过高，再高性能的存储系统也难以发挥潜力。

在过去，网络互联主要依赖于 TCP 协议，它的优势在于良好的兼容性和可扩展性。但随着 AI 应用对网络性能要求的提高，传统的 TCP 协议因其高延迟和有限带宽而逐渐显露出局限性。目前，业内普遍采用 RDMA(RemoteDirect Memory Access，远程直接内存访问) 技术，允许网络中的一台计算机直接访问另一台计算机内存，无需操作系统介入。但其本质是物理层协议，不具备云上部署的灵活性。

应该说，火山引擎这家公司多少有些“技术洁癖”：既没选择 TCP，也没选择 RDMA，他们实现了 vRDMA（Virtual Remote Direct Memory Access，虚拟远程直接内存访问）。

与 RDMA 相比，vRDMA 允许数据绕过传统网络协议栈，直接在 GPU 之间进行传输，大幅降低数据传输延迟，提高数据传输效率。对于需要频繁进行大规模数据处理的 AI 场景来说，vRDMA 技术极大地提高了网络的灵活性和扩展性，并带来成本上的大幅节约。

在新一代的火山引擎 GPU 实例中，这种 vRDMA 网络技术，可以支持大规模并行计算和 P/D 分离推理架构，提升训练和推理效率，降低成本；新推出的 EIC 弹性极速缓存，则能够实现 GPU 直连，使大模型推理时延降低至 1/50，成本降低 20%。

以更低成本推动 AI 技术普惠

这些数字更具体的意义，体现在火山最近的一系列商业合作中，一个典型行业是智能驾驶。

在智能驾驶领域，端到端大模型凭借其感知、规划和控制的一体化能力，极大地提升了驾驶体验和稳定性。据四维图新智驾感知算法负责人唐文博介绍，在训练和使用端到端大模型时，企业通常会遇到三大挑战：

其一，端到端大模型是一种典型的数据驱动技术，模型的表现与输入数据的规模和质量密切相关。整个训练通常需要百万规模的 Clips 数据，每个 Clips 的时长在 20 秒到一分钟之间，存储量达到数十 PB。如此庞大的数据量对存储系统的并发性能、IO 能力和存储规模都提出了极高的要求。
其二，端到端大模型的训练通常要大规模的 GPU 集群，计算规模往往达到 4 千卡到 8 千卡级别。在如此庞大的计算资源基础上，还需要将计算集群和存储集群的物理距离拉得更近，以减少它们之间信息传输的耗时和延迟。
其三，端到端大模型的迭代速度非常快，迭代周期非常短，可能需要每周更新一版、测试一版。这也对集群的管控和规划，包括弹性调度、稳定性提出了更高的要求。

围绕这些挑战，四维图新与火山引擎针对端到端大模型训练展开合作。

在云服务的基础能力上，火山引擎提供了 AI 云原生式的全链路产品服务能力，包括自动驾驶常用的合规云、大规模高性能 GPU 集群，以及 GPU 卡之间的弹性调度和优先级管理能力。帮助四维图新研发团队能够在内部实现灵活的资源利用，实现大幅成本节约和研发效率提升。

此外，针对大规模分布式训练过程中可能出现的节点故障问题，火山引擎还提供了一键故障检测和故障自动恢复的能力，大幅提升了分布式训练过程中的稳定性，降低故障率。

而在互联网领域，AI 大模型早已从技术走向应用，并在多个场景实现落地。

以美图为例，通过在各类热门产品中融入自研 AI 大模型，美图在文生图、图生图、AI 视频处理等多个应用场景中取得显著成果。但业务量级提升了，推理任务的数量和复杂性也大幅增加，美图对高性能计算资源的需求也随之上升。同时，终端用户的访问需求呈现出较大波动性，给企业在高性能计算资源成本控制、弹性扩展能力建设以及存储访问性能提升等方面带来了诸多挑战。

对此，火山引擎为美图提供了多类型高性能计算资源，并能根据不同推理场景提供最适配的计算资源。依托火山引擎虚拟化技术，提高算力使用效率，有效降低整体计算成本。此外，火山引擎 VKE 集群的快速部署能力为美图及时应对流量洪峰提供了坚实的技术保障，并依靠其强大的资源池实现了推理服务的高度弹性和可扩展性。火山引擎的 vePFS 缓存服务在数据读取场景下提供了更高且更稳定的访问带宽，确保存储访问性能能够满足前端在大流量服务下的严格要求。

“当前对于标准模型的标准用法，不同实现之间的性能差别很小，真正体现出差异的是在特定场景下，不同的中间件产品组合，这可能会带来数倍的差异。”罗浩表示。

结语

火山引擎云基础当下的技术迭代，凸显在三方面：计算、存储和网络。

在计算方面，为了提高计算资源利用率，应对业务的潮汐波动，火山引擎依托 AI 云原生架构构建万卡级的资源池，并提供了弹性预约实例（ESI）和抢占式实例（Spot），支持 CPU 和 GPU 资源的弹性扩展，实现千卡级 / 分钟的弹性效率。火山引擎对资源弹性能力的追求从未止步。在未来，火山引擎将进一步扩展计算资源的弹性能力，提升资源池的规模和多样性。

在存储方面，以 GPU 为中心的业务架构体系对存储的访问性能提出了更高的要求，数据需要更加贴近计算，以进一步降低数据访问的延时。火山引擎支持数据多级缓存，通过南北向的高效数据流动向用户提供极致的访问性能；通过弹性极速缓存 EIC 的 GDR（GPU Direct RDMA）能力实现数据 0 拷贝，降低数据传输时延；同时通过东西向的数据流动能力，实现多地域之间高效地共享数据和计算资源。

在网络方面，火山引擎将继续提升异构设备之间的互联性能，通过引入 NVLink 等高速互联技术，与 vRDMA 互为补充——在一个高性能计算集群中，可以使用 NVLink 实现 GPU 之间的高速通信，同时利用 vRDMA 实现虚拟机之间的数据传输，进一步提升整个系统的计算效率和性能。

从虚拟化到容器再到微服务，架构的每次演进都是在特定历史背景下，为了解决当时的痛点而发生的。也许未来还会出现新的计算方式，但目前来看，有三大趋势相对明确：

计算正在从以 CPU 为中心向以 GPU 为中心转变；
围绕 GPU 的传统中间件和数据处理方式将进一步迭代；
编程范式、应用开发方式和编排方式可能会发生改变。

而围绕这三个趋势的技术方案，才是真正能实现 AI 技术普惠，让 AI 应用得以迅速爆发的关键。

50 多岁转型 AI，犀利批判硅谷大厂：“先变成个混蛋才能做成事”

2025伊始，万字长文刷新AI产品20个认知

2025 年铁了心不再招软件工程师？！这位 15 岁就开公司、25 年创上万亿市值的巨头 CEO 再放“狂言”

会议推荐

在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下，变革与机遇交织，挑战与突破共生。2025 年 4 月 10 - 12 日，QCon 全球软件开发大会将在北京召开，以 “智能融合，引领未来” 为年度主题，汇聚各领域的技术先行者以及创新实践者，为行业发展拨云见日。「更智能的企业 AI 搜索实践」、「反卷 “大” 模型」、「多模态大模型及应用」等热点专题，直击行业痛点，解锁可复制的经验与模式。现在报名可以享受 8 折优惠，单张门票立省 1360 元，详情可联系票务经理 18514549229 咨询。