主要观点总结
文章介绍了大模型技术架构的全局视角,特别关注推理性能的提升,涉及底层硬件、模型层、软件中间件层等各个层面。文章还提到了随着DeepSeek R1和Qwen2.5-Max的发布,国内大模型推理需求激增的情况。此外,文章也介绍了大模型技术架构的其他层面,包括芯片层、面向芯片的编程语言和芯片开发包层、通用深度学习框架层、大模型推理加速层、大模型层、计算平台层、应用编排层、流量管理层等。
关键观点总结
关键观点1: 大模型技术架构的全局视角
了解大模型技术架构的全局视角对于评估和优化推理性能至关重要。涉及底层硬件、模型层、软件中间件层等各个层面的技术和选型。
关键观点2: 国内大模型推理需求的激增
随着DeepSeek R1和Qwen2.5-Max的发布,国内大模型推理需求激增,性能提升的主战场从训练转移到推理。
关键观点3: 大模型技术架构的其他层面
除了关注推理性能,文章还介绍了大模型技术架构的其他层面,包括芯片层、通用深度学习框架层、大模型层等,每个层面都有不同的重要性和挑战。
正文
推理性能的提升涉及底层硬件、模型层,以及其他各个软件中间件层的相互协同,因此了解大模型技术架构的全局视角,有助于我们对推理性能的优化方案进行评估和选型。
随着 DeepSeek R1 和 Qwen2.5-Max 的发布,国内大模型推理需求激增,性能提升的主战场将从训练转移到推理。
由于无论是训练还是推理,如何提升性能都是业内讨论最多的话题之一。为什么是性能呢?
做过在线业务工程化的人都知道,性能的提升,直接带来的效果有两个:
在大模型消耗计算资源多、客户端内容流式生成的场景下,性能显得尤为重要。
推理性能的提升涉及底层硬件、模型层,以及其他各个软件中间件层的相互协同,因此了解大模型技术架构的全局视角,有助于我们对推理性能的优化方案进行评估和选型。
说明:图中未包含所有 vendor(欢迎留言补充),部分 vendor 会涉及多个领域。
芯片层是计算系统的物理基础,负责执行底层算术逻辑操作,其设计直接影响算力密度、能耗比及并行计算能力。国外有 NVIDIA、AMD 等 GPU 厂商,还有 Groq 等专门针对 AI 推理进行性能优化的芯片制造商。国内有阿里的平头哥、华为的 AScend、寒武纪,以及多家创业公司,包括摩尔线程、燧原科技、沐曦集成、壁仞等。
目前,平头哥玄铁、华为的 AScend、沐曦集成等均已提供 DeepSeek 的适配,缓解芯片供给侧压力。
硬件编程的抽象接口,实现高效资源调度与指令映射,平衡编程便利性与计算效率。NVIDIA CUDA、AMD ROCm、平头哥 HGAI、Ascend C、寒武纪 BangC、摩尔线程 MUSA、燧原科技 Tops Riser、沐曦集成MXMACA、壁仞 SUPA,除了提供面向硬件的编程语言,还会提供库、工具和文档等一系列开发者工具。NVIDIA CUDA 技术生态繁荣,对开发者而言,切换编程语言,成本较大。
提供一系列基础工具和功能,简化了大模型的开发、训练和部署流程。
教练水平决定训练效果,
PyTorch
和
TensorFlow
是两大“顶流私教”,主流框架包括:
-
PyTorch:
由 Facebook AI Research 开发并维护。采用动态计算图技术,在执行过程中能动态调整计算流程,与 Python 深度集成,提供直观的 API 接口和灵活的编程体验。适用于快速原型开发、研究和实验,尤其是需频繁修改和迭代模型的场景。
-
TensorFlow:
由谷歌基于 DistBelief 研发的第二代人工智能学习系统,可用于 Python、JavaScript、C++ 和 Java 等多种编程语言,广泛应用于语音识别、图像识别等机器学习和深度学习领域,支持 CNN、RNN 和 LSTM 等算法。
-
JAX:
由谷歌开发,旨在为科研人员提供一个既能够方便进行算法实验,又能充分利用硬件资源加速计算的工具,尤其在需要进行自动求导和并行计算的场景中表现出色。
-
MindSpore:
有华为开源,是一种适用于端边云场景的新型开源深度学习训练/推理框架,为Ascend AI 处理器提供原生支持,以及软硬件协同优化。
针对推理阶段优化计算效率与资源利用率,通过编译、量化、批处理等技术降低延迟与成本。
这一层参与的行业玩家众多,有芯片制造商、云厂商、软件企业、模型社区、科研机构,提供包括开源方案和商业服务,后端接入大模型,提供 API 调用服务。
推理加速的本质是“显存刺客” vs “算力魔术师”,谁能用更少的资源跑出更高的性能,谁就是赢家。业内主流方案包括:
-
vLLM:
由 UC Berkeley 研究团队开源的大语言模型推理和服务框架,采用 PagedAttention 技术,有效减少内存碎片,提升内存利用率,支持多种大语言模型,如通义、LLaMA 等,与 Hugging Face 生态集成良好,可直接加载 HF 上的模型权重。
-
TensorRT-LLM:
是 NVIDIA 基于 TensorRT 优化的 LLM 开源推理库,深度集成 NVIDIA GPU 硬件特性,如 Tensor Core,可与 NVIDIA 其他工具和库(如 CUDA、cuBLAS 等)无缝配合,还可以与 Triton 框架结合,以提升服务在 NVIDIA GPU 上的推理效率。
-
ONNX Runtime:
轻量级、跨平台的高性能推理引擎,由微软开发并维护,旨在打破不同深度学习框架之间的壁垒,使得模型可以在多种环境中高效运行,提高模型的可移植性和部署效率。
-
TGI:
由Hugging Face 团队开发,紧密集成 Hugging Face 的 Transformer 库,可轻松加载和使用 Hugging Face 上的众多模型;支持分布式推理,可在多 GPU 环境下扩展服务能力。
-
Deepytorch Inference:
阿里云 GPU 云服务器自研的AI推理加速器,专注于为Torch模型提供高性能的推理加速。通过对模型的计算图进行切割、执行层融合以及高性能OP的实现,大幅度提升PyTorch的推理性能。
-
BladeLLM:
阿里云人工智能平台 PAI 自研的为大语言模型优化的推理引擎,在模型计算、生成引擎、服务框架、应用场景层均作了提升,性能优于主流开源框架。
-
SiliconLLM:
硅基流动科技推出的专注于大模型推理加速的框架,自主研发了高效的算子和调度策略,支持多种硬件平台,可与多种深度学习框架协同工作。
开源 LLM 已经不再仅仅是闭源模型的追随者,而是开始主导 AI 发展的方向,DeepSeek、Qwen 和 LLaMA 是目前领跑的开源项目。
计算平台层,由于依赖 GPU 算力资源,国内以公共云厂商为主,例如阿里云的人工智能计算平台 PAI、百炼、提供 Serverless GPU 能力的函数计算 FC、容器计算服务 ACS、GPU 服务器等。
国外因不受美国出口管制条例的影响,以及大模型技术生态更加完善的原因,vendor 种类和数量更加丰富。除了公共云厂商提供的算力服务外,还有芯片厂商、软件厂商,均提供了推理计算服务。例如 Groq、together.io、Fireworks.ai 等。
随着国产 GPU 和 AI 芯片能力的增强,相信这一层国内的 vendor 也会越来越多,提供更加丰富多样的推理计算服务,进一步完善大模型产业链。
大模型的应用编排层是大模型落地产业的核心中间层,是连接大模型能力与业务场景的"粘合剂",主要用于整合模型、工具、数据和服务,实现复杂 AI 任务的自动化流程构建与执行,并提升生成效果。
-
Spring AI Alibaba:
专为 Spring 和 Java 开发者设计的智能体开发框架,对 AI 智能体应用的通用开发范式做了很好的抽象,从原子能力层次如对话模型接入、提示词模板到函数调用,再到高层次抽象如智能体编排、对话记忆,和国内大模型做了深度适配,还提供了应用从部署到运维的最佳实践,包括网关、配置管理、部署、可观测等。