专栏名称: EETOP

EETOP电子网(中国电子顶级开发网）是国内最顶级的电子行业工程师社区，涉及：嵌入式、智能硬件、半导体集成电路设计及制造等。为您分享论坛精华内容、行业最新资讯、产品及技术。网址：www.eetop.cn bbs.eetop.cn

数据中心中的 AI 推理：打破效率与成本的权衡

EETOP · 公众号 · 硬件 · 2025-02-13 12:18

正文

训练和推理包括数据中心 AI 处理的两个关键方面。了解两者之间的区别，以及所涉及的成本效益问题。

在数据中心执行人工智能（AI）工作负载（图 1）涉及两个关键过程：训练和推理。乍一看，这些过程似乎很相似 — 都涉及读取数据、处理数据和生成输出。仔细检查会发现它们之间存在显着差异。

图 1. 在 AI 工作负载需求的推动下，数据中心的计算需求持续飙升。

数据中心中的训练与推理：主要差异

以具有数千亿甚至数万亿个参数的大型语言模型（LLM）为例，AI 模型的复杂性呈爆炸式增长，这推动了对训练和推理的前所未有的计算需求。然而，它们的运营要求和优先事项却大相径庭。

计算性能

训练是一个计算量非常大的过程，需要 ExaFLOPS 的能力来分析和提取大量（通常是非结构化数据集）中的模式。此过程可能持续数周甚至数月，因为模型会进行迭代优化以实现高精度。

推理虽然对计算要求也很高，但通常在较小的规模上运行，通常以 PetaFLOPS 为单位。它的关注点更窄，将经过训练的模型应用于特定任务，例如响应用户查询，使其更具针对性和简化性。

响应时间

对于训练，准确性优先于速度。该过程涉及长时间运行，模型持续运行以微调输出并减少幻觉的可能性。

另一方面，推理优先考虑速度。它必须几乎即时提供结果以满足用户期望，响应时间通常以毫秒到几秒钟为单位。

延迟

延迟是训练期间的次要问题，因为重点是获得精确可靠的结果，而不是立竿见影的结果。

相反，推理依赖于低延迟来保持流畅的用户体验。高延迟响应可能会中断交互，使延迟成为性能的关键指标。

精度

训练需要高精度，通常使用 fp32 或 fp64 等格式，以确保模型可靠并最大限度地减少错误。这种高精度水平需要强大的处理能力和连续运行。

Inference 通过为许多应用程序采用 fp8 等较低精度的格式来平衡准确性与效率。

这些格式显著降低了计算需求，而不会影响有效结果所需的质量。

表 1 说明了五个关键属性的这些区别，强调了训练和推理如何优化性能、精度和效率，以满足 AI 工作负载的独特要求。

算法训练和推理共享一些关键计算属性，但不是全部。

表 1 .算法训练和推理共享一些关键计算属性，但不是全部。

基础设施挑战：电力和成本

数据中心的巨大计算需求需要将一排排专用硬件安装在坚固的重型机柜中，这些机柜旨在容纳大型高性能系统。这些装置会大规模消耗能源，通常以吉瓦为单位，这会产生大量热量，并且需要大量的冷却系统以及定期的专门维护，以确保最佳运行。

为 AI 处理量身定制的数据中心成本非常高。这些费用源于多种因素：购买尖端硬件、对设施建设的大量投资、由技术人员进行的定期维护以及全年 24/7 运行所需的无情能源消耗。

在训练中，重点仍然是生成准确的模型，通常忽略了成本考虑。普遍的心态是“不惜一切代价完成工作”。

相比之下，推理对成本高度敏感。每次查询的成本成为一个重要的指标，特别是对于每天管理数百万甚至数十亿个查询的应用程序。麦肯锡 2022 年的一项分析说明了高吞吐量 AI 系统的制约因素。例如，Google 搜索每秒处理大约 100000 个查询，为了保持经济可行性，每个查询的目标成本约为 0.002 USD。相比之下，ChatGPT-3 的每次查询成本，虽然由于通用和专业用例的差异而无法直接比较，但估计每次查询约为 0.03 美元，凸显了达到 Google 级别查询经济性所需的效率差距。

电源效率是一个关键的平衡行为。虽然推理通常比训练消耗更少的功率，但提高推理的能源效率可以显著降低成本并减少对环境的影响。此领域的增强功能使数据中心能够在现有能源限制内提供更强大的计算能力，或者通过减少冷却和基础设施要求来降低每个计算单元的成本。

这种形势凸显了对创新解决方案的迫切需求，这些解决方案必须超越传统的计算效率和成本之间的权衡。通过应对这些挑战，数据中心的下一代 AI 进步可以在性能、可扩展性和可持续性方面实现突破。

用于训练和推理的 AI 加速器的现状

当前的数据中心 AI 加速器主要由图形处理单元（GPU）提供支持，用于训练和推理。虽然单个 GPU 设备可以提供 PetaFLOPS 规模的性能，但其设计架构（最初针对图形加速进行了优化）难以满足推理所需的延迟、功耗和成本效率的严格要求。

GPU 在训练和推理中的可互换使用是问题的核心。尽管 GPU 具有计算能力，但无法达到经济可扩展的 AI 解决方案所需的每次查询成本基准。

植根于物理和技术的限制

GPU 可以提高数据处理性能，但不会提高数据移动吞吐量。差距源于基本的物理和技术限制：

导体中的能量耗散 ：当电力流过导体时，能量耗散是不可避免的。较长的导体会导致更大的能量损失，从而加剧效率低下。
Memory versus Logic Power Dissipation ：该规则的推论假设 memory作耗散的能量可以达到用于处理数据的 logic 消耗的能量的 1,000 倍。这种差异被简洁地描述为内存墙，它突出了内存和数据访问策略创新以优化电源效率的必要性。

征服内存墙的尝试

内存墙是指处理器性能和内存带宽之间越来越大的差距，这一差距在过去 30 年中显著扩大。这种不平衡会降低处理器效率，增加功耗并限制可扩展性。

一种常用的解决方案，随着时间的推移而改进，包括通过引入多级分层缓存来缓冲处理器附近的内存通道。通过缓存经常访问的数据，数据路径显著缩短，从而提高性能。

沿着内存层次结构向下移动，存储结构从单个位可寻址寄存器过渡到紧密耦合的内存（TCM）、暂存器内存和高速缓存。虽然这种进展会增加存储容量，但也会降低执行速度，因为需要更多的周期来将数据移入和移出内存。

内存层次结构越深，对延迟的影响就越大，最终会降低处理器效率。

人工智能的内在潜力，特别是生成式人工智能，尤其是代理人工智能，受到记忆带宽有限度的严重阻碍。虽然 GPU 是数据中心 AI 训练的首选，但它们的效率因算法而异。例如，据报道，GPT-4 MoE（专家混合）的效率下降到仅 3-5%，但在 Llama3-7B 上可以达到 30% 左右。

弥合差距：前进之路

在理想情况下，用 registers 替换 TCM、scratchpad memory 和 cache 将彻底改变性能。这种方法会将 hierarchical memory structure 转换为单个大型高带宽 memory，可在一个 clock cycle中直接访问。

这样的架构将提供高执行速度、低延迟和低功耗，同时最大限度地减少硅面积。至关重要的是，在处理过程中将新数据从外部存储器加载到 registers 不会中断系统吞吐量。

这种先进的设计有可能显著提高处理器效率，特别是对于处理资源密集型任务。当前的 GPU 可能难以跟上，在处理超过 1 万亿个参数的 LLM 时可能会耗尽容量。然而，这种创新的内存架构确保了对类似高需求工作负载的无缝处理，提供卓越的性能，而不会出现阻碍传统 GPU 设置的瓶颈。这一突破可能会重新定义复杂计算的处理方式，为 AI 及其他领域带来新的可能性。

平衡计算能力和经济可行性

为了确保可扩展的 AI 解决方案，必须在原始计算能力和成本考虑之间取得平衡。到 2028 年，LLM 推理将主导数据中心工作负载的预测强调了这一挑战。穆迪和贝莱德的分析师预测，生成式 AI 和自然语言处理的快速增长将推动数据中心基础设施的大幅升级。

这种增长需要制定策略来减少对昂贵加速器的依赖，同时提高性能。专用集成电路（ASIC）和张量处理单元（TPU）等新兴技术提供了一条充满希望的前进道路。这些专用架构旨在优化推理工作负载，优先考虑延迟、功耗和成本方面的效率。

重新思考 AI 的硬件和软件

满足 AI 推理的独特需求需要硬件和系统设计的范式转变。通过集成创新架构和重新构想支持软件生态系统，数据中心可以克服计算效率和经济可行性之间的传统权衡。

随着推理工作负载越来越多地塑造 AI 的未来，克服延迟和功耗方面的挑战至关重要。通过专注于经济高效和高性能的解决方案，该行业可以确保 AI 技术的可持续部署。这将为未来铺平道路，让 AI 驱动的洞察在全球范围内都能获得且负担得起，从而实现变革性的实际应用。

向大家推荐几个半导体圈必读的公众号

半导体创芯网

半导体行业一手资讯、技术、热点爆料及分享！

特别提示：关注半导体创芯网公众号并回复“ 芯片 ”，