专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
宛央女子  ·  不想工作!不想工作!不想工作! ·  昨天  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

Deepspeed- M II优化模型推理实现

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-05-22 01:04

正文

DeepSpeed 是一个深度学习优化库,使分布式训练和推理变得简单、高效、有用。

DeepSpeed-MII (Model Implementations for Inference)是 DeepSpeed 的一个开源 Python 库,旨在使模型不仅低延迟和低成本推理,而且还易于访问。

  • MII 提供了对数千种广泛使用的深度学习模型的高度优化实现。

  • 与原始PyTorch实现相比,MII 支持的模型可显著降低延迟和成本。

  • 为了实现低延迟/低成本推理,MII 利用 DeepSpeed-Inference 的一系列广泛优化,例如:transformers 的深度融合、用于多 GPU 推理的自动张量切片、使用 ZeroQuant 进行动态量化等。

  • MII 只需几行代码即可通过 AML 在本地和 Azure 上低成本部署这些模型。

GitHub - microsoft/DeepSpeed-MII: MII makes low-latency and high-throughput inference possible, powered by DeepSpeed. github.com/microsoft/DeepSpeed-MII

下图显示了 MII 如何使用 DeepSpeed-Inference 自动优化 OSS 模型; 然后,使用 GRPC 在本地部署,或使用 AML Inference 在 Microsoft Azure 上部署。

MII 的底层由 DeepSpeed-Inference 提供支持。 根据模型类型、模型大小、批量大小和可用硬件资源,MII 自动应用 DeepSpeed-Inference 中的一组适当的系统优化,以最大限度地减少延迟并最大限度地提高吞吐量。 它通过使用许多预先指定的模型注入策略之一来实现这一点,该策略允许 MII 和 DeepSpeed-Inference 识别底层 PyTorch 模型架构并用优化的实现替换它。 在此过程中,MII 使 DeepSpeed-Inference 中一系列的优化自动可用于其支持的数千种流行模型。

MII 提供DeepSpeed-Inference 的广泛优化:

  • DeepFusion for Transformers:对于基于 Transformer 的模型(例如 Bert、Roberta、GPT-2 和 GPT-J),MII 利用 DeepSpeed-Inference 中的 Transformer 内核进行优化,使用 DeepFusion 实现小批量的低延迟和大批量的高吞吐量。

  • 具有张量切片(Slicing)的多 GPU 推理:对于 Bloom 176B 等大模型,MII 自动启用节点内的张量并行性,利用聚合内存带宽和跨多个 GPU 的计算,实现与当前任何其他模型相比的最低延迟和吞吐量。







请到「今天看啥」查看全文