GitHub - microsoft/DeepSpeed-MII: MII makes low-latency and high-throughput inference possible, powered by DeepSpeed.
github.com/microsoft/DeepSpeed-MII
下图显示了 MII 如何使用 DeepSpeed-Inference 自动优化 OSS 模型;
然后,使用 GRPC 在本地部署,或使用 AML Inference 在 Microsoft Azure 上部署。
MII 的底层由 DeepSpeed-Inference 提供支持。
根据模型类型、模型大小、批量大小和可用硬件资源,MII 自动应用 DeepSpeed-Inference 中的一组适当的系统优化,以最大限度地减少延迟并最大限度地提高吞吐量。
它通过使用许多预先指定的模型注入策略之一来实现这一点,该策略允许 MII 和 DeepSpeed-Inference 识别底层 PyTorch 模型架构并用优化的实现替换它。
在此过程中,MII 使 DeepSpeed-Inference 中一系列的优化自动可用于其支持的数千种流行模型。