项目简介
Llama Stack 将 LLM 应用构建生成周期的所有组件打包,包括训练、微调、产品评估、观测、Agent & Memory、合成数据生成等,并支持 9+ 提供商
该存储库包含 Llama Stack API 规范以及 API 提供程序和 Llama Stack 发行版。
Llama Stack 定义并标准化了将生成式 AI 应用程序推向市场所需的构建块。这些模块跨越整个开发生命周期:从模型训练和微调,到产品评估,再到在生产中构建和运行人工智能代理。除了定义之外,我们正在为 Llama Stack API 构建提供程序。这些公司正在开发开源版本并与提供商合作,确保开发人员可以使用跨平台一致、互锁的部件来组装人工智能解决方案。最终目标是加速人工智能领域的创新。
Stack API 正在迅速改进,但仍有大量工作正在进行中,我们邀请反馈和直接贡献。
APIs
Llama Stack 由以下一组 API 组成:
-
推理
-
安全
-
记忆
-
代理系统
-
评估
-
Post Training
-
综合数据生成
-
奖励评分
每个 API 本身都是 REST 端点的集合。
API 提供商
提供者使 API 变得真实——它们提供支持 API 的实际实现。
举个例子,对于推理,我们可以让实现得到开源库的支持,比如
[ torch | vLLM | TensorRT ]
作为可能的选项。
提供程序也可以只是指向远程 REST 服务的指针——例如,云提供程序或专用推理提供程序可以为这些 API 提供服务。
Llama Stack Distribution 堆栈分布
分发版是将 API 和提供程序组装在一起,为最终应用程序开发人员提供一致的整体。您可以混合搭配提供程序——有些可以由本地代码支持,有些可以是远程的。作为爱好者,您可以在本地提供小型模型,但可以为大型模型选择云提供商。无论如何,您的应用程序需要使用的更高级别的 API 根本不需要更改。您甚至可以想象跨越服务器/移动设备边界并始终使用相同的统一 API 集来开发生成式 AI 应用程序。
支持的 Llama 堆实现
API 提供商
API Provider Builder
|
Environments
|
Agents
|
Inference
|
Memory
|
Safety
|
Telemetry
|
Meta Reference
|
Single Node
|
✔️
|
✔️
|
✔️
|
✔️
|
✔️
|
Fireworks
|
Hosted
|
✔️
|
✔️
|
✔️
|
|
|
AWS Bedrock
|
Hosted
|
|
✔️
|
|
✔️
|
|
Together
|
Hosted
|
✔️
|
✔️
|
|
✔️
|
|
Ollama
|
Single Node
|
|
✔️
|
|
|
|
TGI
|
Hosted and Single Node
|
|
✔️
|
|
|
|
Chroma
|
Single Node
|
|
|
✔️
|
|
|
PG Vector
|
Single Node
|
|
|
✔️
|
|
|
PyTorch ExecuTorch
|
On-device iOS
|
✔️
|
✔️
|
|
|
|
Distributions
Distribution Provider
|
Docker
|
Inference
|
Memory
|
Safety
|
Telemetry
|
Meta Reference
|
Local GPU, Local CPU
|
✔️
|
✔️
|
✔️
|
✔️
|
Dell-TGI
|
Local TGI + Chroma
|
✔️
|
✔️
|
✔️
|
✔️
|