专栏名称: 架构师

架构师云集，三高架构（高可用、高性能、高稳定）、大数据、机器学习、Java架构、系统架构、大规模分布式架构、人工智能等的架构讨论交流，以及结合互联网技术的架构调整，大规模架构实战分享。欢迎有想法、乐于分享的架构师交流学习。

Spring AI + Ollama 实现 DeepSeek-R1 API 服务和调用

架构师 · 公众号 · · 2025-02-02 22:30

正文

关注 AI 技能 ，开启智能生活！

架构师（JiaGouX）

我们都是架构师！
架构未来，你来不来？

随着大语言模型的快速发展，越来越多的开发者开始探索如何将这些强大的推理模型本地化运行。DeepSeek-R1，作为一款性能卓越的开源AI模型，以其低成本和出色的推理能力在技术圈内引起了广泛关注。本文将详细介绍如何使用Ollama部署DeepSeek-R1，并结合Spring Boot与Spring AI实现API服务调用，帮助开发者在本地化环境下实现高效的AI服务。

1. DeepSeek-R1 简介及亮点

DeepSeek-R1 是一款开源的AI语言模型，凭借其出色的推理能力和强大的性能，在科技界引起了广泛的关注。它的性能甚至在某些任务上超越了OpenAI的GPT-4等业内领先的语言模型。与其他大型语言模型不同，DeepSeek-R1的最大亮点是它支持本地部署。这意味着用户不仅可以在自己的计算环境中运行模型，还能更好地保护隐私，确保数据不被外部服务访问。

DeepSeek-R1的开源特性使得开发者能够对其进行定制和优化，以满足特定的应用需求。而且，DeepSeek-R1的低成本也使其成为了一个理想的选择，特别适合那些需要高效推理的开发者和小型企业。通过Ollama，DeepSeek-R1可以非常容易地在本地设备上运行，进一步降低了技术门槛。

2. Ollama：运行助手

对于许多用户来说，在普通笔记本电脑或其他本地硬件上运行强大的AI模型通常是一个难题。传统的大模型如GPT-4、BERT等需要强大的计算资源和复杂的部署步骤，这让很多开发者望而却步。Ollama的出现正是为了解决这一问题，它为本地部署大语言模型提供了一种简单、便捷的方法。

Ollama是专门为本地运行大语言模型设计的工具，操作简单且直观，即使是没有深厚技术背景的用户也能够轻松上手。Ollama支持多个平台，包括Windows、macOS和Linux，使得用户能够在不同的操作系统环境下都能方便地运行DeepSeek-R1等模型。通过Ollama，用户能够在个人电脑上实现高效的AI推理，无需依赖云服务，既节省了成本，又能更好地控制数据隐私。

3. 开始操作：环境设置

在实际操作之前，我们需要完成一些基本的环境设置。以下是详细的操作步骤。

步骤1：安装Ollama

首先，用户需要在本地机器上安装Ollama。安装过程非常简单，以下是详细的步骤：

访问 Ollama官网，下载与你操作系统匹配的版本（支持Windows、macOS和Linux）。
下载完成后，运行安装程序并按照提示完成安装。

对于Linux系统用户，可以通过以下命令进行安装：

 
curl -fsSL https://ollama.com/install.sh | sh

步骤2：验证Ollama安装

在继续进行后续步骤之前，确保Ollama已成功安装。打开终端或命令提示符，输入以下命令：

 
ollama --version

如果成功安装，终端会返回Ollama的版本号。如果没有返回版本号，说明安装失败，请检查安装步骤并重试。

步骤3：下载DeepSeek-R1

一旦确认Ollama安装无误，就可以开始下载DeepSeek-R1了。在终端中运行以下命令：






    
 
ollama run deepseek-r1

根据你的网络速度，这个过程可能需要一些时间。请耐心等待，直到下载完成。

步骤4：运行DeepSeek-R1

下载完成后，我们可以使用以下命令来启动DeepSeek-R1模型：

 
ollama run deepseek-r1

此时，DeepSeek-R1就会在本地设备上成功启动，准备为你提供推理服务。

4. 使用 GPU 加速运行 DeepSeek-R1

对于希望在GPU上运行DeepSeek-R1的用户，Ollama提供了GPU加速选项。通过利用NVIDIA或AMD的GPU，用户可以大幅提高推理速度，特别是在使用大规模模型（如DeepSeek-R1的671B版本）时，GPU加速能够显著提升性能。

4.1 配置 NVIDIA GPU

如果你的机器配有NVIDIA显卡，可以通过以下命令来指定要使用的GPU。假设你有四张NVIDIA A10显卡，可以执行以下命令来使用所有的显卡：

 
export CUDA_VISIBLE_DEVICES=0,1,2,3

如果只有一张GPU，你可以指定为：

 
export CUDA_VISIBLE_DEVICES=0

4.2 配置 AMD GPU

如果你的设备使用AMD显卡，配置稍有不同。你需要设置 HIP_VISIBLE_DEVICES 环境变量来指定使用的GPU。例如：

 
export HIP_VISIBLE_DEVICES=0

通过这种方式，你可以确保Ollama使用GPU加速，从而提升模型的运行效率。

4.3 DeepSeek-R1的硬件要求

根据你选择的DeepSeek-R1模型版本，其硬件配置需求会有所不同。以下是DeepSeek-R1模型的各个版本及其对应的硬件要求：

模型名称	模型大小	运行命令	硬件配置
DeepSeek-R1	671B	`ollama run deepseek-r1:671b`	极高的硬件要求，显存需求超336GB
DeepSeek-R1-Distill-Qwen-1.5B	1.5B	`ollama run deepseek-r1:1.5b`	最低配置：8GB RAM，无显卡加速
DeepSeek-R1-Distill-Qwen-7B	7B	`ollama run deepseek-r1:7b`	最低配置：16GB RAM，8GB显存（GPU加速）
DeepSeek-R1-Distill-Llama-8B	8B	`ollama run deepseek-r1:8b`	最低配置：16GB RAM，8GB显存（GPU加速）
DeepSeek-R1-Distill-Qwen-14B	14B	`ollama run deepseek-r1:14b`	最低配置：32GB RAM，26GB显存（GPU加速）
DeepSeek-R1-Distill-Qwen-32B	32B	`ollama run deepseek-r1:32b`	最低配置：64GB RAM，64GB显存（GPU加速）
DeepSeek-R1-Distill-Llama-70B	70B	`ollama run deepseek-r1:70b`	最低配置：128GB RAM，140GB显存（GPU加速）

根据你的硬件配置选择合适的模型版本，以确保DeepSeek-R1能够顺利运行。

5. 使用 Spring Boot + Spring AI 调用 DeepSeek-R1

在完成Ollama的安装和DeepSeek-R1的本地部署后，接下来我们可以通过Spring Boot与Spring AI来调用DeepSeek-R1模型，并实现API服务。Spring Boot提供了丰富的功能，能够轻松与Ollama结合，处理来自客户端的请求，并返回模型的推理结果。

5.1 构建 Spring Boot 项目

首先，使用 Spring Initializr