专栏名称: 架构师
架构师云集,三高架构(高可用、高性能、高稳定)、大数据、机器学习、Java架构、系统架构、大规模分布式架构、人工智能等的架构讨论交流,以及结合互联网技术的架构调整,大规模架构实战分享。欢迎有想法、乐于分享的架构师交流学习。
目录
相关文章推荐
51好读  ›  专栏  ›  架构师

Spring AI + Ollama 实现 DeepSeek-R1 API 服务和调用

架构师  · 公众号  ·  · 2025-02-02 22:30

正文

关注 AI 技能 ,开启智能生活!


架构师(JiaGouX)
我们都是架构师!
架构未来,你来不来?



随着大语言模型的快速发展,越来越多的开发者开始探索如何将这些强大的推理模型本地化运行。DeepSeek-R1,作为一款性能卓越的开源AI模型,以其低成本和出色的推理能力在技术圈内引起了广泛关注。本文将详细介绍如何使用Ollama部署DeepSeek-R1,并结合Spring Boot与Spring AI实现API服务调用,帮助开发者在本地化环境下实现高效的AI服务。


1. DeepSeek-R1 简介及亮点

DeepSeek-R1 是一款开源的AI语言模型,凭借其出色的推理能力和强大的性能,在科技界引起了广泛的关注。它的性能甚至在某些任务上超越了OpenAI的GPT-4等业内领先的语言模型。与其他大型语言模型不同,DeepSeek-R1的最大亮点是它支持本地部署。这意味着用户不仅可以在自己的计算环境中运行模型,还能更好地保护隐私,确保数据不被外部服务访问。

DeepSeek-R1的开源特性使得开发者能够对其进行定制和优化,以满足特定的应用需求。而且,DeepSeek-R1的低成本也使其成为了一个理想的选择,特别适合那些需要高效推理的开发者和小型企业。通过Ollama,DeepSeek-R1可以非常容易地在本地设备上运行,进一步降低了技术门槛。


2. Ollama:运行助手

对于许多用户来说,在普通笔记本电脑或其他本地硬件上运行强大的AI模型通常是一个难题。传统的大模型如GPT-4、BERT等需要强大的计算资源和复杂的部署步骤,这让很多开发者望而却步。Ollama的出现正是为了解决这一问题,它为本地部署大语言模型提供了一种简单、便捷的方法。

Ollama是专门为本地运行大语言模型设计的工具,操作简单且直观,即使是没有深厚技术背景的用户也能够轻松上手。Ollama支持多个平台,包括Windows、macOS和Linux,使得用户能够在不同的操作系统环境下都能方便地运行DeepSeek-R1等模型。通过Ollama,用户能够在个人电脑上实现高效的AI推理,无需依赖云服务,既节省了成本,又能更好地控制数据隐私。


3. 开始操作:环境设置

在实际操作之前,我们需要完成一些基本的环境设置。以下是详细的操作步骤。

步骤1:安装Ollama

首先,用户需要在本地机器上安装Ollama。安装过程非常简单,以下是详细的步骤:

  1. 访问 Ollama官网 ,下载与你操作系统匹配的版本(支持Windows、macOS和Linux)。

  2. 下载完成后,运行安装程序并按照提示完成安装。

对于Linux系统用户,可以通过以下命令进行安装:

curl -fsSL https://ollama.com/install.sh | sh

步骤2:验证Ollama安装

在继续进行后续步骤之前,确保Ollama已成功安装。打开终端或命令提示符,输入以下命令:

ollama --version

如果成功安装,终端会返回Ollama的版本号。如果没有返回版本号,说明安装失败,请检查安装步骤并重试。

步骤3:下载DeepSeek-R1

一旦确认Ollama安装无误,就可以开始下载DeepSeek-R1了。在终端中运行以下命令:

ollama run deepseek-r1

根据你的网络速度,这个过程可能需要一些时间。请耐心等待,直到下载完成。

步骤4:运行DeepSeek-R1

下载完成后,我们可以使用以下命令来启动DeepSeek-R1模型:

ollama run deepseek-r1

此时,DeepSeek-R1就会在本地设备上成功启动,准备为你提供推理服务。


4. 使用 GPU 加速运行 DeepSeek-R1

对于希望在GPU上运行DeepSeek-R1的用户,Ollama提供了GPU加速选项。通过利用NVIDIA或AMD的GPU,用户可以大幅提高推理速度,特别是在使用大规模模型(如DeepSeek-R1的671B版本)时,GPU加速能够显著提升性能。

4.1 配置 NVIDIA GPU

如果你的机器配有NVIDIA显卡,可以通过以下命令来指定要使用的GPU。假设你有四张NVIDIA A10显卡,可以执行以下命令来使用所有的显卡:

export CUDA_VISIBLE_DEVICES=0,1,2,3

如果只有一张GPU,你可以指定为:

export CUDA_VISIBLE_DEVICES=0

4.2 配置 AMD GPU

如果你的设备使用AMD显卡,配置稍有不同。你需要设置 HIP_VISIBLE_DEVICES 环境变量来指定使用的GPU。例如:

export HIP_VISIBLE_DEVICES=0

通过这种方式,你可以确保Ollama使用GPU加速,从而提升模型的运行效率。

4.3 DeepSeek-R1的硬件要求

根据你选择的DeepSeek-R1模型版本,其硬件配置需求会有所不同。以下是DeepSeek-R1模型的各个版本及其对应的硬件要求:

模型名称 模型大小 运行命令 硬件配置
DeepSeek-R1 671B ollama run deepseek-r1:671b 极高的硬件要求,显存需求超336GB
DeepSeek-R1-Distill-Qwen-1.5B 1.5B ollama run deepseek-r1:1.5b 最低配置:8GB RAM,无显卡加速
DeepSeek-R1-Distill-Qwen-7B 7B ollama run deepseek-r1:7b 最低配置:16GB RAM,8GB显存(GPU加速)
DeepSeek-R1-Distill-Llama-8B 8B ollama run deepseek-r1:8b 最低配置:16GB RAM,8GB显存(GPU加速)
DeepSeek-R1-Distill-Qwen-14B 14B ollama run deepseek-r1:14b 最低配置:32GB RAM,26GB显存(GPU加速)
DeepSeek-R1-Distill-Qwen-32B 32B ollama run deepseek-r1:32b 最低配置:64GB RAM,64GB显存(GPU加速)
DeepSeek-R1-Distill-Llama-70B 70B ollama run deepseek-r1:70b 最低配置:128GB RAM,140GB显存(GPU加速)

根据你的硬件配置选择合适的模型版本,以确保DeepSeek-R1能够顺利运行。


5. 使用 Spring Boot + Spring AI 调用 DeepSeek-R1

在完成Ollama的安装和DeepSeek-R1的本地部署后,接下来我们可以通过Spring Boot与Spring AI来调用DeepSeek-R1模型,并实现API服务。Spring Boot提供了丰富的功能,能够轻松与Ollama结合,处理来自客户端的请求,并返回模型的推理结果。

5.1 构建 Spring Boot 项目

首先,使用 Spring Initializr







请到「今天看啥」查看全文