本地部署 DeepSeek-R1 的方法其实有很多,这里我们简单介绍两种:一是基于 Ollama 实现本地部署,二是使用 LM Studio 的零代码部署方法。
基于 Ollama 部署 DeepSeek-R1
下面我们将基于 Ollama 介绍如何在你自己的设备上部署你自己的 DeepSeek-R1。
Ollama 是目前最常使用的本地部署和运行语言模型的框架,其非常轻量,而且具有很好的可扩展性。从名字也能看出来,Ollama 是 Meta 发布 Llama 系列模型之后诞生的。但这个项目是社区驱动的,与 Meta 以及 Llama 系列模型的开发没有直接关系。
Ollama 项目诞生之后发展非常迅速,不管是支持的模型量还是支持其的各种生态系统都在迅速发展。
Ollama 支持的部分模型和生态
使用 Ollama 的第一步非常简单,下载并安装 Ollama,访问以下地址,下载适合你操作系统的版本即可。
下载地址:https://ollama.com/download
有了 Ollama,还需要为你的设备配置 AI 模型。这里以 DeepSeek-R1 为例进行演示。首先进入 Ollama 官网查看支持的模型及相应的版本:https://ollama.com/search 这里我们可以看到 DeepSeek-R1 现有 1.5B 到 671B 共 7 个不同规模的共 29 个不同版本,其中包括一些基于开源模型 Llama 和 Qwen 进行微调、蒸馏或量化处理后得到的模型。
具体该选择哪个版本,我们先得了解自己的硬件配置情况。dev.to 开发者社区 Avnish 写了一篇文章,简单总结了 DeepSeek-R1 不同规模版本的硬件需求,可作参考:
图源:https://dev.to/askyt/deepseek-r1-architecture-training-local-deployment-and-hardware-requirements-3mf8
这里我们以 8B 版本为例进行演示:打开你设备上的终端工具,运行
ollama run deepseek-r1:8b
接下来就是等待模型下载完成。(Ollama 现在也支持直接从 Hugging Face 拉取模型,命令是 ollama run hf.co/{用户名}/{库}:{量化版本},比如 ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Q8_0。)
模型下载完成后,你就可以直接在这个终端中与下载好的 8B 版 DeepSeek-R1 聊天了。
但是,对普通用户来说,这种对话方式非常不直观,也不方便。因此我们还需要配置一个好用的前端。而前端的选择可就多了。我们即可以使用能在浏览器中提供类似 ChatGPT 体验的 Open WebUI,也可以选择 Chatbox 等前端工具,你也可以在这里寻找你想要的前端:https://github.com/ollama/ollama
1. 如果你想使用 Open WebUI,只需在你的终端以此运行以下两行代码即可:
安装 Open WebUI:
运行 Open WebUI:
接下来,只需访问 http://localhost:8080,就能在你的浏览器中获得类似 ChatGPT 的体验。
从 Open WebUI 的模型列表中可以看到,本机上的 Ollama 已经配置了多个模型,包括 DeepSeek-R1 7B 和 8B 版本以及 Llama 3.1 8B、Llama 3.2 3B、Phi 4、Qwen 2.5 Coder 等其它一些模型。选择其中的 DeepSeek-R1 8B 试试看效果:
2. 如果你更偏好在一个单独的应用软件中使用 DeepSeek-R1,可以考虑 Chatbox 等工具。配置方法也很简单,首先下载安装:https://chatboxai.app/zh
安装后启动该应用程序,进入「设置」,在「模型提供方」中选择 OLLAMA API,接着在下面的模型栏选择你想使用的模型,并设置上下文的消息数量上限以及 Temperature 等相关参数即可(当然也可不必调整)。
接下来,你可以在 Chatbox 中与你部署的本地 DeepSeek-R1 畅聊了。不过遗憾的是,DeepSeek-R1 7B 没能正确地完成我们描述的任务。这也佐证了前文的观点,即个人用户通常只能在自己的本地设备上运行性能相对较差的模型。不过可以预见,未来随着硬件的进一步发展,个人本地使用大参数量模型的门槛还会进一步降低 —— 而且这个未来恐怕也不会太远。
当然,不管是 Open WebUI 还是 Chatbox,也都支持通过 API 接入 DeepSeek 的各个模型以及 ChatGPT、Claude 以及 Gemini 等专有模型。你完全可以将它们作为使用 AI 的日常前端。
另外,我们也可以将 Ollama 中配置的模型引入到我们的其它工具中,比如 Obsidian 和思源笔记等笔记应用。感兴趣的读者可以参看这篇略有过时的文章(Obsdian 上已有更好用的 AI 插件):《最强笔记软件 Obsidian 中也能使用 LLM,让它成为你的智慧第二大脑》。
使用 LM Studion 零代码部署 DeepSeek-R1
虽然不多,但在配置 Ollama 和相关模型时还是会用到终端和一点代码。如果你依然觉得麻烦 / 困难,还可以使用 LM Studio 实现零代码部署 DeepSeek-R1。
同样,首先去官网下载符合你操作系统的程序:https://lmstudio.ai
安装完成后启动,在 My Models 选项中先为你的模型设置一个文件夹:
接下来,只需去 Hugging Face 下载你想使用的语言模型,并按照一定的目录结构将其放入到上面设置的文件夹中即可(我们也可以使用 LM Studio 自带的搜索功能,但我们实测的效果并不好)。注意,这里我们需要的是 .gguf 格式的模型文件,比如 Unsloth 提供的版本:https://huggingface.co/collections/unsloth/deepseek-r1-all-versions-678e1c48f5d2fce87892ace5
考虑到我们的实际硬件,我们这里使用基于 Qwen 模型微调得到的 DeepSeek-R1 蒸馏版(14B 参数量)并选择 4-bit 量化后的版本:DeepSeek-R1-Distill-Qwen-14B-Q4_K_M.gguf
下载完成后,按照一定的目录结构将其放入我们之前设定的文件夹中:模型文件夹 /unsloth/DeepSeek-R1-Distill-Qwen-14B-GGUF/DeepSeek-R1-Distill-Qwen-14B-Q4_K_M.gguf
接下来,只需打开 LM Studio,在应用上方位置选择要加载的模型,然后你就可以与你的本地模型对话了。
使用 LM Studio 的最大优势就是完全无需操作终端,也不涉及任何代码 —— 只需会安装软件和配置文件夹即可。可说是对用户超级友好了。
当然,以上教程只是在最基础的层面上实现了 DeepSeek-R1 的本地部署。如果你想将这个热门模型进一步整合进自己的本地工作流程中,还需要进一步的配置 —— 从基础的设置系统提示词到更高阶的模型微调定制、整合 RAG、搜索功能、多模态能力、工具调用能力等等。
同时,随着专门针对 AI 开发的硬件以及小模型相关技术的发展,相信未来本地部署大模型的门槛还会进一步降低。
看完此文,你会自己动手试试部署自己的 DeepSeek-R1 吗?
2024 年 1 月 5 日,【智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会】在杭州未来科技城会议中心举行。