专栏名称: 阿里开发者
阿里巴巴官方技术号,关于阿里的技术创新均将呈现于此
目录
相关文章推荐
阿里开发者  ·  Spring容器的本质 ·  11 小时前  
阿里开发者  ·  3步,0代码!一键部署DeepSeek-V3 ... ·  3 天前  
春江潮起  ·  世间将再无松下电视 ·  3 天前  
春江潮起  ·  世间将再无松下电视 ·  3 天前  
51好读  ›  专栏  ›  阿里开发者

阿里云PAI 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型

阿里开发者  · 公众号  · 科技公司  · 2025-02-07 17:59

主要观点总结

本文介绍了DeepSeek系列模型在全球范围内的卓越表现,及其与PAI平台的集成。文章详细描述了DeepSeek-V3和DeepSeek-R1系列模型的技术特点,以及如何通过PAI Model Gallery一键部署这些模型。此外,文章还介绍了Model Gallery的简介,以及如何访问和使用PAI Model Gallery来部署和使用DeepSeek系列模型。

关键观点总结

关键观点1: DeepSeek系列模型的卓越性能

DeepSeek系列模型在全球范围内备受瞩目,多次评测中表现优异,性能接近或超越国际顶尖闭源模型,如OpenAI的GPT-4等。

关键观点2: DeepSeek-V3和DeepSeek-R1的技术特点

DeepSeek-V3是基于MoE大语言模型的升级版,采用了MLA和DeepSeekMoE架构,并引入了无需辅助损失的负载均衡策略。DeepSeek-R1则通过后训练阶段的强化学习技术显著提升了模型的推理能力,其性能与OpenAI的o1正式版相当。

关键观点3: PAI Model Gallery的一键部署功能

PAI Model Gallery是阿里云人工智能平台PAI的产品组件,集成了国内外AI开源社区中优质的预训练模型。用户可以一键部署DeepSeek系列模型以及其他模型,实现从训练到部署再到推理的全过程。

关键观点4: 如何访问和使用PAI Model Gallery

用户可以通过PAI控制台访问PAI Model Gallery,选择需要部署的模型,如DeepSeek-R1-Distill-Qwen-7B模型。部署方式可以选择vLLM加速部署或BladeLLM(阿里云PAI自研高性能推理框架)加速部署。部署成功后,用户可以在服务页面查看调用的Endpoint和Token,按照调用方式说明使用推理服务。


正文

阿里妹导读


DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。

一、DeepSeek-V3、R1 系列模型

DeepSeek-V3 是 DeepSeek 发布的 MoE(Mixture-of-Experts)大语言模型,总参数量为671B,每个 token 激活的参数量为37B。为了实现高效的推理和成本效益的训练,DeepSeek-V3 采用了 MLA(Multi-head Latent Attention)和 DeepSeekMoE 架构。

此外,DeepSeek-V3 首次引入了一种无需辅助损失的负载均衡策略,并设定了多 token 预测的训练目标,以提升性能。DeepSeek-V3 在14.8万亿个多样且高质量的 token 上对模型进行了预训练,随后通过监督微调(SFT)和强化学习来充分发挥其潜力。

DeepSeek-R1 是 DeepSeek 发布的高性能 AI 推理模型,在后训练阶段大规模使用强化学习技术,显著提升了模型的推理能力,在数学、代码、自然语言推理等任务上,其性能与 OpenAI 的 o1 正式版相当。

DeepSeek-R1 具有660B的参数量,DeepSeek 开源 660B 模型的同时,通过模型蒸馏,微调了若干参数量较小的开源模型,其中包括:
模型
基础模型
DeepSeek-R1-Distill-Qwen-1.5B
Qwen2.5-Math-1.5B
DeepSeek-R1-Distill-Qwen-7B
Qwen2.5-Math-7B
DeepSeek-R1-Distill-Llama-8B
Llama-3.1-8B
DeepSeek-R1-Distill-Qwen-14B
Qwen2.5-14B
DeepSeek-R1-Distill-Qwen-32B
Qwen2.5-32B
DeepSeek-R1-Distill-Llama-70B
Llama-3.3-70B-Instruct

目前 PAI Model Gallery 已经支持 DeepSeek-V3、DeepSeek-R1 以及所有蒸馏小参数模型(DeepSeek-R1-Distill)的一键部署。

二、PAI Model Gallery 简

Model Gallery 是阿里云人工智能平台 PAI 的产品组件,它集成了国内外 AI 开源社区中优质的预训练模型,涵盖了 LLM、AIGC、CV、NLP 等各个领域,如Qwen,DeepSeek等系列模型。通过 PAI 对这些模型的适配,用户可以零代码实现从训练到部署再到推理的全过程,简化了模型的开发流程,为开发者和企业用户带来了更快、更高效、更便捷的 AI 开发和应用体验。

PAI Model Gallery 访问地址:
https://pai.console.aliyun.com/?utm_content=g_1000401510


三、PAI Model Gallery 一键部署 Deep Seek-V3、Deep Seek-R

1. 进入 Model Gallery
https://pai.console.aliyun.com/?utm_content=g_1000401510
    • 登录 PAI 控制台。

    • 在顶部左上角根据实际情况选择地域。







请到「今天看啥」查看全文