专栏名称: 安诺成咨询
中国数字化咨询行业生态平台|行业分析|数字化咨询方法论|政策洞察|致力于中国企业数字化发展
目录
相关文章推荐
51好读  ›  专栏  ›  安诺成咨询

关于Deepseek十个你必须知道的概念

安诺成咨询  · 公众号  ·  · 2025-02-21 20:05

正文

名词1: V2和V3


DeepSeek于2024年5月发布了 DeepSeek-V2系列模型 ,包括基础模型(DeepSeek-V2、DeepSeek-V2 Lite)和聊天模型(Chat)。这些模型采用了多头潜在注意力(Multi-Head Latent Attention,MLA)和专家混合(Mixture of Experts,MoE)架构,显著提高了模型的性能和效率。V2模型在8.1万亿tokens的数据集上进行了预训练,支持最长128K的上下文长度。此外,V2系列模型以其高性价比著称,推理成本降至每百万tokens仅1元人民币,约为Llama3 70B模型的七分之一,GPT-4 Turbo的七十分之一。 2024年12月,DeepSeek推出了DeepSeek-V3模型。 V3在V2的基础上进行了改进,预训练数据量增加到14.8万亿tokens,主要包含英语和中文数据 ,并增加了数学和编程相关内容的比例。V3模型引入了多token预测机制,支持更长的上下文长度(最高128K),并在推理速度和准确性之间取得了平衡。V3的API定价为输入每百万tokens 0.5元(缓存命中)/2元(缓存未命中),输出每百万tokens 8元,在国产模型中性价比继续提升。


名词2: R1


DeepSeek于2024年11月发布了R1模型,这是一个开源的AI模型,旨在与美国的先进系统竞争。R1模型采用了强化学习和专家混合技术,使其在使用较少计算资源的情况下,仍能实现卓越的性能。R1模型在数学和编程等任务中表现出色,在Chatbot Arena等平台的排名中名列前茅。此外, R1模型的训练成本仅为560万美元,远低于行业内通常的1亿美元至10亿美元的水平。


名词3: 蒸馏


在人工智能领域,蒸馏(Distillation)是一种模型压缩技术,通过从大型预训练模型中提取知识,训练出更小、更高效的模型。DeepSeek利用蒸馏技术,从R1和R1-Zero模型中生成了多个小型模型,这些模型在保持高性能的同时,计算资源需求更低。 通过蒸馏,Deepseek 能够将一个庞大且计算密集的教师模型(Teacher Model)中的知识,迁移到一个更加轻量级的学生模型(Student Model),从而实现更低的计算成本、更快的推理速度以及更广泛的应用适应性。整个蒸馏流程可以大致分为三个核心阶段: 先训练一个超级强大的老师模型,再让学生模型学习老师的精华,最后对学生模型进行优化并部署到实际场景中。


关于AI大模型蒸馏技术更加细节的论述可以移步文章👇

《解码AI:蒸馏技术如何让大模型变得更高效?》


名词4: Zero


R1-Zero是DeepSeek在2025年1月发布的模型。DeepSeek-R1-Zero 之所以特别, 在于它是首个完全基于强化学习训练的推理大模型 ,在训练过程中完全跳过了传统的监督微调(SFT)阶段。这种创新性的训练方式,使得模型能够通过自我探索的方式学习推理规律,而不是依赖人工标注数据。这一突破不仅让 AI 在数学、代码、逻辑推理等任务上展现了惊人的自我进化能力,也让它具备了反思能力、自我验证能力和长链推理能力。


在训练机制上,DeepSeek-R1-Zero 采用了一种名为 Group Relative Policy Optimization (GRPO) 的强化学习算法,相比于传统的强化学习方法,它不需要额外的“裁判模型”来评估 AI 生成的答案,而是通过一组样本计算基准分数,从而减少计算开销。同时,该模型在训练过程中使用奖励建模(Reward Modeling),通过准确性奖励、格式奖励等机制,让 AI 在推理过程中不断优化自己的答案格式,提高逻辑性和可读性。

值得注意的是,DeepSeek-R1-Zero 展现出了自我进化能力,它能够在推理过程中反思错误、重新验证自己的答案,并逐步扩展推理链条。在训练过程中,研究人员甚至观察到 AI 出现了“顿悟时刻(Aha Moment)”, 也就是说,它会在某个阶段突然改变推理方式,使答案更加精准。


名词5: 1.5B和7B


这些数字表示模型的参数规模。通常,参数数量越多,模型的表达能力越强,但 也意味着需要更多的计算资源和训练数据 。DeepSeek的模型系列涵盖了从中等到超大规模的模型,以满足不同应用场景的需求1.5B表示模型拥有15亿个参数,属于中等规模的模型约为GPT-3的1/116, 适合手机端部署 。而7B则表示模型拥有70亿个参数,属于较大规模的模型 支持中小企业私有化部署,定制化知识库等。


名词6: 量化


AI 大模型的量化(Quantization) 是一种优化神经网络计算的方法,其核心思想是将模型中的高精度权重(通常是 32 位浮点数,即 FP32)转换为更低比特精度(如 FP16、BF16、INT8 或 INT4),以减少计算和存储成本,同时尽可能保持模型的推理能力和精度。而要进行量化的原因也很简单粗暴:AI计算量和显存占用极其庞大而通过量化则k而已减少显存占用,提高计算效率并降低功耗和成本。量化的核心在于将 FP32(32 位浮点数)转换为更低位数的数据类型。AI模型的计算过程涉及大量的浮点数运算,而Deepseek使用低比特量化法(如INT8、FP16、BF16),将原本需要高精度计算的参数转换为更低精度的数据格式,就像是把“高清图片”转换成“压缩图片”——虽然占用空间减少了,但仍然能保持足够的清晰度。








请到「今天看啥」查看全文