一文读懂Deepseek的技术逻辑

安诺成咨询 · 公众号 · · 2025-02-07 19:40

正文

Deepseek的模型架构： 如何让AI更聪明？

Deepseek的模型架构核心依然是Transformer ，但它在此基础上进行了许多优化，使得AI不仅能理解更长的文本，还能更高效地进行计算。 一个关键的改进点是专家混合（MoE，Mixture of Experts）结构 ，这个概念可以类比成“一个团队里有许多不同领域的专家”，当你向AI提问时，它不会让所有专家同时来回答，而是根据问题的类型，选择最合适的几位专家来处理任务，这样既能提高AI的智能水平，又能减少计算资源的消耗。例如，一个AI可以既懂金融，又懂医学，但当你问它“如何投资股票”时，它会调用“金融专家”而不是“医学专家”，从而提高效率。

此外， Deepseek还可能使用了分层注意力机制（Hierarchical Attention）， 这就像是在读一本厚书时，既要关注每个句子的细节（局部注意力），又要理解整本书的核心思想（全局注意力）。传统的AI模型在处理长篇文章时往往会“遗忘”前面的内容，而Deepseek的技术可以在阅读时建立更好的层次结构，让AI更精准地理解和记住关键信息。这意味着，当你给AI输入一篇长达几千字的文章时，它不会像普通人那样“读到一半就忘了前面写了什么”，而是能够在整体上建立更清晰的逻辑。此外，Deepseek也采取了动态参数共享技术，这使得不同层可以共享某些参数，从而减少冗余计算。

简单来说，这就像是在团队合作中，某些通用技能或知识点可以被多个成员共享，而不是每个人都需要单独学习一遍。例如，一个公司的不同部门可能都会用到Excel，但如果每个部门都单独培训自己的员工，不仅费时费力，还会导致重复性工作。而Deepseek的动态参数共享机制，就像是给AI配备了一个“内部共享数据库”，让不同层的计算单元可以调用相同的参数，而不需要重复计算，从而提高计算效率并减少内存占用。这种方法不仅优化了计算资源的使用，还能提高模型的泛化能力。因为当不同层共享某些通用知识时，AI能够更好地理解跨领域的信息，避免某些层“单打独斗”导致的信息断裂。比方说，如果AI在理解一篇文章时，某些层专注于细节，而某些层专注于整体结构，那么共享参数可以帮助这些层之间更好地协作，使得AI在处理复杂问题时更加协调一致。这种方法尤其适用于长文本处理、跨语言翻译和多任务学习等需要高效信息整合的场景。

训练方法：如何让AI变得“更聪明”？

AI之所以能生成有逻辑的回答，离不开庞大的训练数据。Deepseek在训练过程中，可能使用了多种数据源，比如国内的贴吧、知乎、小红书、知网，海外的维基百科、Google Scholar、新闻文章、学术论文等，并通过去重、过滤和数据清理的方式，确保AI学习的是高质量信息，而不是互联网上的垃圾数据。这个方面，我们认为Deep应该和Open ai的GPT类似，都是采用了强化学习+人类反馈（RLHF，Reinforcement Learning from Human Feedback），这一技术可以简单理解为：AI先生成多个答案，人类给这些答案打分，然后AI学习人类的偏好，从而不断优化自己的输出。这就像一个学生在写作文后，老师给出评分和修改建议，学生根据反馈不断提高自己的写作水平。这种训练方式能够让AI的回答更符合人类的逻辑，避免出现过于机械化的内容。

此外，在上述工序后， Deepseek也很大几率也使用近端策略优化（PPO，Proximal Policy Optimization）方法，让AI根据奖励模型进行自我改进 。这就像是一个学生在做完练习题后，通过老师的反馈不断调整答题方式，以提高考试成绩。PPO的作用是确保AI不会在优化过程中出现“过度自信”或“过度谨慎”的问题，而是以一种稳定的方式逐步提升回答质量。

优化策略：如何让Deepseek运行得更快？

AI模型的训练需要大量的计算资源，单个GPU（图形处理单元）往往难以独自完成所有计算任务，因此需要多个GPU协同工作。而Deepseek在训练过程中可能使用了张量并行（Tensor Parallelism）和流水线并行（Pipeline Parallelism）两种方式，让多个GPU像流水线一样高效协作，从而加快训练速度，同时降低显存的占用。

1. 张量并行（Tensor Parallelism）：把“大任务”拆成“小任务”，让多个GPU同时运算

可以把AI的计算过程想象成一个大厨在做一顿复杂的大餐，比如烹饪一道豪华的法式大餐，涉及到切菜、煎牛排、煮汤、摆盘等多个步骤。如果只有一位厨师，他需要从头到尾完成所有工序，可能会非常耗时。但如果我们把不同的任务拆分给不同的厨师，比如一个人专门负责切菜，一个人负责煎牛排，一个人负责煮汤，那么整个过程就会快得多。

在AI模型训练中，张量并行的原理类似——它把一个复杂的计算任务拆成更小的部分，并分配给不同的GPU，让它们同时计算。比如，在处理一批数据时，某个矩阵计算可能需要几十亿次乘法运算，单个GPU执行会非常吃力，而张量并行可以让多个GPU各自计算一部分，最终再把结果汇总起来，从而大幅提高计算效率。

一文读懂Deepseek的技术逻辑

正文

请到「今天看啥」查看全文