专栏名称: 安诺成咨询
中国数字化咨询行业生态平台|行业分析|数字化咨询方法论|政策洞察|致力于中国企业数字化发展
目录
相关文章推荐
51好读  ›  专栏  ›  安诺成咨询

一文读懂Deepseek的技术逻辑

安诺成咨询  · 公众号  ·  · 2025-02-07 19:40

正文

Deepseek的模型架构: 如何让AI更聪明?


Deepseek的模型架构核心依然是Transformer ,但它在此基础上进行了许多优化,使得AI不仅能理解更长的文本,还能更高效地进行计算。 一个关键的改进点是专家混合(MoE,Mixture of Experts)结构 ,这个概念可以类比成“一个团队里有许多不同领域的专家”,当你向AI提问时,它不会让所有专家同时来回答,而是根据问题的类型,选择最合适的几位专家来处理任务,这样既能提高AI的智能水平,又能减少计算资源的消耗。例如,一个AI可以既懂金融,又懂医学,但当你问它“如何投资股票”时,它会调用“金融专家”而不是“医学专家”,从而提高效率。




此外, Deepseek还可能使用了分层注意力机制(Hierarchical Attention), 这就像是在读一本厚书时,既要关注每个句子的细节(局部注意力),又要理解整本书的核心思想(全局注意力)。传统的AI模型在处理长篇文章时往往会“遗忘”前面的内容,而Deepseek的技术可以在阅读时建立更好的层次结构,让AI更精准地理解和记住关键信息。这意味着,当你给AI输入一篇长达几千字的文章时,它不会像普通人那样“读到一半就忘了前面写了什么”,而是能够在整体上建立更清晰的逻辑。此外,Deepseek也采取了动态参数共享技术,这使得不同层可以共享某些参数,从而减少冗余计算。



简单来说,这就像是在团队合作中,某些通用技能或知识点可以被多个成员共享,而不是每个人都需要单独学习一遍。例如,一个公司的不同部门可能都会用到Excel,但如果每个部门都单独培训自己的员工,不仅费时费力,还会导致重复性工作。而Deepseek的动态参数共享机制,就像是给AI配备了一个“内部共享数据库”,让不同层的计算单元可以调用相同的参数,而不需要重复计算,从而提高计算效率并减少内存占用。这种方法不仅优化了计算资源的使用,还能提高模型的泛化能力。因为当不同层共享某些通用知识时,AI能够更好地理解跨领域的信息,避免某些层“单打独斗”导致的信息断裂。比方说,如果AI在理解一篇文章时,某些层专注于细节,而某些层专注于整体结构,那么共享参数可以帮助这些层之间更好地协作,使得AI在处理复杂问题时更加协调一致。这种方法尤其适用于长文本处理、跨语言翻译和多任务学习等需要高效信息整合的场景。


训练方法:如何让AI变得“更聪明”?


AI之所以能生成有逻辑的回答,离不开庞大的训练数据。Deepseek在训练过程中,可能使用了多种数据源,比如国内的贴吧、知乎、小红书、知网,海外的维基百科、Google Scholar、新闻文章、学术论文等,并通过去重、过滤和数据清理的方式,确保AI学习的是高质量信息,而不是互联网上的垃圾数据。这个方面,我们认为Deep应该和Open ai的GPT类似,都是采用了强化学习+人类反馈(RLHF,Reinforcement Learning from Human Feedback),这一技术可以简单理解为:AI先生成多个答案,人类给这些答案打分,然后AI学习人类的偏好,从而不断优化自己的输出。这就像一个学生在写作文后,老师给出评分和修改建议,学生根据反馈不断提高自己的写作水平。这种训练方式能够让AI的回答更符合人类的逻辑,避免出现过于机械化的内容。



此外,在上述工序后, Deepseek也很大几率也使用近端策略优化(PPO,Proximal Policy Optimization)方法,让AI根据奖励模型进行自我改进 。这就像是一个学生在做完练习题后,通过老师的反馈不断调整答题方式,以提高考试成绩。PPO的作用是确保AI不会在优化过程中出现“过度自信”或“过度谨慎”的问题,而是以一种稳定的方式逐步提升回答质量。


优化策略:如何让Deepseek运行得更快?



AI模型的训练需要大量的计算资源,单个GPU(图形处理单元)往往难以独自完成所有计算任务,因此需要多个GPU协同工作。而Deepseek在训练过程中可能使用了张量并行(Tensor Parallelism)和流水线并行(Pipeline Parallelism)两种方式,让多个GPU像流水线一样高效协作,从而加快训练速度,同时降低显存的占用。


1. 张量并行(Tensor Parallelism):把“大任务”拆成“小任务”,让多个GPU同时运算


可以把AI的计算过程想象成一个大厨在做一顿复杂的大餐,比如烹饪一道豪华的法式大餐,涉及到切菜、煎牛排、煮汤、摆盘等多个步骤。如果只有一位厨师,他需要从头到尾完成所有工序,可能会非常耗时。但如果我们把不同的任务拆分给不同的厨师,比如一个人专门负责切菜,一个人负责煎牛排,一个人负责煮汤,那么整个过程就会快得多。


在AI模型训练中,张量并行的原理类似——它把一个复杂的计算任务拆成更小的部分,并分配给不同的GPU,让它们同时计算。比如,在处理一批数据时,某个矩阵计算可能需要几十亿次乘法运算,单个GPU执行会非常吃力,而张量并行可以让多个GPU各自计算一部分,最终再把结果汇总起来,从而大幅提高计算效率。







请到「今天看啥」查看全文