专栏名称: 架构师之路
架构师之路,坚持撰写接地气的架构文章
目录
相关文章推荐
架构师之路  ·  CAS下的ABA问题及优化方案!技术交流,没 ... ·  2 天前  
架构师之路  ·  DeepSeek开源的DualPipe,居然 ... ·  昨天  
架构师之路  ·  善用AI可以大大提高自己的能力上限,让AI帮 ... ·  4 天前  
架构师之路  ·  巧用CAS,一分钟实现分布式ID生成器!(第 ... ·  3 天前  
51好读  ›  专栏  ›  架构师之路

DeepSeek开源的DualPipe,居然是梁文峰写的,你感性?

架构师之路  · 公众号  · 架构  · 2025-03-12 08:20

正文

deepseek原理应用与实践》
12.deepseek极限潜能 - DualPipe
继DeepGEMM之后,deepseek开源了 第四弹DualPipe 。今天 来简单聊聊DualPipe,包懂。

【1】 DualPipe是干嘛的?

Dualpipe, 一个双向管道并行算法 ,提高了前向传播/反向传播过程中的计算+通信效率,降低了单向流水线的等待时间 (pipeline bubbles)

2 】前向传播和反向传播是干嘛的?

你输入: how are you?

AI 输出: I’m fine. Thank you. And you?

为什么?


AI 的输出,是依据事先训练好的模型(一大堆参数),以追求 用户体验最好 的最大概率。说白了,就是一个预测的过程。


模型的一大堆参数,是怎么来的?

the Forward and Backward Propagation in ANN | Download Scientific Diagram

前向传播: 根据输入,根据模型参数(左图的每一条绿线,一个权重),生成预测结果, 通过损失函数,衡量模型的好坏。


反向传播: 根据损失函数,明确每个参数对误差的 责任 ,指导调整参数(右图的每一条红线,调整权重),对模型进行优化。


如此往复,不断优化,最终训练出模型成品( 损失函数最小 )。


举个更形象的例子,这好比工厂流水线:

前向传送带:加工零件,生产商品;

反向传送带:质检返修,优化商品;

如此反复,直到生成成品。


可以说, 前向传播和反向传播是预测模型的基础。


3 】这和 DualPipe 有什么关系?

我们要进行多轮参数优化,通常需要:

1. 前向传播

2. 反向传播

1. 前向传播

2. 反向传播

单向流水线交替进行。


如此一来,计算与通信就无法跑满,







请到「今天看啥」查看全文