专栏名称: ittbank

让电子库存因技术而改变的ITT模式电商平台。引领和适应市场，以共享经济理念的创客及工程师为核心、以免费开放用户生成的数据为基础，为其提供高性价比的应用解决方案和及时精准的供求信息，快速提高产品开发周期和生产直通率、提升电子器件的应用附加值。

DeepSeek产业链纪要

ittbank · 公众号 · · 2025-02-07 17:30

正文

DeepSeek电话会：产业链影响调研纪要

Q：DeepSeek和普通的AIGC有什么区别？

A：DeepSeek也属于生成式AI，有几个不同：

第一个是把成本拉低，是llama的1/11，用先进技术把推理速度降低，模型架构和大部分不一样，用细颗粒度MoE，先进模型基本都是邓氏架构，细颗粒度不是首创，阿里也在往这个方向走，这个架构在推理的时候只激活部分参数，在推理机制上引入LLA，市场上有几种，多头注意力等，需要每个参数都参与计算，而DeepSeek只激活低参数，降低成本；

第二个是训练方法，传统方法是FP32和FP16的混合精度，DeepSeek用FP8参数，比较敏感的组件还是FP16，分布式混合精度是目前做的比较少的，训练方法里面也有工程优化，之前时延导致GPU利用率不是很高，DeepSeek用流水线并行，高效利用通信网络，提升速率；

第三是编程上面也有很大不一样，此前用CUDA，DeepSeek用PTX，PTX本身是CUDA的一部分，用更细颗粒度来调度底层单元，将硬件调度细化，是传统方法用的比较少的；

第四是AI Infra，通常集群是三层网络，DeepSeek是两层，通信库降低PCIE消耗，减少GPU内存消耗增高网络通信速度，HF Reduce、分布式文件系统、调度平台用的比较灵活。

Q：国内所有的训练公司是否可以复制，大幅减少GPU需求？

A：DeepSeek用PTX进行优化，PTX并不是绕过CUDA，是CUDA的一部分，PTX更底层一些，并没有100%用到CUDA标准库，到硬件底部调动硬件模块，还属于CUDA的组件，从这个角度来说是没办法马上复制到昇腾和AMD，PTX技术还是仅限于NVDA，跨生态还是有困难，没有把数据开源，只是把方法开源，方法可以参照，并非100%复制，部分复制的衍生模型会比较快。

Q：DeepSeek大概降低了多少训练成本？

A：QWEN没计划这么快发布2.5MAX，大厂本来计划一季度后半期，公开版本最大72B，中间用的卡数量是6000级别的，我们是有A800、H800混合组网，大概是1:3如果要量化的话。

Q：国内的水平大概如何，和海外相比大概有多少成本降低？

A：DeepSeek的600万美金是V3模型本身，V3模型是迭代出来的，把之前的模型加起来的话，成本至少是目前的3-5倍，小2000万美金肯定要的，和Llama3相比，大概1:4左右，因为DeepSeek没有太多公开数据，OpenAI主要是6000多张卡3个月以上，肯定是DeepSeek的好几倍。

Q：当用户量起来之后DeepSeek是否有很大的扩容需求？

A：在最接近看到的是能力下降，因为用户量增长的比较猛，增长了十几倍，本身是推理集群没有ready，深度推理和联网都用不了了，推理需求上来之后没有做到弹性扩容，暂时关闭了联网功能，从这个角度来看，虽然训练成本低了，杰文斯理论来看，门槛降低之后对算力是利好的，普及度提升，对DeepSeek来说要迅速扩容，不然会损失用户数。

Q：本质上的框架还是基于英伟达的GPU芯片？

A：是的，还是CUDA生态。

Q：对芯片的依赖度会降低？

A：这个解读肯定是有问题的，他们还是在CUDA上做工作，其他公司没有在PTX上面进行，当大家看到之后，肯定会往这个方向做投入，用算法优化来提升性能，掌握方法之后会起来的很快，硬件的抄袭很困难甚至不可能，未来也会用CUDA来编程，国产在做芯片设计的时候会沿着这个思路去设计芯片，但取代不了。

Q：国产芯片是否存在一定的成长空间？

A：有的，低精度没那么大差距，FP8和FP16就可以做训练，芯片硬件差距下，用性能比较差的芯片也可以设计低精度模型，逻辑是通顺的。

云计算大厂后面肯定都会支持DeepSeek，在MaaS上上线，2024年国产芯片牵引模型，接下来DeepSeek指引了方向，加上了算法优势，用性能稍微低的芯片来测试模型也是趋势。

在接下来2-3个季度，大厂也会发布国产相关方案出来，除了CUDA以外。

Q：推理芯片需求量会增加？

A：DeepSeek出来之后模型市场有几点变化：

对MaaS有一点冲击，DeepSeek会进入所有MaaS平台；

DeepSeek产业链纪要

正文

请到「今天看啥」查看全文