【#中国工程院院士点评DeepSeek#】1月27日，DeepS-20250127120211

新浪科技 · 微博 · 科技媒体 · 2025-01-27 12:02

正文

2025-01-27 12:02
本条微博链接

【#中国工程院院士点评DeepSeek#】
1月27日，DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜，在美区下载榜上超越了ChatGPT。同日，苹果中国区应用商店免费榜显示，DeepSeek成为中国区第一。
DeepSeek究竟厉害在哪里？今日，中国工程院院士、清华大学计算机系教授郑纬民及多位AI圈人士在与新浪科技沟通中，指出了DeepSeek其成功出圈的关键所在。
在郑纬民看来，DeepSeek通过自研的MLA架构和DeepSeek MOE架构，为其自身的模型训练成本下降，起到了关键作用。他指出，“MLA主要通过改造注意力算子压缩了KV Cache大小，实现了在同样容量下可以存储更多的KV Cache，该架构和DeepSeek-V3模型中FFN 层的改造相配合，打造了目前公开最大的稀疏MoE 层，这成为DeepSeek训练成本低最关键的原因。”
对此，你怎么看？（新浪科技）