特别申明:
本订阅号中所涉及的证券研究信息由光大证券研究所编写,仅面向光大证券专业投资者客户,用作新媒体形势下研究信息和研究观点的沟通交流。非光大证券专业投资者客户,请勿订阅、接收或使用本订阅号中的任何信息。本订阅号难以设置访问权限,若给您造成不便,敬请谅解。光大证券研究所不会因关注、收到或阅读本订阅号推送内容而视相关人员为光大证券的客户。
DeepSeek
连续发布高性能开源模型,有望改写全球大模型竞争格局
2024
年
12
月
26
日,
DeepSeek
发布开源模型
DeepSeek-V3
,大幅压缩了训练成本并在性能上比肩
GPT-4o
等顶尖模型;
2025
年
1
月
20
日,
DeepSeek
发布开源推理模型
DeepSeek-R1
,同步开放模型权重。
1
月
27
日,
DeepSeek App
登顶中美区苹果商店免费榜;根据
AI
产品榜,
DeepSeek APP
在上线仅
20
天后实现超过
2000
万日活,成为全球日活增速最快的
AI
应用,并对
OpenAI
的领先地位构成了挑战。目前微软、亚马逊
AWS
、英伟达、腾讯云等厂商已将
DeepSeek
开源模型部署在云端;硅基流动和华为云联合首发并上线基于昇腾云的
DeepSeek R1/V3
推理服务。
大量技术创新,极致压缩成本
根据DeepSeek官网,其推理模型的API定价为每百万输入tokens为1元(缓存命中)/4元(缓存未命中),每百万输出tokens 为16元;作为对比,OpenAI
o1模型API定价为每百万输入tokens为7.5美金(缓存命中)/15美金(缓存未命中),每百万输出tokens 为60美金,DeepSeek的价格降低了95%以上。模型平价的底气来自对成本的极致优化,包括多层注意力MLA、FP8混合精度训练、专家并行训练技术、多token预测(MTP)技术等,强大的技术创新和工程化能力让DeepSeek脱颖而出。
通过蒸馏将推理能力迁移至小参数模型,大幅提升AI部署的灵活性
根据DeepSeek的技术报告,DeepSeek-R1模型的推理能力可以通过蒸馏的方式迁移到更小的模型中,原始模型的参数量达到671B,对推理硬件的要求高;而蒸馏模型有1.5B、7B、8B、14B、32B、70B 等多个版本,虽然蒸馏会损失部分能力,但更小的参数意味着更大的灵活性,可在手机、笔记本电脑、智能家居产品、汽车、机器人等端侧硬件本地化部署,扩展了AI大模型的落地场景。