专栏名称: 光大证券研究
发布光大证券研究所研究成果,沟通证券研究信息,交流证券研究经验。
目录
相关文章推荐
Java架构师技术  ·  SpringBoot+Flowable:一个 ... ·  8 小时前  
Java架构师技术  ·  SpringBoot+Flowable:一个 ... ·  8 小时前  
架构师之路  ·  别TM浪费算力了,这样才能最大限度发挥dee ... ·  4 天前  
高可用架构  ·  漫谈DeepSeek及其背后的核心技术 ·  2 天前  
美团技术团队  ·  CVPR 2025 NTIRE赛事 | ... ·  3 天前  
51好读  ›  专栏  ›  光大证券研究

【计算机】DeepSeek有望改写全球大模型竞争格局,AI应用与端侧受益——AI行业跟踪报告第53期(施鑫展/白玥)

光大证券研究  · 公众号  ·  · 2025-02-07 07:00

正文

点击上方“光大证券研究”可以订阅哦


点击注册小程序

查看完整报告

特别申明:

本订阅号中所涉及的证券研究信息由光大证券研究所编写,仅面向光大证券专业投资者客户,用作新媒体形势下研究信息和研究观点的沟通交流。非光大证券专业投资者客户,请勿订阅、接收或使用本订阅号中的任何信息。本订阅号难以设置访问权限,若给您造成不便,敬请谅解。光大证券研究所不会因关注、收到或阅读本订阅号推送内容而视相关人员为光大证券的客户。


报告摘要


DeepSeek 连续发布高性能开源模型,有望改写全球大模型竞争格局

2024 12 26 日, DeepSeek 发布开源模型 DeepSeek-V3 ,大幅压缩了训练成本并在性能上比肩 GPT-4o 等顶尖模型; 2025 1 20 日, DeepSeek 发布开源推理模型 DeepSeek-R1 ,同步开放模型权重。 1 27 日, DeepSeek App 登顶中美区苹果商店免费榜;根据 AI 产品榜, DeepSeek APP 在上线仅 20 天后实现超过 2000 万日活,成为全球日活增速最快的 AI 应用,并对 OpenAI 的领先地位构成了挑战。目前微软、亚马逊 AWS 、英伟达、腾讯云等厂商已将 DeepSeek 开源模型部署在云端;硅基流动和华为云联合首发并上线基于昇腾云的 DeepSeek R1/V3 推理服务。


大量技术创新,极致压缩成本

根据DeepSeek官网,其推理模型的API定价为每百万输入tokens为1元(缓存命中)/4元(缓存未命中),每百万输出tokens 为16元;作为对比,OpenAI o1模型API定价为每百万输入tokens为7.5美金(缓存命中)/15美金(缓存未命中),每百万输出tokens 为60美金,DeepSeek的价格降低了95%以上。模型平价的底气来自对成本的极致优化,包括多层注意力MLA、FP8混合精度训练、专家并行训练技术、多token预测(MTP)技术等,强大的技术创新和工程化能力让DeepSeek脱颖而出。


通过蒸馏将推理能力迁移至小参数模型,大幅提升AI部署的灵活性

根据DeepSeek的技术报告,DeepSeek-R1模型的推理能力可以通过蒸馏的方式迁移到更小的模型中,原始模型的参数量达到671B,对推理硬件的要求高;而蒸馏模型有1.5B、7B、8B、14B、32B、70B 等多个版本,虽然蒸馏会损失部分能力,但更小的参数意味着更大的灵活性,可在手机、笔记本电脑、智能家居产品、汽车、机器人等端侧硬件本地化部署,扩展了AI大模型的落地场景。







请到「今天看啥」查看全文