专栏名称: 深度之眼
入行人工智能,学算法公式,写毕业论文,看经典书籍,刷全球公开课,就来深度之眼
目录
相关文章推荐
51好读  ›  专栏  ›  深度之眼

【深度之眼talk】大模型领域的国运之作:DeepSeek模型背后技术分析

深度之眼  · 公众号  ·  · 2025-03-13 19:20

正文

TALK亮点

  • 揭秘550万美元训练成本的Deepseek模型的颠覆性技术路径。
  • 剖析GPT-4、Claude 3.5等闭源模型与DeepSeek-V3、LLaMA-3等开源模型的核心性能差异。
  • 解析大模型在效能跃迁趋势中的未来推演与技术革命。

相关论文:
Deepseek-V3:https://arxiv.org/pdf/2412.19437v1
Deepseek-R1:https://arxiv.org/pdf/2501.12948
Deepseek-R1-第3方理论物理题评测:https://arxiv.org/pdf/2502.15815
Deepseek-R1-医学推理评测:https://arxiv.org/pdf/2501.18362?

分享主题

当全球AI巨头深陷"参数军备竞赛"的泥潭,千亿级模型动辄消耗数亿美元算力成本时,一家中国团队却以开源姿态撕开技术垄断的铁幕——DeepSeek凭什么仅用550万美元训练成本,就让模型性能比肩GPT-4?在开源社区普遍面临"透明即羸弱"的困境下,DeepSeek如何通过全流程技术开源,实现推理速度3倍于同类模型,更将API价格压低至行业1/50?这场技术突围背后,藏着怎样的架构革命与工程智慧?带你走进Deepseek的细节。

扫描下方二维码 或点击文末链接 即刻观看

TALK讲师简介

Kenny老师

Google Scholar引用1000+
GitHub获1700+星标
RLHF领域标杆论文作者

TALK主题: 2025年大模型领域的国运之作:DeepSeek模型背后技术分析

TALK链接: https://pmhdt.xetlk.com/sl/15g33I

TALK部分内容







请到「今天看啥」查看全文