TALK亮点
-
揭秘550万美元训练成本的Deepseek模型的颠覆性技术路径。
-
剖析GPT-4、Claude 3.5等闭源模型与DeepSeek-V3、LLaMA-3等开源模型的核心性能差异。
-
相关论文:
Deepseek-V3:https://arxiv.org/pdf/2412.19437v1
Deepseek-R1:https://arxiv.org/pdf/2501.12948
Deepseek-R1-第3方理论物理题评测:https://arxiv.org/pdf/2502.15815
Deepseek-R1-医学推理评测:https://arxiv.org/pdf/2501.18362?
分享主题
当全球AI巨头深陷"参数军备竞赛"的泥潭,千亿级模型动辄消耗数亿美元算力成本时,一家中国团队却以开源姿态撕开技术垄断的铁幕——DeepSeek凭什么仅用550万美元训练成本,就让模型性能比肩GPT-4?在开源社区普遍面临"透明即羸弱"的困境下,DeepSeek如何通过全流程技术开源,实现推理速度3倍于同类模型,更将API价格压低至行业1/50?这场技术突围背后,藏着怎样的架构革命与工程智慧?带你走进Deepseek的细节。
扫描下方二维码
或点击文末链接
即刻观看
!
TALK讲师简介
Kenny老师
Google Scholar引用1000+
GitHub获1700+星标
RLHF领域标杆论文作者
TALK主题:
2025年大模型领域的国运之作:DeepSeek模型背后技术分析
TALK链接:
https://pmhdt.xetlk.com/sl/15g33I
TALK部分内容