专栏名称: 程序猿
本微信公众号:imkuqin,为程序员提供最新最全的编程学习资料的查询。目前已经开通PHP、C/C++函数库、.NET Framework类库、J2SE API查询功能。
目录
相关文章推荐
OSC开源社区  ·  马斯克招聘程序员:我不care你的学历,直接 ... ·  3 天前  
待字闺中  ·  AI编程:会让我变笨么? ·  1 周前  
程序员的那些事  ·  美国最高法院最终裁定:维持 TikTok ... ·  昨天  
码农翻身  ·  漫画 | 为什么厉害的公司都要写日报? ·  3 天前  
51好读  ›  专栏  ›  程序猿

DeepSeek V3架构图;Deepseek 团队核心成员揭秘 —— 清北应届生撑起一片天;DeepSeek 推出移动版APP

程序猿  · 公众号  · 程序员  · 2025-01-17 10:54

正文

0、DeepSeek V3 架构图



1、OpenAI 科学家赞DeepSeek-v3:算法非常强,算力用到极致

OpenAI创始团队成员、高级研究科学家Andrej Karpathy很罕见地,分享了一个来自中国的开源大模型——DeepSeek-v3。Karpathy表示,DeepSeek仅用了280万小时的GPU算力,就训练出了比Llama-3405B(使用3080万小时GPU)更强的前沿模型,整体成本节省了11倍左右,将算力发挥到了极致。这为小模型和受算力限制的组织打开了全新世界——即便在算力有限的情况下,使用高质量数据、更好的算法同样能训练出高性能大模型。
DeepSeek在MMLU、DROP、Codeforces、AIME等多个主流基准测试中,性能大幅度超过了GPT-4o、Claude-3.5-Sonnet、Qwen2.5-72B等著名开闭源模型,成为目前最强开源大模型之一。DeepSeek 的团队是一群前量化分析师,他们的训练效率非常疯狂。
DeepSeek v3 的架构主要包括多头潜在注意力(MLA)和混合专家(MoE)两大块,其中 MLA 是 v3 的核心创新之一,主要用于减少推理过程中的内存占用。v3 的 MoE 引入了一套先进的动态调整机制,专门用于优化专家负载。Deep Seek 除了开源最新模型之外,他们还提供了免费的在线服务。(AIGC开放社区)

2、Deepseek 团队核心成员揭秘 —— 清北应届生撑起一片天


随着 DeepSeek-v3 在 AI 圈异军突起,这家低调的公司再次成为焦点。据量子位调查,DeepSeek 的核心技术力量离不开一群极具天赋的高校学子。

其中,清华、北大的在读生和应届生占据重要位置。

  • 邵智宏:清华交互式人工智能课题组博士生,师从黄民烈教授。曾在微软研究院工作,参与了 DeepSeek-Prover、DeepSeek-Coder-v2 等多个重要项目。

  • 朱琪豪:北大计算机学院 2024 届博士,在校期间就发表了 16 篇 CCF-A 类论文,两次获得 ACM SIGSOFT 杰出论文奖,主导开发了 DeepSeek-Coder-V1。

  • 代达劢:北大计算机学院 2024 年博士毕业生,师从穗志方教授。发表 20 余篇顶会论文,获 EMNLP 2023 最佳长论文奖。

3、DeepSeek 推出移动版 APP

DeepSeek 推出了官方移动版 APP,提供深度思考和联网搜索功能,可以生成内部思维链,逐步分析问题并得出结论。此外,该 APP 还提供图片、文件等多模态输入模式。



据介绍,该 APP 由 DeepSeek-R1-Lite 模型和 DeepSeek V3 模型提供支持。