专栏名称: 码小辫

给程序员和编程爱好者分享计算机编程电子书以及相关的学习资源

目录

相关文章推荐

架构师之路 · CAS下的ABA问题及优化方案！技术交流，没 ... · 2 天前

架构师之路 · DeepSeek开源的DualPipe，居然 ... · 昨天

架构师之路 · 善用AI可以大大提高自己的能力上限，让AI帮 ... · 4 天前

架构师之路 · 巧用CAS，一分钟实现分布式ID生成器！（第 ... · 3 天前

51好读 › 专栏 › 码小辫

全网都在扒的DeepSeek团队，是清北应届生撑起一片天

码小辫 · 公众号 · · 2025-01-09 17:10

正文

梦晨西风发自凹非寺
量子位 | 公众号 QbitAI

DeepSeek-v3大模型横空出世，以1/11算力训练出超过Llama 3的开源模型，震撼了整个AI圈。

紧接着，“雷军开千万年薪挖DeepSeek研究员罗福莉”的传闻，也使得人们把目光聚焦向 DeepSeek的人才 。

这下不只科技圈，全网都在好奇，连小红书上都有人发帖询问， 这究竟是一只怎样的团队？

国际上，也有人把创始人 梁文锋 的访谈翻译成英语，还加了注释，试图从中寻找这家公司崛起的蛛丝马迹。

量子位整理各种资料发现，DeepSeek团队最大的特点就是年轻。

应届生、在读生，特别是来自清北的应届生在其中非常活跃。

他们中的一些人，2024年一边在DeepSeek搞研究，另一边新鲜热乎的博士学位论文刚评上奖。

他们中有的参与了从DeepSeek LLM v1到DeepSeek-v3的全程，有的只是实习了一段时间也做出重要成果。

为DeepSeek提出MLA新型注意力、GRPO强化学习对齐算法等关键创新的，几乎都是年轻人。

DeepSeek核心成员揭秘

2024年5月发布的 DeepSeek-V2 ，是致使这家大模型公司破圈的关键一环。

其中最重要的创新是提出了一种新型注意力，在Transformer架构的基础上，用 MLA （Multi-head Latent Attention）替代了传统的多头注意力，大幅减少了计算量和推理显存。

在一众贡献者中， 高华佐 和 曾旺丁 为MLA架构做出了关键创新。

高华佐非常低调，目前只知道是北大物理系毕业。

另外，在“大模型创业六小强”之一阶跃星辰的专利信息中也可以看到这个名字，暂不确定是否是同一人。

而曾旺丁来自北邮，研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。

DeepSeek-V2工作中还涉及到了另一项关键成果—— GRPO 。

DeepSeek-V2发布前三个月，DeepSeek-Math问世，其中提出了GRPO （Group Relative Policy Optimization）。

GRPO是PPO的一种变体RL算法，放弃了critic模型，而是从群体得分中估算baseline，显著减少了训练资源的需求。

GRPO在圈内得到广泛关注，另一家国内开源大模型阿里Qwen 2.5的技术报告中也透露用到了GRPO。

DeepSeekMath有三位核心作者是在DeepSeek实习期间完成的工作。

核心作者之一 邵智宏 是清华交互式人工智能（CoAI）课题组博士生，师从黄民烈教授。

他的研究领域包括自然语言处理、深度学习，特别对如何能构建一个稳健且可扩展的AI系统感兴趣，这个AI系统能利用多样化的技能整合异构信息，并能准确回答各种复杂的自然语言问题。

邵智宏之前还曾在微软研究院工作过。

DeepSeekMath之后，他还参与了DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1等项目。

另一位核心作者 朱琪豪 是北大计算机学院软件研究所2024届博士毕业生，受熊英飞副教授和张路教授指导，研究方向为深度代码学习。

据北大计算机学院官方介绍，朱琪豪曾发表CCF-A类论文16篇。在ASE和ESEC/FSE上分别获得ACM SIGSOFT杰出论文奖一次，提名一次。一篇论文进入ESEC/FSE会议同年的引用前三名。

在DeepSeek团队，朱琪豪还基于他的博士论文工作，主导开发了DeepSeek-Coder-V1。

其博士论文《语言定义感知的深度代码学习技术及应用》也入选了2024CCF软件工程专业委员会博士学位论文激励计划。

△ 图源：北京大学计算机学院公众号

还有一位核心作者同样来自北大。

北大博士生 Peiyi Wang ，受北京大学计算语言学教育部重点实验室穗志方教授指导。

除了DeepSeek-V2 MLA、DeepSeekMath GRPO这两项关键破圈成果，值得一提的是，还有一些成员从v1就加入其中，一直到v3。

代表人物之一 代达劢 ，2024年博士毕业于北京大学计算机学院计算语言所，导师同样是穗志方教授。

△ 图源：北京大学计算机学院公众号

代达劢学术成果颇丰，曾获EMNLP 2023最佳长论文奖、CCL 2021最佳中文论文奖，在各大顶会发表学术论文20篇+。

2024年中国中文信息学会“博士学位论文激励计划”共入选10篇来自中国大陆高校的博士毕业论文，其中就有他的《预训练语言模型知识记忆的机理分析及能力增强关键技术研究》。

以及北大元培学院的 王炳宣 。

请到「今天看啥」查看全文

推荐文章

架构师之路 · CAS下的ABA问题及优化方案！技术交流，没必要张口闭口就...（第44讲）

2 天前

架构师之路 · DeepSeek开源的DualPipe，居然是梁文峰写的，你感性？

昨天

架构师之路 · 善用AI可以大大提高自己的能力上限，让AI帮助自己赢得未来（周鸿祎做序）

4 天前

架构师之路 · 巧用CAS，一分钟实现分布式ID生成器！（第43讲）

3 天前

人民日报 · 【提醒】鸭肉变牛肉！这家知名烤肉店的员工自称“骗过全世界” ！

8 年前

虎扑足球 · 莫斯托沃伊：塞尔塔永恒的“沙皇”

8 年前

狼族摄影 · 小伙子，你这样追我是不行的你造吗？

8 年前

浙江大学 · 胡旭阳：依法治校的图景与进路

8 年前

派代 · 疯了！雄安新区炒房客吓坏当地人，知名电商平台居然有“隐秘通道”

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!