专栏名称: 正商参略
了解财经信息,通往财富之路!
目录
相关文章推荐
21世纪经济报道  ·  县域市场抢增量,品牌为何选择拼多多? ·  昨天  
21世纪经济报道  ·  大S病史曝光,将在日本火化,日本流感病例超9 ... ·  3 天前  
21世纪经济报道  ·  破90亿,全球第一!凌晨仍爆满,高峰期5分钟一场 ·  3 天前  
有限次重复博弈  ·  在客家和潮州人的传统中,正月初七的饭桌上少不 ... ·  5 天前  
51好读  ›  专栏  ›  正商参略

全网都在扒的DeepSeek团队,是清北应届生撑起一片天

正商参略  · 公众号  · 财经  · 2025-01-06 09:11

主要观点总结

DeepSeek团队凭借开源模型DeepSeek-v3引起业界震撼,团队成员年轻化,注重模型算法和硬件工程的配合。该团队招聘不看重经验,重视能力,并且有着与OpenAI相似的组织形态。文章介绍了DeepSeek团队的成员及其贡献,以及创始人的访谈内容。

关键观点总结

关键观点1: DeepSeek团队特点

团队成员年轻化,注重模型算法和硬件工程的配合,招聘看重能力而非经验,组织形态类似OpenAI。

关键观点2: DeepSeek成员贡献

成员在DeepSeek v3及其他项目中做出了重要成果,包括新型注意力机制MLA、GRPO强化学习对齐算法等。

关键观点3: DeepSeek团队的创新成果

DeepSeek团队凭借创新的新型注意力机制、GRPO强化学习算法等成果在AI领域取得显著突破。


正文

点击上面蓝字,收阅正商参略

By正商参略微信最好的财经读物,以专业的视角传递政经信息,深度解读财经新闻,这里使你了解更真实的中国) 微信号:zsnc-ok

作者:梦晨 西风,来源:量子位(ID:QbitAI)
DeepSeek-v3大模型横空出世,以1/11算力训练出超过Llama 3的开源模型,震撼了整个AI圈。
紧接着,“雷军开千万年薪挖DeepSeek研究员罗福莉”的传闻,也使得人们把目光聚焦向DeepSeek的人才。
这下不只科技圈,全网都在好奇,连小红书上都有人发帖询问,这究竟是一只怎样的团队?
国际上,也有人把创始人梁文锋的访谈翻译成英语,还加了注释,试图从中寻找这家公司崛起的蛛丝马迹。
量子位整理各种资料发现,DeepSeek团队最大的特点就是年轻。
应届生、在读生,特别是来自清北的应届生在其中非常活跃。
他们中的一些人,2024年一边在DeepSeek搞研究,另一边新鲜热乎的博士学位论文刚评上奖。
他们中有的参与了从DeepSeek LLM v1到DeepSeek-v3的全程,有的只是实习了一段时间也做出重要成果。
为DeepSeek提出MLA新型注意力、GRPO强化学习对齐算法等关键创新的,几乎都是年轻人。

DeepSeek核心成员揭秘

2024年5月发布的DeepSeek-V2,是致使这家大模型公司破圈的关键一环。
其中最重要的创新是提出了一种新型注意力,在Transformer架构的基础上,用MLA(Multi-head Latent Attention)替代了传统的多头注意力,大幅减少了计算量和推理显存。
在一众贡献者中,高华佐和曾旺丁为MLA架构做出了关键创新。
高华佐非常低调,目前只知道是北大物理系毕业。
另外,在“大模型创业六小强”之一阶跃星辰的专利信息中也可以看到这个名字,暂不确定是否是同一人。
而曾旺丁来自北邮,研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。
DeepSeek-V2工作中还涉及到了另一项关键成果——GRPO
DeepSeek-V2发布前三个月,DeepSeek-Math问世,其中提出了GRPO(Group Relative Policy Optimization)。
GRPO是PPO的一种变体RL算法,放弃了critic模型,而是从群体得分中估算baseline,显著减少了训练资源的需求。
GRPO在圈内得到广泛关注,另一家国内开源大模型阿里Qwen 2.5的技术报告中也透露用到了GRPO。
DeepSeekMath有三位核心作者是在DeepSeek实习期间完成的工作。
核心作者之一邵智宏是清华交互式人工智能(CoAI)课题组博士生,师从黄民烈教授。
他的研究领域包括自然语言处理、深度学习,特别对如何能构建一个稳健且可扩展的AI系统感兴趣,这个AI系统能利用多样化的技能整合异构信息,并能准确回答各种复杂的自然语言问题。
邵智宏之前还曾在微软研究院工作过。
DeepSeekMath之后,他还参与了DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1等项目。
另一位核心作者朱琪豪是北大计算机学院软件研究所2024届博士毕业生,受熊英飞副教授和张路教授指导,研究方向为深度代码学习。
据北大计算机学院官方介绍,朱琪豪曾发表CCF-A类论文16篇。在ASE和ESEC/FSE上分别获得ACM SIGSOFT杰出论文奖一次,提名一次。一篇论文进入ESEC/FSE会议同年的引用前三名。
在DeepSeek团队,朱琪豪还基于他的博士论文工作,主导开发了DeepSeek-Coder-V1。
其博士论文《语言定义感知的深度代码学习技术及应用》也入选了2024CCF软件工程专业委员会博士学位论文激励计划。

图源:北京大学计算机学院公众号
还有一位核心作者同样来自北大。
北大博士生Peiyi Wang,受北京大学计算语言学教育部重点实验室穗志方教授指导。
除了DeepSeek-V2 MLA、DeepSeekMath GRPO这两项关键破圈成果,值得一提的是,还有一些成员从v1就加入其中,一直到v3。
代表人物之一代达劢,2024年博士毕业于北京大学计算机学院计算语言所,导师同样是穗志方教授。
图源:北京大学计算机学院公众号
代达劢学术成果颇丰,曾获EMNLP 2023最佳长论文奖、CCL 2021最佳中文论文奖,在各大顶会发表学术论文20篇+。
2024年中国中文信息学会“博士学位论文激励计划”共入选10篇来自中国大陆高校的博士毕业论文,其中就有他的《预训练语言模型知识记忆的机理分析及能力增强关键技术研究》。
以及北大元培学院的王炳宣
王炳宣来自山东烟台,2017年进入北大。
硕士毕业加入DeepSeek,参与了从DeepSeek LLM v1开始的一系列重要工作。
清华这边的代表人物还有赵成钢
赵成钢此前是衡水中学信息学竞赛班成员,CCF NOI2016银牌得主。
之后赵成钢进入清华,大二时成为清华学生超算团队正式成员,三次获得世界大学生超算竞赛冠军。
赵成钢在DeepSeek担任训练/推理基础架构工程师,有英伟达实习经历。
图源:清华新闻网

DeepSeek是一支怎样的团队

这些鲜活的个体,足以引发人们的赞叹。
但还不足以回答最初的问题,DeepSeek到底是一支怎样的团队?有怎样的组织架构?
答案或许还要从创始人梁文锋身上找。
早在2023年5月,DeepSeek刚刚宣布下场做大模型,还没发布成果的时候,梁文锋在接受36氪旗下「暗涌」采访时透露过招人标准:
看能力,而不是看经验。
我们的核心技术岗位,基本以应届和毕业一两年的人为主。
从后面一年多陆续发表的论文贡献名单中也可以看出,确实如此,博士在读、应届以及毕业一两年的成员占很大一部分。
即使是团队leader级别也偏年轻化,以毕业4-6年的为主。
例如领导DeepSeek的后训练团队的吴俣,2019年北航博士毕业、在微软MSRA参与过小冰和必应百科项目。






请到「今天看啥」查看全文