专栏名称: Datawhale
一个专注于AI领域的开源组织,汇聚了众多顶尖院校和知名企业的优秀学习者,聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner,和学习者一起成长。
目录
相关文章推荐
51好读  ›  专栏  ›  Datawhale

DeepSeek R1后,AI应用、职业与行业!

Datawhale  · 公众号  ·  · 2025-03-21 22:52

正文

Datawhale经验

作者:长琴,Datawhale成员

突然就想写点应用、开发相关的东西,一方面是不断有企业和朋友问我他们可以用DeepSeek做什么,怎么用;另一方面是这个方向的职业、行业也在不知不觉中慢慢改变。干脆顺便一起梳理一下,记录在案。


行业变化

主要从就业、应用和研究三个方面展开讨论。

就业

其实DeepSeek(或者ChatGPT)爆火后,最着急的应该是一线的NLP、LLM从业人员,本人正好也属于其中一员。专门做大模型的团队(类似DeepSeek、达摩院等)本就很少,门槛更是极高,导致大多数从业人员还是集中在“应用”和“业务”侧。但是LLM发展又如此迅猛,搞应用的门槛不断降低,这点我在23年的 《ChatGPT 影响冲击:职业、行业与产业 | Yam》 [1] 一文中就提过了,当时就深感焦虑。R1出来后,所有的LLM大概都会R1一下,而且他还在不断进化,LLM越来越聪明,我们的焦虑越来越多。

现在明显能感觉到的趋势就是大量的应用相关职位,几乎都是 Agent 开发,不需要训练模型,但对工程能力有要求;反过来,如果是工程开发人员,则要求了解算法基本知识。按理说职位变多不应该焦虑才对,但其实虽然职位变多了,但“好职位”不多。而且因为职位变多,导致进入的人更多,这里面包括之前就搞 NLP 的、之前搞开发的、其他领域转行的,以及大量毕业生的涌入。我觉得这个趋 势不可挡,而且会愈演愈烈。当 LLM 聪明到一定程度后,剩下的就是大量的应用工作。LLM 还要不要继续研究了?当然要!但那只是不到 1% 的人和企业要做的,突破是渐进式的,不可能一下跨出一大步,足够聪明的 LLM 已经足够在很多地方发力了,整个社会的跟进需要时间。等到下一次大突破,无非就是重新再来一遍现在的循环。

应用

一年前的Agent可能还比较简单,现在的Agent已经相当复杂了,虽然一句话完成一个需求(如 MetaGPT [2] )目前大部分时候还不可用,但这一定是暂时的。一方面AI还在不断进步,另一方面,Agent相关的标准在不断完善(如 MCP [3] )。一旦很多东西标准化了,AI表现出来的威力会突破性的加强。根据我自己的经验,目前的Agent在做复杂任务时有一个非常大的毛病——中间某个环节出问题后,需要耗费非常多的时间和Token才有可能解决,很多时候还解决不了。这当然可能是AI不够聪明,但更多的问题还是标准化不足,类似MCP这样的协议有望解决这一问题。

顺便科普一下,简单来理解,MCP就是把与LLM交互的各种组件统一成不同的模块服务,它提供了一种将 AI 模型连接到不同数据源和工具的标准化方式。从LLM的角度看,它标准化了应用程序如何为 LLM 提供上下文。举个例子,比如你让LLM帮你在电脑里找一个文件,一般我们都会借助一个软件来完成(比如Windows的Everything、Linux的find命令等),这时候就可以写一个类似的Server(比如就叫Everything MCP Server),然后LLM就通过这个Server使用具体的软件,LLM侧是比较清爽简单的,所有“变”和“不一样”的东西都放在这个MCP Server这里,类似于一个适配于LLM的Adapter。我只能说,潜力无限!在此之上就是各种Agent工具啦,比如现在比较有名的扣子,它允许用户通过工作流的方式创建复杂Agent和应用。我相信它底层的通用模块应该也是有类似MCP Server这样的Adapter的。随着Agent和应用不断复杂,是一定需要单独抽一层这样的Adapter出来的。

研究

多模态自不必说,就LLM方向其实也还有蛮多可以做的工作,尤其是和RL结合,大有可为(感兴趣的读者可以关注 hscspring/rl-llm-nlp: Reinforcement Learning in LLM and NLP. [4] )。这里顺带说一下我自己的两个感觉。第一个就是LLM相关的前言论文大部分都来自国内机构或华人作者,这个趋势近两年是越来越明显,中国人的卷真不是吹的。第二个就是高品质前沿资料也开始集中在中文社区,尤其是知乎和微信公众号,有不少高质量的内容,虽然也不是很多,但相比英文社区貌似好很多。现在搜索前沿内容,能搜到的英文社区的资料越来越少了。感觉R1之后,算法领域国内比国外沸腾的更厉害。

另一个方向是模型架构方面的优化,DeepSeek在这方面走的很快,近期提出了 NSA [5] ,Kimi也提出了类似的 MoBA [6] ,以及优化了新的更省资源的优化器 Muon [7] ,还有 YOLU-12 [8] 对Attention架构的优化,近期何恺明大神的 Transformers without Normalization [9] 。相关的工作层出不穷,且看起来都相当有吸引力。还有量化、蒸馏方向也不断有新的成果出现。

除此之外,Agent方向的算法也在逐步发展,比如搞Scaling的 camel [10] ,以及相关的应用 OWL [11] ,还有相关的具身智能、世界模型,AI方向的研究如火如荼。

值得一提的是,以上提到的很多研究都是国内公司或华人主导。R1之后,据说很多之前专搞LLM的都压力山大,不知道又在埋头憋什么大招。AI可能从来没像今天这样繁荣。这块内容就不展开多说了,实在是有点多,感兴趣的读者可以关注我的博客。


职业变化

这部分主要梳理岗位和职业方向的变化。

岗位

这里主要探讨一下大部分LLM算法工程师这个职业的工作内容,目前看来主要是下面这么几个方向。

第一,基于LLM做业务开发。说到做业务,Agent就是标配,最简单的Agent就是一个LLM+RAG,复杂的就涉及到多个LLM、多个环节、多个组件。这个工作内容的工程能力要求大于算法能力,尤其是架构设计能力。

第二,LLM模型优化。R1后出现了一些新的范式,让我们有可能用更低的成本和更小的模型达到更好的效果,小模型(SLM)的春天来了。无论从成本、效率还是端侧部署考虑,模型优化都值得投入,但投入确实不需要那么多。因为推理方向进展太迅速,成本下降趋势明显,当大模型的推理成本低到一定程度时,优化小模型就显得多此一举了。同等条件下模型越大效果越好,这是真理。

第三,Agent交互优化。这是个老瓶装新酒的方向,其实就是LLM前用强化搞Agent那一套。目前研究还不多,主要是业界都还处于“构建”Agent阶段,这个属于优化方向。等大部分Agent构建完成要进一步提升效果时,老瓶的RL可能会登场。

以上三个职位数量是逐个下降的,第一个应该能占到80%。这里没有写推理方向,因为这个方向你只能往底层做,那要求很高,而且其实算是另一个方向了。上层没太多意义,都是工具,而且部署大模型和业务是相对独立的,用户切换完全没成本,谁好谁快就用谁。从VLLM到SGLang就可见一斑。

除此之外,在专用领域做专用LM(Large Model)也是个不错的方向,但职位应该也不太多。顺便说一下,个人不是特别看好垂直领域(比如医疗、金融等)LLM,但非常看好专用领域(比如时序、分子)LM,后者的Token不再是文本。理由很简单:LLM足够聪明时,只要给它提供足够充分的上下文,应该足以解决大部分问题。

方向

这部分主要针对我自己,不一定对你有帮助,请谨慎参考。

我在2023年初开始做LLM,做了一年后感觉模型本身好像没啥可做的了,于是转到多模态做了一年,主要是文本+语音合成方向。R1出来后又开始重新思考方向,最终得出的结论是:LLM依然是核心,无论是多模态还是Agent,LLM才是最重要的。这一年做了几个月的OMNI,实在感觉语音模态要做到文本模态这种理解力(LLM最重要的是理解而非生成能力)过于艰难,事倍功半,模态集成应该就是最好的出路,我想图像应该也类似。其实这也与人脑类似,耳朵和眼睛都是信号接受装备,真正处理信号的还得是大脑,而LLM就是AI系统的大脑。鉴于此,未来算法的主方向应该还是会考虑LLM,不过会把一半重心放在RL上,走LLM+RL的路线,这也是我本人一直感兴趣的方向。







请到「今天看啥」查看全文