专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

开源大模型技术路线及趋势

深度学习自然语言处理 · 公众号 · · 2024-09-22 21:33

正文

知乎：晴天
链接：https://zhuanlan.zhihu.com/p/721272352

1. 三个维度

大模型研发力量

学术机构
大模型创业公司
科技大厂

旗舰开源模型的形态/模态

基础大模型 -> instruct大模型 -> 多模态（VL大模型 -> 类gpt-4o大模型）

时间线

23年上半年
23年下半年
24年
25年

2. 核心观察

学术机构及创业公司式微，科技大厂主导开源大模型。

随着资源需求越来越大，学术机构由于资金不足而逐渐式微，基础大模型的开源主力，从百花齐放收敛到科技大厂，而前沿模型尤以llama及qwen为主。（比如，智源研究院不再发布新的基础大模型，上海AI实验室开源的大模型一直未能突破20B）

科技大厂，除meta（llama）和阿里（qwen）外，虽然谷歌、微软、苹果也加入开源赛道并愈加重视，但仍局限于30B以下的轻量模型。因此，前沿开源大模型，国外仍由llama引领（grok次之），国内由qwen引领（deepseek次之）。

大模型创业公司，除了x.ai和deepseek外，也逐渐回归商业，要么直接退出开源赛道，要么保守发布轻量版模型（比如，百川已经不再发布新的开源大模型，智谱GLM开源模型始终不超过10B，零一万物开源模型不超过34B，gpt/claude/minimax/kimi未开源）。

3. 开源技术路线

仅论通用模型，不含领域模型。

（1）23年上半年

关键词 ：微调、汉化
痛点/机会点 ：没有足够好用的instruct模型、擅长中文的模型
彼时，llama1尚未发布instruct模型，不少学术机构及科技公司，从事基于llama的微调和汉化并开源（比如斯坦福的alpaca、UC伯克利的vicuna、IDEA研究院的ziya、链家科技的belle），也有部分组织直接攻入基础模型（比如智源研究院的aquila）。

（2）23年下半年

关键词 ：基础模型
痛点/机会点 ：基础模型还不够好
llama2同时发布基础和instruct模型，此时，微调llama的空间变小但汉化llama依旧很有必要。之后随着baichuan2-13B、qwen-72B的开源，汉化llama的必要性已经微乎其微。因此，开源生态的竞争缩小到基础模型上面，学术机构、创业公司频繁交替开源更强的基础模型（比如aquila2-70B、xverse-65B、deepseek-67B），主流的顶尖模型已推进到70B的门槛。