专栏名称: 深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
新疆949交通广播  ·  女子得了流感 硬扛3天变“白肺”! ·  12 小时前  
新疆949交通广播  ·  2月10日凌晨,抬头看! ·  昨天  
青塔  ·  时隔一周!C9高校,再发Nature ·  4 天前  
GS权益虚拟卡卷数字终端  ·  大学生副业避坑指南:为什么说"低价会员卡券" ... ·  2 天前  
新疆949交通广播  ·  949帮您问|市民反映的这些问题,有回复了! ·  3 天前  
51好读  ›  专栏  ›  深度学习自然语言处理

开源大模型技术路线及趋势

深度学习自然语言处理  · 公众号  ·  · 2024-09-22 21:33

正文

知乎:晴天
链接:https://zhuanlan.zhihu.com/p/721272352

1. 三个维度

大模型研发力量

  • 学术机构
  • 大模型创业公司
  • 科技大厂

旗舰开源模型的形态/模态

  • 基础大模型 -> instruct大模型 -> 多模态(VL大模型 -> 类gpt-4o大模型)

时间线

  • 23年上半年
  • 23年下半年
  • 24年
  • 25年

2. 核心观察

学术机构及创业公司式微,科技大厂主导开源大模型。

随着资源需求越来越大,学术机构由于资金不足而逐渐式微,基础大模型的开源主力,从百花齐放收敛到科技大厂,而前沿模型尤以llama及qwen为主。(比如,智源研究院不再发布新的基础大模型,上海AI实验室开源的大模型一直未能突破20B)

科技大厂,除meta(llama)和阿里(qwen)外,虽然谷歌、微软、苹果也加入开源赛道并愈加重视,但仍局限于30B以下的轻量模型。因此,前沿开源大模型,国外仍由llama引领(grok次之),国内由qwen引领(deepseek次之)。

大模型创业公司,除了x.ai和deepseek外,也逐渐回归商业,要么直接退出开源赛道,要么保守发布轻量版模型(比如,百川已经不再发布新的开源大模型,智谱GLM开源模型始终不超过10B,零一万物开源模型不超过34B,gpt/claude/minimax/kimi未开源)。

3. 开源技术路线

仅论通用模型,不含领域模型。

(1)23年上半年

关键词 :微调、汉化
痛点/机会点 :没有足够好用的instruct模型、擅长中文的模型
彼时,llama1尚未发布instruct模型,不少学术机构及科技公司,从事基于llama的微调和汉化并开源(比如斯坦福的alpaca、UC伯克利的vicuna、IDEA研究院的ziya、链家科技的belle),也有部分组织直接攻入基础模型(比如智源研究院的aquila)。

(2)23年下半年

关键词 :基础模型
痛点/机会点 :基础模型还不够好
llama2同时发布基础和instruct模型,此时,微调llama的空间变小但汉化llama依旧很有必要。之后随着baichuan2-13B、qwen-72B的开源,汉化llama的必要性已经微乎其微。因此,开源生态的竞争缩小到基础模型上面,学术机构、创业公司频繁交替开源更强的基础模型(比如aquila2-70B、xverse-65B、deepseek-67B),主流的顶尖模型已推进到70B的门槛。

(3)2024年

关键词 :多模态







请到「今天看啥」查看全文


推荐文章
新疆949交通广播  ·  女子得了流感 硬扛3天变“白肺”!
12 小时前
新疆949交通广播  ·  2月10日凌晨,抬头看!
昨天
新疆949交通广播  ·  949帮您问|市民反映的这些问题,有回复了!
3 天前
乐趣微生活  ·  小沈阳又来了! 笑翻全场!【NO6】
8 年前
每天学点做饭技巧  ·  7道糖醋菜一周不重样,开胃全靠ta!
8 年前