专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
宝玉xp  ·  Andrej Karpathy ... ·  7 小时前  
量子位  ·  “DeepSeek甚至绕过了CUDA”,论文 ... ·  昨天  
宝玉xp  ·  回复@Ant-Master:o1 ... ·  4 天前  
爱可可-爱生活  ·  【[293星]RAT-retrieval-a ... ·  4 天前  
宝玉xp  ·  //@程序员邹欣://@meow_lo:un ... ·  4 天前  
51好读  ›  专栏  ›  宝玉xp

转发微博-20250131020137

宝玉xp  · 微博  · AI  · 2025-01-31 02:01

正文

2025-01-31 02:01

转发微博
#模型时代# 欧洲的模型也出新了:Mistral Small 3,还是一贯的风格,直接放磁力链接下载。

看了一下技术博客,几句话说的很有意思。开放,还是不开放,这是一个重要问题。

1、媲美同行取代封闭
Mistral Small 3 可与更大规模的模型(例如 Llama 3.3 70B 或 Qwen 32B)相媲美,同时也能很好地替代诸如 GPT4o-mini 这类不透明的专有模型。在相同硬件上,Mistral Small 3 的速度是 Llama 3.3 70B Instruct 的3倍以上,但能达到近似的性能。

2、和DeepSeek R1类模型互补
Mistral Small 3 并未使用强化学习(RL)或任何合成数据进行训练,因此它在模型生产流水线中的阶段要早于类似 Deepseek R1 的模型(Deepseek R1 是一个很棒的、互补的开源技术!)。Mistral Small 3 可以成为一个非常出色的基础模型,用来进一步构建并积累推理能力。我们也期待开源社区对它进行广泛的采用和定制。

3、使用Apache 2.0 更加开放
Mistral Small 3使用 Apache 2.0 协议,并正逐步放弃 MRL 许可的模型。所有模型权重都将提供下载,并可在本地部署,允许任何人自由修改和使用。