转发微博
#模型时代# 欧洲的模型也出新了:Mistral Small 3,还是一贯的风格,直接放磁力链接下载。
看了一下技术博客,几句话说的很有意思。开放,还是不开放,这是一个重要问题。
1、媲美同行取代封闭
Mistral Small 3 可与更大规模的模型(例如 Llama 3.3 70B 或 Qwen 32B)相媲美,同时也能很好地替代诸如 GPT4o-mini 这类不透明的专有模型。在相同硬件上,Mistral Small 3 的速度是 Llama 3.3 70B Instruct 的3倍以上,但能达到近似的性能。
2、和DeepSeek R1类模型互补
Mistral Small 3 并未使用强化学习(RL)或任何合成数据进行训练,因此它在模型生产流水线中的阶段要早于类似 Deepseek R1 的模型(Deepseek R1 是一个很棒的、互补的开源技术!)。Mistral Small 3 可以成为一个非常出色的基础模型,用来进一步构建并积累推理能力。我们也期待开源社区对它进行广泛的采用和定制。
3、使用Apache 2.0 更加开放
Mistral Small 3使用 Apache 2.0 协议,并正逐步放弃 MRL 许可的模型。所有模型权重都将提供下载,并可在本地部署,允许任何人自由修改和使用。
看了一下技术博客,几句话说的很有意思。开放,还是不开放,这是一个重要问题。
1、媲美同行取代封闭
Mistral Small 3 可与更大规模的模型(例如 Llama 3.3 70B 或 Qwen 32B)相媲美,同时也能很好地替代诸如 GPT4o-mini 这类不透明的专有模型。在相同硬件上,Mistral Small 3 的速度是 Llama 3.3 70B Instruct 的3倍以上,但能达到近似的性能。
2、和DeepSeek R1类模型互补
Mistral Small 3 并未使用强化学习(RL)或任何合成数据进行训练,因此它在模型生产流水线中的阶段要早于类似 Deepseek R1 的模型(Deepseek R1 是一个很棒的、互补的开源技术!)。Mistral Small 3 可以成为一个非常出色的基础模型,用来进一步构建并积累推理能力。我们也期待开源社区对它进行广泛的采用和定制。
3、使用Apache 2.0 更加开放
Mistral Small 3使用 Apache 2.0 协议,并正逐步放弃 MRL 许可的模型。所有模型权重都将提供下载,并可在本地部署,允许任何人自由修改和使用。