专栏名称: 橘子汽水铺

橘子汽水铺 by orange.ai。 AI创始人， AI投资人，AI产品经理都在关注的AI科技自媒体。聚焦最有商业价值的AI资讯，分享一线的AI产品经理经验。

15个国产模型联合起来，终于打败了 GPT4o

橘子汽水铺 · 公众号 · · 2024-08-02 10:00

正文

引子

一直以来，被问的最多的问题是：现在的大模型越来越多，都不会选了，你能不能告诉我哪个模型最好？

这个问题真的很难回答，因为每家模型都有自己特别擅长的领域，有的擅长对话、有的擅长情感、有的擅长写作、有的擅长代码。

所以我做了个小插件叫 AI Home Tab，在问不同领域问题的时候，根据每个模型的特长，去选择模型，也可以一键全开，同时问5个模型。

不过这样也有个小问题，就是大部分人并不了解每个模型的特长。

于是就有了一个大胆的想法，如果有一个路由模型，能根据问题选出最好的模型，岂不是很棒！

AI 路由模型

刚有了路由模型的想法，就发现有人做出来了。

前两天在 Product Hunt 上，有家叫 Not Diamond 的公司放出了他们的 AI 路由模型。

这个模型可以根据用户的提问，自动选择擅长的模型，并进行回答。

这个模型在每一个指标上都达到了最佳水平，效果超越了 GPT4o。

而且这套组合拳的价格却只要 4o 的 70%。

看起来这是一套可能的方案，又便宜又好用。

但是仔细想想，这套路由方案并不适合所有的场景。

有的产品以角色陪伴为主，每次聊天都换模型反而会OOC，造成负面效果。

有的产品功能比较专注，比如日记类的产品，那只用一个模型的效果就可以了，多了反而没必要。

真正需要 AI 路由模型的大场景，其实还是通用场景，比如 AI 搜索。

各家模型的特色图谱

这是昨天参加 ISC 看到的一个大模型测试对比图谱。

相比各种刷总分的榜单，这个基于能力维度的大模型测试图谱要实用的多。

从这个图可以看出，各家模型的技能点都非常有特色。

有的擅长写作、有的擅长诗词、有的擅长逻辑推理。

还有的擅长弱智吧。。。（你们都有光明的未来

产生这个结果的根源是，各家的预训练数据不同，好数据出好模型，不同领域的数据出不同领域的模型。

既然每个能力图谱下，都有最擅长的模型，那如果训练一个能识别用户问题的路由模型，再根据识别出来的能力去选择模型，那结果会怎样？

15家模型联合起来，终于打败了4o

就在 Not Diamond 发布后的2天，360也把这个 AI 路由模型中国版做出来了。

用测试集跑完，4o 得了 69 分，这个混合大模型评分 80，稳稳地赢了。

这是 4o 和混合大模型的能力图谱：

从能力图谱可以看到，国产模型赢的领域主要是：

诗词赏析、比一比、以及…弱智吧。

而在代码辅助方面，还是差了那么一丢丢。

考虑到15家的显卡加起来可能都没有OpenAI多，能这样打赢也是来之不易。

应用开发者真正需要的排行榜

AI 搜索、AI 助理、AI 僚机这样的通用场景，非常适合使用混合大模型。

但是大部分应用开发者做的事情还是相对垂直的。

毕竟大场景永远是大厂的机会。

而在小的地方，才充满了无限的可能。

哪个模型适合做情感陪伴？
哪个模型适合做心理咨询？
哪个模型适合做总结摘要？
哪个模型适合做数理逻辑？
…

15个国产模型联合起来，终于打败了 GPT4o

正文

引子

AI 路由模型

各家模型的特色图谱

15家模型联合起来，终于打败了4o

应用开发者真正需要的排行榜

请到「今天看啥」查看全文