引子
一直以来,被问的最多的问题是:现在的大模型越来越多,都不会选了,你能不能告诉我哪个模型最好?
这个问题真的很难回答,因为每家模型都有自己特别擅长的领域,有的擅长对话、有的擅长情感、有的擅长写作、有的擅长代码。
所以我做了个小插件叫 AI Home Tab,在问不同领域问题的时候,根据每个模型的特长,去选择模型,也可以一键全开,同时问5个模型。
不过这样也有个小问题,就是大部分人并不了解每个模型的特长。
于是就有了一个大胆的想法,如果有一个路由模型,能根据问题选出最好的模型,岂不是很棒!
AI 路由模型
刚有了路由模型的想法,就发现有人做出来了。
前两天在 Product Hunt 上,有家叫 Not Diamond 的公司放出了他们的 AI 路由模型。
这个模型可以根据用户的提问,自动选择擅长的模型,并进行回答。
这个模型在每一个指标上都达到了最佳水平,效果超越了 GPT4o。
而且这套组合拳的价格却只要 4o 的 70%。
看起来这是一套可能的方案,又便宜又好用。
但是仔细想想,这套路由方案并不适合所有的场景。
有的产品以角色陪伴为主,每次聊天都换模型反而会OOC,造成负面效果。
有的产品功能比较专注,比如日记类的产品,那只用一个模型的效果就可以了,多了反而没必要。
真正需要 AI 路由模型的大场景,其实还是通用场景,比如 AI 搜索。
各家模型的特色图谱
这是昨天参加 ISC 看到的一个大模型测试对比图谱。
相比各种刷总分的榜单,这个基于能力维度的大模型测试图谱要实用的多。
从这个图可以看出,各家模型的技能点都非常有特色。
有的擅长写作、有的擅长诗词、有的擅长逻辑推理。
还有的擅长弱智吧。。。(你们都有光明的未来
产生这个结果的根源是,各家的预训练数据不同,好数据出好模型,不同领域的数据出不同领域的模型。
既然每个能力图谱下,都有最擅长的模型,那如果训练一个能识别用户问题的路由模型,再根据识别出来的能力去选择模型,那结果会怎样?
15家模型联合起来,终于打败了4o
就在 Not Diamond 发布后的2天,360也把这个 AI 路由模型中国版做出来了。
用测试集跑完,4o 得了 69 分,这个混合大模型评分 80,稳稳地赢了。
这是 4o 和混合大模型的能力图谱:
从能力图谱可以看到,国产模型赢的领域主要是:
诗词赏析、比一比、以及…弱智吧。
而在代码辅助方面,还是差了那么一丢丢。
考虑到15家的显卡加起来可能都没有OpenAI多,能这样打赢也是来之不易。
应用开发者真正需要的排行榜
AI 搜索、AI 助理、AI 僚机这样的通用场景,非常适合使用混合大模型。
但是大部分应用开发者做的事情还是相对垂直的。
毕竟大场景永远是大厂的机会。
而在小的地方,才充满了无限的可能。
-
哪个模型适合做情感陪伴?
-
哪个模型适合做心理咨询?
-
哪个模型适合做总结摘要?
-
哪个模型适合做数理逻辑?
-
…