专栏名称: 橘子汽水铺
橘子汽水铺 by orange.ai。 AI创始人, AI投资人,AI产品经理都在关注的AI科技自媒体。 聚焦最有商业价值的AI资讯,分享一线的AI产品经理经验。
目录
相关文章推荐
参考消息  ·  “中国和欧洲霸榜,美国最高排第13” ·  昨天  
IPRdaily  ·  浅谈商业秘密之技术秘密 ·  昨天  
参考消息  ·  39年,中国收获亚冬会100金! ·  3 天前  
参考消息  ·  祝贺李方慧!首金来了! ·  3 天前  
参考消息  ·  习近平主席宣布哈尔滨亚冬会开幕 ·  4 天前  
51好读  ›  专栏  ›  橘子汽水铺

15个国产模型联合起来,终于打败了 GPT4o

橘子汽水铺  · 公众号  ·  · 2024-08-02 10:00

正文

引子

一直以来,被问的最多的问题是:现在的大模型越来越多,都不会选了,你能不能告诉我哪个模型最好?

这个问题真的很难回答,因为每家模型都有自己特别擅长的领域,有的擅长对话、有的擅长情感、有的擅长写作、有的擅长代码。

所以我做了个小插件叫 AI Home Tab,在问不同领域问题的时候,根据每个模型的特长,去选择模型,也可以一键全开,同时问5个模型。

不过这样也有个小问题,就是大部分人并不了解每个模型的特长。

于是就有了一个大胆的想法,如果有一个路由模型,能根据问题选出最好的模型,岂不是很棒!

AI 路由模型

刚有了路由模型的想法,就发现有人做出来了。

前两天在 Product Hunt 上,有家叫 Not Diamond 的公司放出了他们的 AI 路由模型。

这个模型可以根据用户的提问,自动选择擅长的模型,并进行回答。

这个模型在每一个指标上都达到了最佳水平,效果超越了 GPT4o。

而且这套组合拳的价格却只要 4o 的 70%。

看起来这是一套可能的方案,又便宜又好用。

但是仔细想想,这套路由方案并不适合所有的场景。

有的产品以角色陪伴为主,每次聊天都换模型反而会OOC,造成负面效果。

有的产品功能比较专注,比如日记类的产品,那只用一个模型的效果就可以了,多了反而没必要。

真正需要 AI 路由模型的大场景,其实还是通用场景,比如 AI 搜索。

各家模型的特色图谱

这是昨天参加 ISC 看到的一个大模型测试对比图谱。

相比各种刷总分的榜单,这个基于能力维度的大模型测试图谱要实用的多。

从这个图可以看出,各家模型的技能点都非常有特色。

有的擅长写作、有的擅长诗词、有的擅长逻辑推理。

还有的擅长弱智吧。。。(你们都有光明的未来

产生这个结果的根源是,各家的预训练数据不同,好数据出好模型,不同领域的数据出不同领域的模型。

既然每个能力图谱下,都有最擅长的模型,那如果训练一个能识别用户问题的路由模型,再根据识别出来的能力去选择模型,那结果会怎样?

15家模型联合起来,终于打败了4o

就在 Not Diamond 发布后的2天,360也把这个 AI 路由模型中国版做出来了。

用测试集跑完,4o 得了 69 分,这个混合大模型评分 80,稳稳地赢了。

这是 4o 和混合大模型的能力图谱:

从能力图谱可以看到,国产模型赢的领域主要是:

诗词赏析、比一比、以及…弱智吧。

而在代码辅助方面,还是差了那么一丢丢。

考虑到15家的显卡加起来可能都没有OpenAI多,能这样打赢也是来之不易。


应用开发者真正需要的排行榜

AI 搜索、AI 助理、AI 僚机这样的通用场景,非常适合使用混合大模型。

但是大部分应用开发者做的事情还是相对垂直的。

毕竟大场景永远是大厂的机会。

而在小的地方,才充满了无限的可能。


  • 哪个模型适合做情感陪伴?

  • 哪个模型适合做心理咨询?

  • 哪个模型适合做总结摘要?

  • 哪个模型适合做数理逻辑?







请到「今天看啥」查看全文