今年的春节,想必大家已经被DeepSeek这家公司的神迹给刷屏了,媲美GPT-o1的深度思考能力,关键还免费使用、开源,训练费用是GPT的十分之一。
国内的大模型发展速度惊人,今天,咱们就来对比下几家已经推出了推理功能的大模型能力到底如何?
他们分别是:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
( 上下滚动查看 )
只能退而求其次,试试普通版的智谱,倒是有联网检索能力,也答对了,不过貌似很多的机器人扭秧歌舞蹈没有总结到:
3、 KimiChat的视觉思考版,这似乎不是它的强项,这个问题问它之后,输出很多,但是也是没有联网能力的:
( 上下滚动查看 )
相比之下,这种情况用Kimi探索版还更OK,角度比较独特,更多地是讲这次春晚用到的黑科技技术,不过还是没有提到机器人舞蹈 :
( 上下滚动查看 )
4、 另外几家,讯飞X1只支持数学推理,跃问和天工都只能回答2023年及之前的信息,GPT-o1 mini我也试了下,也是比较笼统的。
综上,本轮表现,DeepSeek是我目前见到的 唯一一家带联网检索能力的深度思考模型 ,回答质量提升很多,不得不感叹为何惊艳了全球,目前连GPT-o1都没有做到,DeepSeek做到了!
2、 接下来是KimiChat的视觉思考模型登场。每个字都识别对了,第一格和第二格,没有联想到“恶有恶报”和“善有善报”,但是第三格联想到了“善恶终有报”,最后整体的理解提到了因果报应,非常到位,佩服KimiChat这轮的表现。
( 上下滚动查看 )
3、 接下来智谱清言的Zero推理模型登场。感觉字是识别对了,但是没有回答到点上。
( 上下滚动查看 )
4、 GPT-o1,这道题,o1表现不俗,堪称标准答案了。
( 上下滚动查看 )
( 上下滚动查看 )
( 上下滚动查看 )