专栏名称: GISer last
GISer last 公众号 主要以分享互联网数据资源为主。也分享过GIS、FME等技术教程方法。我个人对于大数据资源、可视化制作、地图制图等方面有很大兴趣,也会分享个人的一些应用和教程。
目录
相关文章推荐
新闻广角  ·  哪吒2进入全球票房TOP50 唯一非好莱坞影片 ·  11 小时前  
新闻广角  ·  演员黄晓明发文悼念 ·  昨天  
51好读  ›  专栏  ›  GISer last

DeepSeek-R1到底强不强?对比GPT-o1、Kimi、智谱Zero等多款推理大模型,谁是真正的王者?

GISer last  · 公众号  ·  · 2025-01-29 23:49

正文

关注 吴言不语零一二三 一起探索科技与人文 449 / 776 本文约 1500 字 预计阅读时间 5 分钟

今年的春节,想必大家已经被DeepSeek这家公司的神迹给刷屏了,媲美GPT-o1的深度思考能力,关键还免费使用、开源,训练费用是GPT的十分之一。


国内的大模型发展速度惊人,今天,咱们就来对比下几家已经推出了推理功能的大模型能力到底如何?


他们分别是:

模型名称
访问网址
大网红DeepSeek-R1
https://chat.deepseek.com/
智谱清言Zero推理模型
https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh
KimiChat视觉思考版
https://kimi.moonshot.cn/kimiplus/crm40ee9e5jvhsn7ptcg
GPT-o1
Sider浏览器插件
讯飞星火深度推理X1
https://xinghuo.xfyun.cn/desk
阶跃星辰Step R-mini
https://yuewen.cn/
天工Skywork o1 Preview
https://www.tiangong.cn/o1Chat



一、联网检索


我们知道,大模型因为训练完了之后知识就固化下来了,一般会截止到训练结束的那天。推理模型是否带检索能力,决定了输出的答案是否具有时效性。
我们就来试试几天这几款推理大模型,是否具备检索能力并进行有效思考。
今天就来试试它们对今年春晚是否了解。
1、 首先我们来看看大网红DeepSeek,首先思考了21秒,并查了不少网页,然后就开始回答了,很牛,感觉每个亮点都总结到了,机器人舞蹈、许仙白娘子、黑科技、文化,方方面面都点到了,关键文笔还很好,感觉可以直接作为一个新闻稿拿来用了。

( 上下滚动查看 )


2、 智谱清言Zero,有些太笼统了,看来是不具备联网检索的:


只能退而求其次,试试普通版的智谱,倒是有联网检索能力,也答对了,不过貌似很多的机器人扭秧歌舞蹈没有总结到:



3、 KimiChat的视觉思考版,这似乎不是它的强项,这个问题问它之后,输出很多,但是也是没有联网能力的:


( 上下滚动查看 )


相比之下,这种情况用Kimi探索版还更OK,角度比较独特,更多地是讲这次春晚用到的黑科技技术,不过还是没有提到机器人舞蹈 :


( 上下滚动查看 )


4、 另外几家,讯飞X1只支持数学推理,跃问和天工都只能回答2023年及之前的信息,GPT-o1 mini我也试了下,也是比较笼统的。


综上,本轮表现,DeepSeek是我目前见到的 唯一一家带联网检索能力的深度思考模型 ,回答质量提升很多,不得不感叹为何惊艳了全球,目前连GPT-o1都没有做到,DeepSeek做到了!


二、梗图理解


梗图理解,我们首先来看看各大模型的识图能力如何,这道题,半年前,我曾经用过,难倒了一众大模型,包括GPT-4o,国内的文心一言、 腾讯元宝、智谱、文心一言、KimiChat 等。但是那个时候,大家都还没有推出带有深度思考能力的模型,现在看看新的模型效果如何?

1、 DeepSeek:“ ”字拆分成两个字了,鱼等,造成后面的理解都出错了。这点DeepSeek还得加强。



2、 接下来是KimiChat的视觉思考模型登场。每个字都识别对了,第一格和第二格,没有联想到“恶有恶报”和“善有善报”,但是第三格联想到了“善恶终有报”,最后整体的理解提到了因果报应,非常到位,佩服KimiChat这轮的表现。

( 上下滚动查看 )


3、 接下来智谱清言的Zero推理模型登场。感觉字是识别对了,但是没有回答到点上。


( 上下滚动查看 )


4、 GPT-o1,这道题,o1表现不俗,堪称标准答案了。


5、另外三款带推理能力的模型,天工、跃问都不支持上传图片,讯飞X1只支持解数学题,此轮放弃。
综上,本轮表现 ,GPT-o1 > KimiChat视觉思考版>智谱清言Zero> DeepSeek R1。


三、数学解题


我们最后来看一道去年17分的高考数学题,这是题目和答案:


我们来看看他们的表现:
1、 DeepSeek,用时221秒,推理过程很长,咱们忽略,答案都对了,厉害:

( 上下滚动查看 )


2、 智谱Zero,答案也OK,计算方式与DeepSeek稍微有所不同:

( 上下滚动查看 )


3、 Kimi视觉思考版,回答了很多,但最后一道题错了:


( 上下滚动查看 )


4、






请到「今天看啥」查看全文