今天,我们不搞什么长篇大论,不发什么高深莫测的知识,我给大家来演示一个有意思的
小试验
,每个人都能自行测试。
我们用这么一句简单的话,来给当下全球主流的有眉有眼的大语言模型提问。——
Deepseek这个单词中有几个e?
(我这个问题并不偏门,没乱问,很正常的一个提问。所有的测试都是新对话,没有前后文影响)
看看它们都如何作答?
首先把这个问题丢给ChatGPT,回答问题的是GPT-4o模型:
此时,
小编感觉到惊讶,如此简单的问题,不应该啊。
随后,
把这个问题丢给同样超强悍的Claude-3.5-Sonnet:
你没有看错,
这个号称编程大师的Claude-3.5-Sonnet给出了与GPT-4o如出一撤的回答。
继续提问google gemini最新的Gemini 2.0 Flash Experimental:
事情看来不是那么简单。
这样的问题,应该不至于需要把o1拿出来测试吧?
马斯克的Grok2,感觉是智障:
我们不妨再问问
国内的几个大模型。
看看文心一言的反馈:
文心大模型3.5的回复,这是睁着眼睛把单词拼错啊。
再来看看
字节的豆包,给大家录了一个GIF:
你没有看错,
国产文心、豆包都未能幸免。
下面是
kimi的回答:
阿里最新发布的宣称力压DeepSeek R1的
Qwen2.5-Max回答:
终于答对了,这才是聪明的模型应有的水平啊,
这样的问题需要最新出炉的Max才能答对,真的是小题大作了。
好,测试到这里,
我认为应该让DeepSeek本尊出来回答了,看DeepSeek R1怎么思考和回答的:
上面的回答说明了一切。
整个思考过程全部给你展示出来,包括E所在的位置都给你指出来。还有最后再次确认的过程,你服不服?反正sam altman已经罕见认错了。DeepSeek核弹之前他可从未这样说过。
在2月1日参加reddit的活动中,奥特曼首次承认:
OpenAI的闭源策略“站在了历史错误的一边”。我认为我们需要制定不同的开源策略。但并不是OpenAI的每个人都认同这一观点,这也不是我们目前的首要任务。
如果说DeepSeek R1拥有
深度思考推理能力
太过强悍的话,
我们不妨直接用DeepSeek V3来再次测试一下:小编把DS V3回答过程录制视频给大家看看(不开R1深度思考):
有人说,
用英文给GPT-4o以及Claude等一众模型提问试试。同样录了个视频,都是全新对话无干扰:
通过这个小测验,大家可以各抒己见,到底是这些大语言模型确实在某些方面有局限性,导致这么简单的问题都出错。