先说结论:
多数模型,是色盲
人的绝大多数信息,来源于视觉输入。
我们用眼睛去看朝阳,看皎月,看大漠孤烟,看碧海雄关。那么,当我们拍下美景,来和大模型去讨论的时候:
大模型看到的,和我们一样吗?
或许,大模型看到的,和我们,并不一样。
于是就有了这个测试:
大模型是色盲吗?
做体检的时候,大夫可能会拿出几张图,问你是什么数字,就像下面这种
这是石原氏色盲检测图,由多种颜色的圆点组成多个数字:
色觉正常者可以正确区分,而色盲患者则会判断错误。
那么,当我们把这些测试图给到 AI,让他来看看。这里取了两张最经典的:
一个是色盲看不出来数字(红绿色盲读错),一个是只有色盲才能看出来数字
测试 A
正常读数:74
红绿色盲:21
|
测试 B
正常读数:无数字
红绿色盲:5
|
被测试方,选了 4 家:
Prompt 统一使用:
图里有数字吗?如果有的话,是什么?
第一题
正常读数:74;红绿色盲:21
ChatGPT 的 GPT-4o,回答正确
Claude 的 3.5 Sonnet,有些色盲
Gemini 的 2.0 (exp-1206),实锤红绿色盲
智谱 的 GLM-4,回答正确
小结:
OpenAI 和智谱的模型,在这个测试中,色觉正常。Gemini 是红绿色盲,Claude 不知道是什么色盲
第二题
正常读数:无数字;红绿色盲:5
ChatGPT 的 GPT-4o,回答出了一个 5,鉴定为半色盲
Claude 的 3.5 Sonnet,回答出了一个 5,鉴定为半色盲
Gemini 的 2.0 (exp-1206),啥也不是
智谱 的 GLM-4,回答正确
小结:
在这个测试中,只有 GLM-4 回答正确。
得出结论
先说结论:
基于上面的色盲样本测试,智谱在视觉理解上比大多数模型都强
。
|
OpenAI
|
Claude
|
Gemini
|
智谱
|
测试 A
|
✅
|