专栏名称: Howie和小能熊
小能熊是终生学习的小能熊,是自我管理的小能熊。 小能熊专注于分享自我学习方法,分享时间管理、知识管理等自我管理方面的经验和思考。 一句话,小能熊,来自学习者,服务学习者。 热爱学习、希望提升自我的你,希望小能熊能成为你的好朋友。
目录
相关文章推荐
天都新闻  ·  国乒公布澳门世界杯参赛名单 ·  20 小时前  
天都新闻  ·  国乒公布澳门世界杯参赛名单 ·  20 小时前  
西湖之声  ·  樊振东,决定不参加 ·  23 小时前  
西湖之声  ·  樊振东,决定不参加 ·  23 小时前  
深圳晚报  ·  樊振东不参赛!澳门世界杯名单出炉 ·  昨天  
深圳晚报  ·  樊振东不参赛!澳门世界杯名单出炉 ·  昨天  
海峡导报  ·  中国乒乓球队公布澳门世界杯参赛名单 ·  昨天  
海峡导报  ·  中国乒乓球队公布澳门世界杯参赛名单 ·  昨天  
51好读  ›  专栏  ›  Howie和小能熊

在“用眼看”这件事上,人类相比gpt-4o已无优势。

Howie和小能熊  · 公众号  ·  · 2024-05-24 11:07

正文

昨天晚上,我用20 个实例,测试了一下多模态 gpt-4o 的 vision 能力。 即使是对大语言模型的能力再熟悉的人 ,这次新发布的 gpt-4o 模型的视觉能力也是惊人的,觉得非常有必要分享给大家。

测试之后,目前我的结论只有一个: 在视觉任务上,人类相对于 gpt-4o几乎毫无优势。或许,人类需要开始:feel the AGI 。🤣

gpt-4o 是 真正的多模态 LLM, 它的视觉等多模态能力是 LLM 原生的,而非通过挂载组件等方式实现。但是,目前我们用到的 ChatGPT 只上线了 vision 的原生能力,其他能力都是通过tts、whisper、dalle等组件实现的。所以,我准备用一系列实例来集中测试并展示 gpt-4o 的 vision 能力。

原生多模态与组件多模态的差异? 性能,效果。模型越大,效果越强。当多模态能力是LLM 原生能力时,效果是相当炸裂的。

我不准备加分析评论,实例本身是最有说服力,最具体的。每个实例分为两张图,上图是原图,下图是 gpt-4o 的解读。

这些图片不是“一眼 就能 看出来 ”的那种。 要么富含信息,要么有内在的幽默之处,要么数据复杂。人类读者要感受其中的微妙,可能需要放慢一点速度,体会一下呢

meme 类:识别幽默


1、 泽塔琼斯与黎曼函数:寻找佐罗👇


2、5 种学习方法的效果对比 👇


3、微软强推 AI office 👇


4、nvidia,全村的希望 👇


5、章鱼哥学德语 👇


6、流浪汉与 EC2 实例 👇


7、用电影 barbie解释产品上线时各方心情 👇


8、figma cursor 笑话 👇

生活类


9、汽车型号识别 👇







请到「今天看啥」查看全文