专栏名称: Howie和小能熊

小能熊是终生学习的小能熊，是自我管理的小能熊。小能熊专注于分享自我学习方法，分享时间管理、知识管理等自我管理方面的经验和思考。一句话，小能熊，来自学习者，服务学习者。热爱学习、希望提升自我的你，希望小能熊能成为你的好朋友。

目录

相关文章推荐

鲁中晨报 · 微信功能又上新！网友：真不错 · 20 小时前

鲁中晨报 · 距今2000多年！淄博这里，挖到宝啦！ · 昨天

鲁中晨报 · 放假通知：连休5天！（不是所有人） · 2 天前

鲁中晨报 · 男演员突然去世！年仅32岁 · 2 天前

山东省交通运输厅 · 确定！免费8天 · 2 天前

51好读 › 专栏 › Howie和小能熊

在“用眼看”这件事上，人类相比gpt-4o已无优势。

Howie和小能熊 · 公众号 · · 2024-05-24 11:07

正文

昨天晚上，我用20 个实例，测试了一下多模态 gpt-4o 的 vision 能力。 即使是对大语言模型的能力再熟悉的人 ，这次新发布的 gpt-4o 模型的视觉能力也是惊人的，觉得非常有必要分享给大家。

测试之后，目前我的结论只有一个： 在视觉任务上，人类相对于 gpt-4o几乎毫无优势。或许，人类需要开始：feel the AGI 。🤣

gpt-4o 是 真正的多模态 LLM， 它的视觉等多模态能力是 LLM 原生的，而非通过挂载组件等方式实现。但是，目前我们用到的 ChatGPT 只上线了 vision 的原生能力，其他能力都是通过tts、whisper、dalle等组件实现的。所以，我准备用一系列实例来集中测试并展示 gpt-4o 的 vision 能力。

原生多模态与组件多模态的差异？ 性能，效果。模型越大，效果越强。当多模态能力是LLM 原生能力时，效果是相当炸裂的。

我不准备加分析评论，实例本身是最有说服力，最具体的。每个实例分为两张图，上图是原图，下图是 gpt-4o 的解读。

这些图片不是“一眼就能看出来 ”的那种。 要么富含信息，要么有内在的幽默之处，要么数据复杂。人类读者要感受其中的微妙，可能需要放慢一点速度，体会一下呢

meme 类：识别幽默

1、泽塔琼斯与黎曼函数：寻找佐罗👇

2、5 种学习方法的效果对比 👇

3、微软强推 AI office 👇

4、nvidia，全村的希望 👇

5、章鱼哥学德语 👇

6、流浪汉与 EC2 实例 👇

7、用电影 barbie解释产品上线时各方心情 👇

8、figma cursor 笑话 👇

生活类

9、汽车型号识别 👇

请到「今天看啥」查看全文

推荐文章

鲁中晨报 · 微信功能又上新！网友：真不错

20 小时前

鲁中晨报 · 距今2000多年！淄博这里，挖到宝啦！

昨天

鲁中晨报 · 放假通知：连休5天！（不是所有人）

2 天前

鲁中晨报 · 男演员突然去世！年仅32岁

2 天前

山东省交通运输厅 · 确定！免费8天

2 天前

FM93交通之声 · 看完这段视频，我恨不得马上飞奔回家！有些事只有长大了才懂...

8 年前

Android博客周刊 · Android博客周刊第53期

8 年前

国资报告 · 中国一重首季度实现开门红，新兴际华同期利润大幅增长

7 年前

热门电影图解 · 这部妻子与情妇双飞，贿赂与海洛因共舞的片子，看的居然很感动

7 年前

快传体育 · 快传开箱｜NIKE HYPERDUNK+ SPORT PACK运动套装

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!