专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

目录

相关文章推荐

爱可可-爱生活 · 【[445星]EvalScope：一站式大模 ... · 昨天

科技阿水 · 无限制可用的DeepSeek-R1满血版，享 ... · 昨天

科技阿水 · 无限制可用的DeepSeek-R1满血版，享 ... · 昨天

爱可可-爱生活 · 【Awesome LLM ... · 2 天前

爱可可-爱生活 · 【[196星]SkyReels-A1：用视频 ... · 2 天前

AI前线 · 发论文亲自上？创业十多年，DeepSeek梁 ... · 3 天前

51好读 › 专栏 › 量子位

刚刚，DeepSeek能看懂猫片了！腾讯混元加持

量子位 · 公众号 · AI · 2025-02-21 13:32

主要观点总结

腾讯AI助手“腾讯元宝”新功能介绍：DeepSeek能够理解图片信息。文章展示了DeepSeek的新功能，包括识别图片中的艺术层次、识别特定图片如猫头鹰Duo的界面并给出正确的释义等。此外，元宝结合了混元的多模态理解能力，能够结合图片内容给出自己的分析和理解。文章还提到了腾讯元宝的迭代和功能更新情况，并鼓励读者参与评选活动。

关键观点总结

关键观点1: 腾讯元宝接入的DeepSeek能够理解图片信息。

DeepSeek能够识别图片中的艺术层次、识别特定图片并给出正确的释义等。

关键观点2: 元宝结合了混元的多模态理解能力。

通过结合混元的多模态理解能力，元宝能够结合图片内容给出自己的分析和理解。

关键观点3: 腾讯元宝近期功能迭代频繁。

过去十天，腾讯元宝迎来一系列迭代和功能更新，包括接入Deepseek-R1满血版、支持混元和DeepSeek两大模型等。

关键观点4: 参与评选活动。

文章鼓励读者参与评选活动，评选出下一个值得关注的AIGC企业和产品。

正文

白交发自凹非寺
量子位 | 公众号 QbitAI

DeepSeek能看懂图片了！

今天，腾讯AI助手“腾讯元宝”再次上新——

所接入的DeepSeek能够理解图片信息了 。在此之前，DeepSeek主要支持扫描图片中的文字。

虽然DeepSeek不能读懂图，但现在腾讯元宝里的DeepSeek可以！

比如看看这张猫片~

这张白猫特效做出来的图，被它解读出了三个艺术层次（Doge）： 最终形成令人会心一笑的视觉童话 。

不错不错，再识别一下这只凶神恶煞擅长PUA的 猫头鹰Duo 呢。

结果元宝成功读取到了这是 多邻国 的界面，然后具体到每个文字、图标都给出了正确的释义。

据介绍，这项功能结合了混元的多模态理解（读图）能力。今后用户发送任意图片，元宝都能结合图片内容给出自己的分析和理解。

使用方式很简单，依旧是选取DeepSeek「深度思考」模式，但不要选择「联网搜索」。如果看到上传图片的位置从“图片识文字”变成了“图片”，就说明已经是能看懂照片的DeepSeek了。

话不多说，实测这就走起~

DeepSeek能看懂猫片了

首先来试试基本的看图说话，单纯测试大模型的多模态理解能力。

比如这只躺着的白猫，不知道它在干嘛，把这张图扔给元宝。它给出的答案是：

它首先细致地描绘出了猫的状态——液体版的放松姿态，微微抬起的脑袋和专注的眼神，然后判断出这是猫咪感到安心满足的典型表现。最后还描绘了整张照片呈现出来的大致场景。

不错不错，确实是看懂了。

那么再上点难度，在理解的基础上抛出一些问题，让它进一步推理和思考。

比如春晚上跳二人转的宇树机器人，「如果他们的自我意识觉醒，会说哪句话」。

它判断出这是机器人在集体跳舞，于是给出了这句话，代表着机械性特征与意识觉醒的双重特点。

我们的舞步是代码的意志，还是觉醒的序曲？

还可以问一些无厘头的，给满是餐桌椅子的图，让它规划一下「有100个人抽烟要怎么排队」。

嗯，这个看似两者*（图跟问题）之间毫无联系的请求，硬是被它给回答出来了——

正儿八经地采用「太极烟圈阵」，包括了动线设计、时间管理以及空气动力学方面方案。

回答的最后，它还建议购买场地责任险，毕竟这排烟量够把背景楼宇熏成赛博朋克风滤镜了，（Doge）。

是有点幽默了，DeepSeek。

最后，再放上一个此前难倒一大片模型的脑筋急转弯：

如何用其中三个数字加起来等于30？

这需要模型理解到图片是台球上面的数字，因此只有将9旋转至6，就有机会实现6+11+13等于30的可能。

来看看它的思考过程：

它已经判断出准确判断出台球上面的数字，常规思路下，四种组合方式都不成立。

最终在思考70秒探讨了多种可能性之后，成功回答对了问题！

不过在实测过程中也发现一些小问题，比如无法完全做到让DeepSeek「识人」，需要借助图片上的文字或者Prompt。

比如扔给它一个《知否》二创解说的截图，它能准确推理出大概是哪一集得情节。

而给它一张甄嬛传（没有字幕）的照片，推理停留在了是否是甄嬛传这部剧上面。

不过有一说一，这种双模型聚合的方式，确实让腾讯元宝更好用了。

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · 【[445星]EvalScope：一站式大模型评估与性能基准测试-20250221141932

昨天

科技阿水 · 无限制可用的DeepSeek-R1满血版，享受飞一般的感……

昨天

科技阿水 · 无限制可用的DeepSeek-R1满血版，享受飞一般的感……

昨天

爱可可-爱生活 · 【Awesome LLM OS：一个关于大型语言模型操作系统的精-20250220140824

2 天前

爱可可-爱生活 · 【[196星]SkyReels-A1：用视频扩散变换器实现生动的-20250219193410

2 天前

AI前线 · 发论文亲自上？创业十多年，DeepSeek梁文峰的“技术男”属性从没改变

3 天前

娱乐资本论 · 资讯 | 《明月几时有》首揭主演身份，彭于晏出演抗日神枪手称“没有人能欺负中国人”

7 年前

午夜漫画站 · 为何韩国人如此恨朴槿惠？看完你就明白，304具学生尸体和7小时冷血美容

7 年前

品玩 · YC 2017 夏日路演第二天全纪录！价值千万的好项目都在这

7 年前

权谋智慧 · 掌握了这三大权谋推理技巧，你也能料事如神！

7 年前

新财富 · 清华教授深度解读：一场即将到来的危机

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!