腾讯AI助手“腾讯元宝”新功能介绍:DeepSeek能够理解图片信息。文章展示了DeepSeek的新功能,包括识别图片中的艺术层次、识别特定图片如猫头鹰Duo的界面并给出正确的释义等。此外,元宝结合了混元的多模态理解能力,能够结合图片内容给出自己的分析和理解。文章还提到了腾讯元宝的迭代和功能更新情况,并鼓励读者参与评选活动。
过去十天,腾讯元宝迎来一系列迭代和功能更新,包括接入Deepseek-R1满血版、支持混元和DeepSeek两大模型等。
文章鼓励读者参与评选活动,评选出下一个值得关注的AIGC企业和产品。
白交 发自 凹非寺
量子位 | 公众号 QbitAI
DeepSeek能看懂图片了!
今天,腾讯AI助手“腾讯元宝”再次上新——
所接入的DeepSeek能够理解图片信息了
。在此之前,DeepSeek主要支持扫描图片中的文字。
虽然DeepSeek不能读懂图,但现在腾讯元宝里的DeepSeek可以!
比如看看这张猫片~
这张白猫特效做出来的图,被它解读出了三个艺术层次
(Doge)
:
最终形成令人会心一笑的视觉童话
。
不错不错,再识别一下这只凶神恶煞擅长PUA的
猫头鹰Duo
呢。
结果元宝成功读取到了这是
多邻国
的界面,然后具体到每个文字、图标都给出了正确的释义。
据介绍,这项功能结合了混元的多模态理解(读图)能力。今后用户发送任意图片,元宝都能结合图片内容给出自己的分析和理解。
使用方式很简单,依旧是选取DeepSeek「深度思考」模式,但不要选择「联网搜索」。如果看到上传图片的位置从“图片识文字”变成了“图片”,就说明已经是能看懂照片的DeepSeek了。
话不多说,实测这就走起~
DeepSeek能看懂猫片了
首先来试试基本的看图说话,单纯测试大模型的多模态理解能力。
比如这只躺着的白猫,不知道它在干嘛,把这张图扔给元宝。它给出的答案是:
它首先细致地描绘出了猫的状态——液体版的放松姿态,微微抬起的脑袋和专注的眼神,然后判断出这是猫咪感到安心满足的典型表现。最后还描绘了整张照片呈现出来的大致场景。
不错不错,确实是看懂了。
那么再上点难度,在理解的基础上抛出一些问题,让它进一步推理和思考。
比如春晚上跳二人转的宇树机器人,「如果他们的自我意识觉醒,会说哪句话」。
它判断出这是机器人在集体跳舞,于是给出了这句话,代表着机械性特征与意识觉醒的双重特点。
我们的舞步是代码的意志,还是觉醒的序曲?
还可以问一些无厘头的,给满是餐桌椅子的图,让它规划一下「有100个人抽烟要怎么排队」。
嗯,这个看似两者*(图跟问题)之间毫无联系的请求,硬是被它给回答出来了——
正儿八经地采用「太极烟圈阵」,包括了动线设计、时间管理以及空气动力学方面方案。
回答的最后,它还建议购买场地责任险,毕竟这排烟量够把背景楼宇熏成赛博朋克风滤镜了,
(Doge)
。
是有点幽默了,DeepSeek。
最后,再放上一个此前难倒一大片模型的脑筋急转弯:
如何用其中三个数字加起来等于30?
这需要模型理解到图片是
台球
上面的数字,因此只有将9旋转至6,就有机会实现6+11+13等于30的可能。
来看看它的思考过程:
它已经判断出准确判断出台球上面的数字,常规思路下,四种组合方式都不成立。
最终在思考70秒探讨了多种可能性之后,成功回答对了问题!
不过在实测过程中也发现一些小问题,比如无法完全做到让DeepSeek「识人」,需要借助图片上的文字或者Prompt。
比如扔给它一个《知否》二创解说的截图,它能准确推理出大概是哪一集得情节。
而给它一张甄嬛传(没有字幕)的照片,推理停留在了是否是甄嬛传这部剧上面。
不过有一说一,这种双模型聚合的方式,确实让腾讯元宝更好用了。