专栏名称: 腾讯
腾讯公司唯一官方帐号。
目录
相关文章推荐
白鲸出海  ·  中国互联网出海一周头条 ... ·  昨天  
腾讯  ·  腾讯元宝「日更」: ... ·  3 天前  
百度智能云  ·  百度智能云xDeepSeek:单机可部署满血 ... ·  4 天前  
白鲸出海  ·  ChatGPT官宣周活过4亿,TikTok重 ... ·  3 天前  
阿里开发者  ·  我是如何基于 DeepSeek-R1 ... ·  3 天前  
51好读  ›  专栏  ›  腾讯

开会or婚礼?全球最难的看图理解,腾讯AI得了第一

腾讯  · 公众号  · 科技公司  · 2020-12-01 11:47

正文

请回答 这道选择题:
手捧玫瑰的女子,绅士风度的男子,停靠路边的马车,他们在做什么?


正确答案是D。

这道题不是出给人类的,而是出给AI的行为理解题。

它来自全球最难的图像理解题库之一—— VCR (VisualCommonsense Reasoning) 类似读心术,希望AI像人一样,懂得图中人在正 在做什么

11月19日, 腾讯微视视频理解团队 在VCR打榜竞赛中,做了近 27万 这样的选择题。

结果,他们提出了 单模型BLENDer (BimodaL ENcoDer) ,在三个阶段的PK中, 准确率达到了81.6%、86.4%、70.8% ,一举超过谷歌等行业,甚至高于一些多模型的准确率,取得最高分, 夺得冠军


对于你来说,这题很简单; 但是,对AI,太南了。

说白了,AI很缺“某个动机导致某种行为”的逻辑关联数据。

BLENDer 拿着百万部电影故事情节,来做训练,才有了高准确率。

回到最开始的那道题,AI训练和分析的关键是——什么样的场合,穿什么样的衣服。

女主,一袭古典风婚纱,男主,一身华丽燕尾服,再加上捧着玫瑰,手牵手。在“服装-场合”的逻辑关联分析下,答案自然是婚礼。

据说,VCR题库还有不少选择题,难住了AI。

要不来试试,看看BLENDer是否和你所想一致。

1、右侧男子举着火柴做什么?

A. 他在照亮地上的东西

B. 他在照亮房间

C. 他在念咒语

D. 他准备吹灭火柴

正确答案是 A。

AI解题在两个要素,眼睛往地上看,火柴又燃得旺,组合起来,他是想看清楚些地上的东西。

2、背影男子为什么要扛着布袋奔跑?






请到「今天看啥」查看全文