Root 编译整理
量子位 出品 | 公众号 QbitAI
除了CV、NLP、无人驾驶,AI的下一个热门方向是什么?
视频行为理解。
现在,对于AI来说,识别静态图片里的动物是喵🐱还是汪🐶已经是小case。但是,要AI判断出猫是在是坐在扫地机器人上满屋晃,还是在厨房里追着狗打还是挺困难的。
前者属于CV最早期研究的课题,而攻克了物体分类识别的问题后,越来越多的研究焦点聚在了视频理解上。不过,视频理解课题目前最大的难点在于,能用来训练视频里行为理解的数据集太少了。一个原因是
人工标注特别费劲
,二是
对内存和计算能力要求太高
。
针对这个难题,12月初,MIT和IBM联手发布了一个超大型的视频数据集平台,
Moments in Time Dataset
(http://moments.csail.mit.edu/),上面有超过100万个已经多维度标注的短视频。标注的运动对象除了人类,还有动物、物体。
虽然在数据量上,稍微比谷歌去年发布的YouTube-8M Dataset(https://research.google.com/youtube8m/,内有800万个标注的视频)差点儿,但是**在丰富度上,Moments in Time完胜。**
因为Moments in Time的
每个视频数据的长度只有3秒
,而油管8M的是120秒到500秒。视频长度更细致地划分,提高了行为解读的颗粒度。还能有效降低对内存和计算能力的要求。
△
3秒视频标注示例
为什么是3秒?
之所以把视频长度定成3秒,是考虑到匹配我们人类的工作记忆的时长。工作记忆,相当于我们对视觉信息,尤其是
动态信息的储存时间,一般是3秒。
大部分时候,我们人需要3秒时间,去观察并理解任一物体的动作意图,像是风在吹所以树在动,或一个物体从桌上掉落下来了,或和别人打招呼,捡起一个东西,和别人握手等。
如果时间跨度更长的话,行为更可能是简单动作的叠加,其背后有更复杂的含义。
比如一个人刚捡起来一样东西,然后拿着就快速地走,这样的行为可以被解读成偷东西,也可以是送快递。这还需要结合行为发生时的场景等其他信息。
不过在解读复杂行为之前,我们需要先把单一的动作标注清楚,捡东西-携带/搬运-跑。单一动作的正确标注,对视频理解技术来说,是非常关键和基础的一步工作。
视频理解有什么用?
“如果你想理解这个世界发生了什么事情,我们必须得理解行为,解读出动作背后的意义。而动作的信息量比静态图片的要大的多,所以从众多的视频中读取出行为的含义,简单说,就是视频行为理解,是我们现在很重视的研究方向。”参与了Moments in Time数据集平台项目的MIT首席视觉科学家Aude Oliva说。
Aude Oliva教授的研究方向是人机感知和意识方向
,研究方法横跨了三个学科:神经生物学、心理学、计算机视觉。对这方面课题感兴趣的童鞋可以去看看她的主页,http://cvcl.mit.edu/Aude.htm。
拿大家听得最多的无人驾驶来说,这个技术只靠识别周围环境有什么物体是远远不够的,还必须及时判断行车环境中所有移动物体的运动方向速度和意图,来及时作出安全且合适的响应。
如果大家对Moments in Time Dataset怎么解决视频理解数据集标注的问题感兴趣,可以去翻翻他们的论文,里面有详细讨论
标注词的筛选过程
,以及
标注维度的选择依据
(声音、场景、物体)等核心问题。
最后,甩各种链接
Moments in Time Dataset根据地
http://moments.csail.mit.edu/
辣篇论文:
http://moments.csail.mit.edu/data/moments_paper.pdf
参考文章:
The Next Big Step for AI? Understanding Video
http://t.cn/RYeDNTa
Teaching Video Comprehension to AI, One Million Moments at a Time
http://t.cn/RYk6XK5
IBM Research showcases AI advances @ NIPS 2017
http://t.cn/RY1CFv5