最牛的AI依然难以识别美剧《辛普森一家》中爸爸Homer Simpson的常见行为,比如喝啤酒,吃薯片,吃甜甜圈,打哈欠以及一头栽在地上。
位于伦敦的顶尖AI实验室DeepMind最早提出了这一想法,而这也解释了DeepMind为何要创建包含大量YouTube视频片段的数据集——它希望利用这些数据集来帮助AI识别出远远超出“唔~甜甜圈”或者“我去”(Homer Simpson的口头禅)的人物行为。
最受Google, Facebook, Amazon等公司青睐的AI算法非深度学习莫属。深度学习算法通过大量的数据训练来帮助机器进行模式和规律识别。这种算法在各种各样的任务中有十分出众的表现,比如帮助Google翻译进行中英文转化,或是自动识别Facebook照片中朋友的脸。
但再高端的深度学习算法也要依赖于大量的高质量数据。为了提升AI识别人类动态行为的能力,DeepMind公布了它的动力学数据集(Kinetics dataset),其中包含了300000个视频片段和400节人类行为的课程。
“现在的AI非常擅长于识别图片中的物体,但仍无法很好地理解视频。”DeepMind的发言人表示,“主要原因是AI研究界内一直缺少一个大型的高质量视频数据库。”
通过Amazon的Mechanical Turk Service,DeepMind招到了网上员工来帮忙识别并标记成千上万YouTube视频中的人物动作。动力学数据集的400节人类行为课程中,每节包含了至少400个视频片段,每个视频片段大概10秒钟,分别来自于不同的Youtube视频。
新推出的动力学数据集将很可能是训练人工智能视频处理能力的新基准。其视频片段和行为课程的数量远远超过了之前的基准--HMDB-51和UCF-101数据集。而且为了保证数据集的多样化,DeepMind不接受来自同一个YouTube视频的多个片段。
与DeepMind同在Alphabet旗下的科技巨头Google可以说有着获得大量训练数据的最好渠道。Alphabet同时还坐拥提供热门网上视频服务的YouTube。但其他公司和独立研究团队只能依赖于公共数据集来训练它们的深度学习算法。