活动信息
主题: 运动辅助视频处理和合成
嘉宾:薛天帆 MIT CSAIL实验室五年级在读博士
时间:北京时间4月6日(周四)21:00
直播地址:http://jiangmen.gensee.com/webcast/site/entry/join-141a21519c7b472ca80e843eeeab2b0d
嘉宾介绍
MIT CSAIL实验室五年级博士生
导师是William T. Freeman教授
他的博士研究方向是图像处理与计算机视觉,机器学习的结合。他提出的遮挡物去除算法曾经被多家媒体报道过,包括MIT Technology,National Public Radio,cnBeta,CCTV。
在此之前,他于2009年在清华大学计算机科学与技术系获得学士学位,导师是张钹院士;于2011年在香港中文大学讯息科学系获得硕士学位,导师是汤晓鸥教授。
博士期间,他曾在微软和Facebook的研究院实习,指导老师是Richard Szeliski。
更多详细介绍,请见他的个人主页>>http://people.csail.mit.edu/tfxue/
分享提纲
一段视频中物体的运动,往往能够提供很多单幅图片无法提供的信息:例如光流场(optical flow field)在事件检测(event detection)中有很广泛的应用。运动场不仅仅能够帮助计算机理解视频的语义信息,也能帮助计算机提升图像和视频处理的质量,生成很多从单幅图片中很难得到的效果。
这次的演讲主要讨论如何利用物体的运动信息,使得用户能够拍摄到更好的图片或者视频,以及从拍摄的照片中合成新的视频。首先,我们将讨论如何去除拍照中的杂质,例如玻璃上反射,路边的栅栏,或者窗户上的水滴。从单幅图片中去除这些杂质是非常困难的,因为从一幅图片中很难判断一个区域到底属于需要恢复的背景还是需要被去除的杂质。而从一段视频中我们就可以相对容易的区分前景杂质(例如反射)和背景:因为前景和背景的深度不一样,由于视差(motion parallax)的缘故,他们在图片上运动的速度也不一样。基于这个假设,我们提出了一套利用运动信息去除杂质的算法,能够消除之前很难以去除的反射以及栅栏影像。
演讲的第二部分,我将讨论如何从单幅照片合成物体的运动。合成一个高清并且自然的视频,是人工智能中一个非常有挑战的难题。因此我提出将其他视频中的运动信息叠加到一张输入图片上,以合成这个物体的运动。为了让合成的视频尽可能真实,我们用深度学习找到图片本身以及他对应的运动之间的内在联系,并使用Variational autoencoder(VAE)来解决运动合成中的不确定性。最后,我会讨论运动信息在其他问题上的应用。
原文链接:
http://mp.weixin.qq.com/s/MQIHDreXLLE5k2aEdzBSuA