(点击上方公众号,可快速关注)
据 IEEE 报道,美国华盛顿大学的一项新研究表明,基于现有公开的 Obama 音频和视频片段,人工智能(AI)软件可生成了口型几乎完美匹配、高度逼真的假视频。
研究人员表示,这项工作将来有助于为虚拟现实(VR)或增强现实(AR)应用程序生成一个人的数字模型。
此前,华盛顿大学的计算机科学家曾表示,通过分析从网上搜集的人物影像,无论是诸如施瓦辛格的名人,还是小布什/奥巴马这样的公众人物,都可生成和他们极其相似的数字模型(digital doppelgängers)。
研究人员最新作品之所以要选择奥巴马,是因为网上有公开的奥巴马演讲高清视频,时长多达数小时。
研究团队用神经网络程序分析了视频中的数百万帧影像,以确定奥巴马脸部的变化,比如:嘴唇、牙齿、嘴角以及下巴周边的皱纹。神经网络程序学习了口型和各种声音之间的联系。
研究人员采集了音频片段(原始音频文件),再把口型和新的音频文件剪辑匹配,再嫁接到新视频。
研究小组表示,他们并没有塑造人物情绪,所以合成的新视频并不完美,有时本该随意的氛围,奥巴马表情显得过于严肃。不过他们也会尝试,神经网络学习从音频文件中预测人物情绪,从而产生相应的视觉效果。
此项研究由三星、谷歌、Facebook、英特尔和华盛顿大学资助,将于 8 月 2 日在洛杉矶举行的 SIGGRAPH 大会上公开更多细节信息。
有兴趣的童鞋,可提前看看研究论文:
http://grail.cs.washington.edu/projects/AudioToObama/siggraph17_obama.pdf
小提示
研究小组公开了合成后的视频,但在腾讯视频和微信上传一直失败 :( 。可在如下链接观看:
觉得这条资讯有帮助?请转发给更多人
关注 技术最前线 ,看 IT 要闻