牛津大学最新研究：给我一张照片，就能让你开口讲话

量子位 · 公众号 · AI · 2017-05-16 13:04

正文

这句话你说过没有？不承认？我给你看证据！

于是你就看到一段视频，画面中的你开口说了一段你不曾讲过的话，口型自然、动作流畅。这是怎么回事？

来自牛津大学工程科学系视觉几何组的三位工程师，最近提出了一种生成聊天面部视频的方法。这个方法需要两个输入信息：

可以得到的输出，是口型与语音片段同步且匹配的视频。这个方法可以实时工作，并且在运行时，可以应用于未曾见过的面孔和未曾听过的音频，也就是说，不是训练数据的情况下也能工作。

干说不如来段视频，一下就全明白了：

为了实现上述效果，牛津大学的团队提出了一种编码-解码CNN模型，使用面部和音频的联合嵌入，来生成合成的面部聊天视频帧。这个模型经过数十小时未标记视频的训练。

量子位正在招募编辑记者、运营、产品等岗位，工作地点在北京中关村。相关细节，请在公众号对话界面，回复：“招聘”。

今天AI界还有哪些事值得关注？在量子位（QbitAI）公众号对话界面回复“今天”，看我们全网搜罗的AI行业和研究动态。笔芯~

另外，欢迎加量子位小助手的微信：qbitbot，如果你研究或者从事AI领域，小助手会把你带入量子位的交流群里。

△ 扫码强行关注『量子位』

追踪人工智能领域最劲内容