好莱坞大片《阿凡达》(Avatar)里的特效场面依然令人记忆犹新,相信很多亲临影院观看过的人都会被那些气势磅礴的特效场面所震撼:现实中的人类插上脑机接口,就能进入一个异星世界,以完全不同的形态存在于另一时空。
图 | 电影《阿凡达》剧照
科幻归科幻,从产品概念的角度而言,所谓 Avatar 就是一种虚拟的 3D 形象,这个3D形象并不是一个静态形象,而是可以通过手机等智能终端,由用户驱动去做各种互动。
实际上,Avatar的概念在动漫、游戏、影视等领域已经存在了相当一段时间,并不新鲜。然而,这项技术从来都没有真正走进消费级应用,原因在于Avatar的生成和互动仍然存在相当的技术瓶颈,很难普及到C端用户,目前的体验也十分难以使用。
2016年,Facebook 收购“换脸”应用 MSQRD,开始这一领域的技术布局。但在创建虚拟形象方面还未拿出可用的消费级产品。
然而最近,一家低调的中国公司已经走在了美国同行的前面。该公司已经完成了Avatar生成、互动和渲染技术的全面布局,开发的产品已经拥有20多家B端用户。先看下面这段该公司发布的视频展示:
在这段视频中,一个普通用户可以在手机端从单张图片生成与图片中人物高度匹配的3D Avatar,这个 Avatar 可以换发型、换服饰、换背景等,并和用户进行互动。
近日,DT君专访了这家位于杭州的相芯科技有限公司(faceunity.com),这也是该团队集体首次接受媒体专访。
以下是专访的精彩内容:
DT君:最直接的一个问题是,可否告知这项技术的消费级产品实现的难度究竟在哪里?
相芯科技:Avatar 技术的难度主要体现在三个方面: Avatar 生成、Avatar 驱动互动以及 Avatar 显示呈现。
首先,Avatar 生成的方法有很多种,例如 3D 扫描,目前主要是让美工去建模。其实,Avatar本身已经不是什么稀罕物,以前就有过,比如电影《阿凡达》。当然,《阿凡达》走得更深入,还有脑机接口的部分,这个我们暂且不谈。
要产生这么一个 Avatar 的成本是非常之高的。打个比方,你拿李小龙的照片去外面做 3D 动画建模的公司,去构建一个很像李小龙并且可实现表情等全部动态效果的 3D 模型,可能需要 2-3 周的时间,以及至少 2000 元的成本,现在的市场行情就是这样。
图 | 相芯公司创建的李小龙3D虚拟形象
所以说,虽然Avatar在动漫、游戏、影视中已经有了,但从来都没有真正走进消费级应用,主要原因之一就是Avatar的生成是一个很大的障碍,消费端用户很难去做这件事情。
我们在 Avatar 生成这个领域布局的第一个技术就是FaceUnity P2A,即Photo to Avatar(从照片到虚拟形象)。这是一项革命性的技术,你只需要给我一张照片,我就能在不到一分钟的时间内、全自动生成一个全动态Avatar。从商业模式上来讲,成本就至少能降低三个数量级。
图 | 采集用户形象
解决Avatar的生成后,接下来的问题就是驱动,这又是另外一项技术。这项技术在影视行业其实已经有了。比如像在《阿凡达》、《魔兽世界》这样的电影中,演员要驱动虚拟角色做动画,就需要先捕获演员的面部表情。
这种技术叫做“面部捕捉”,需要专业的拍摄设备和环境下才能做出来。最常用的是在演员面部贴上很多标记点,来帮助光学系统做定位。
图 | 很短时间内为用户生成3D的形象
这些特殊设备和环境很难在消费级应用中满足。所以在Avatar驱动方面,我们使用了智能手机上安装的普通光学镜头,不用任何标记点,直接通过图像来进行精准的面部表情捕捉,以及映射、驱动一个Avatar,使得Avatar的表情能忠实地跟随用户表情。
这是一项挑战非常大的工作。首先是精度和稳定性问题,因为在移动端去完成这些事情,周围的环境将是丰富而多变的,比如户外阳光直射、或者是在酒吧昏暗的条件下。正因如此,对技术鲁棒性的要求就会很高。
图 | 为用户生成李小龙的形象
其次是计算能力问题,毕竟手机端的计算资源相比 PC 端,还是要差很多的。还有就是存储消耗,作为一个应用,不能占据太多的内存。
所以,在资源有限的情况下,要做到鲁棒、快速、低存储消耗、高精度,挑战就变得非常大了。这是相芯科技在Avatar驱动方面的技术。
在解决了 Avatar 生成、驱动后,最后要解决的问题就是渲染,换句话说就是如何把虚拟形象呈现出来。这包括在各种光照条件下的渲染,在各种复杂光影环境下如何让 Avatar 表现得更好。
图一 | 电影《魔兽世界》中使用的多点面部捕捉技术;图二 | 电影《加勒比海盗》中的面部捕捉、建模与渲染
DT君:既然创建Avatar涉及到这么多复杂的技术解决方案,走进消费端会不会面临很大难度?
相芯科技:从 Avatar 的生成,到驱动,再到渲染,这里面涉及大量的 3D 技术。大家知道,好莱坞代表了电影工业的最先进技术,而电影是科学与艺术集大成的体现。
好莱坞的技术固然强大,但它需要专业的演员、昂贵设备、有经验的建模师,以及特别搭建的摄影棚。
所谓消费级技术,首先是让普通人能用,其次是在普通设备能用,第三是在任何环境下可用。如何让这些原本属于好莱坞的高端技术进入消费级应用,这就是相芯公司正在做的事情。
图 | 好莱坞顶级特效工作室“工业光魔”的摄影棚
关于我们如何解决这些问题,这其实是一个高度交叉领域的技术创新,其中包括计算机图形学、计算机视觉以及机器学习等。而在每一个单项技术里,又需要很深的研究。比如 Avatar 生成,会用到端对端的 3D 深度神经网络。简单来讲就是,你拿一张照片,经过一个黑盒子,出来的就是一个 3D 模型。
这个黑盒子其实是一个3D深度神经网络,通俗的讲就是现在的人工智能。这个黑盒子需要做很多事情,比如抓取特征点、识别性别、识别配饰等。除了做普通的人脸识别外,还要创造出一个3D形象,且这个形象要与输入的2D照片高度匹配。这就是3D深度神经网络需要做的事情。
关于 Avatar 的驱动,涉及到大量的计算机视觉技术。最后一步渲染,主要是计算机图形学。所以可以看到,整个过程实际上是一个跨学科的技术布局。
图 | 相芯公司根据照片创建的3D虚拟形象
DT君:为什么会考虑去做一个高度仿真的3D虚拟形象?这项技术将能够产生具备颠覆性的消费级产品吗?从产品层面,Avatar的应用场景到底在哪?
相芯科技:这项技术一定是能够孕育出具备颠覆性的全新消费级产品,而且近在咫尺。
单纯从技术层面而言,可以想象下,Avatar 其实是提供了一种可能性。在物理世界里,我们每个人都有一个具体形象,而互联网经过这么多年的发展,我们每个人在网络空间里其实也具备了很多形象。比如说,你的微信、微博等会有不同的 ID 及头像,而这种形象和现实生活中你给朋友们的印象肯定是不完全一样的。
那么,我们有没有可能把每个人在网络空间中的形象具体化,不仅仅局限于一个ID、字符串或者静态照片?而是类似我们在现实生活中看到的3D形象?——这就是我们想解决的问题。
图 | 相芯公司创建的各种3D虚拟形象
现实中,一个人肯定是包含音容笑貌的,我们现在解决的是“容”、“笑”、“貌”,未来可能还会解决“音”的问题。最终的目的就是创造一个活着的、栩栩如生的形象。
所以,这项技术其实是很多应用的一个基础。能想到最直接相关的应用场景就是社交,不管是社交网络还是社交媒体。比如在现在的移动平台上,你想去玩一个“杀人游戏”,这类游戏实际上是从线下兴起的,而且需要在游戏过程中察言观色,涉及到很多玩家间的互动。
但现在如果把这类游戏搬到线上去,会有多少人愿意开着视频玩?且不论大家一起开着视频对用户流量和运营商带宽造成的压力,单看网络社交环境下又会有多少人愿意以真实形象示人?
但如果你有一个属于自己的Avatar,事情就变得简单多了。比如,你喜欢李小龙,完全可以使用他的形象,而且通过驱动,他的表情动作都是忠实跟随着用户的,完全不会影响上述游戏中察言观色的功能。这是陌生人在线社交的例子。
如果是和朋友和熟人之间的交流,有时候其实也不一定会愿意把周围环境展示给对方,比如房间很乱,或者本人状态不佳。用户可能会希望将一个和自己匹配的更好的形象展现给对方。这就和现在的照片和视频美颜功能类似,为什么不把一个更好的自己呈现出来呢?
DT君:从纯技术角度来看,Avatar的潜在优势在哪里?应用前景如何?
相芯科技:使用Avatar的另外一个很大的优势是节省带宽。因为用户不需要在上传视频,而只需要上传控制Avatar的那些参数就行了,而这些参数都是直接在手机端本地完成计算的,对带宽的占用会非常低。
Avatar作为一种网络空间的虚拟形象,其实完全可以做得比物理世界中的形象更有表现力。比如夸张的表情,甚至一些动漫化的特征。毕竟,不是每个人都经过了专业训练,一些更富有张力的表现形式可能在社交和泛娱乐领域会有很好的应用,甚至包括未来的在线教育。
图 | 相芯公司对真人面部表情的捕捉
相芯科技目前主要专注于移动平台,未来 VR、AR 什么时候能真正落地现在还很难说。但一旦这些技术成熟,Avatar就会成为一种必需品。因为在虚拟现实环境下,用户不可能还是以ID或静态照片的形式存在,而必须有一个3D的、互动功能完备的具体形象。
目前,Facebook 已经在这个领域进行布局就是个很好的例子,但是 Facebook 做出的形象是卡通化的,真正难做的是一个与照片匹配的虚拟形象。
相芯科技坚持做这个更难的技术,其实是因为中国市场与西方市场不太一样,国人可能更喜欢那种贴近真人形象的表达方式。所以说,在技术上,我们是领先的。当然,卡通风格的Avatar我们也会支持。
- END -
「DeepTech深科技」招募全球记者、采编
申请加入:[email protected]