如果没有它，VR注定是场“闹剧”

36氪 · 公众号 · 科技媒体 · 2016-09-25 10:07

正文

行业缺少优质标的，关键性技术节点远未突破，VR如同一个牙牙学语的婴儿，尚在襁褓之中，远未成熟。这里的“关键性技术节点”其中之一，就是空间音频技术。在今天，人们更愿意叫它3D音频。

作者 | 季星袁帅黄永明

顾问 | Thomas Yao 胡韬

制图 | 房宫一柳

编者按：人们说：VR的寒冬来了。最近看到一句非常好的描述：“一度承载着创业者和投资人太多期待与热情的VR行业，经历了如过山车般的一年。”

核心技术瓶颈突破之前，VR还将在泡沫收缩过后进行理智思考。

而3D音频，作为VR产业的关键性技术节点，值得在今天被关注。

你将看到如下内容：

为什么说VR回春关键在于3D音频技术？
3D环绕立体声技术发展这么多年了，为什么最近才火？
深蓝DeeperBlue为你盘点了7家做3D音频的公司，到底哪家靠谱？

在百度上搜索“VR寒冬”，有1,660,000个结果。

《资本变脸：6个月，VR从狂欢到惨淡》（极客公园，2016年09月07日），《吸引了无数资本和创业者的VR行业，似乎已进入寒冬》（中国企业家，2016年08月26日），《VR创业公司的寒冬来了？听听资本大咖怎么说！》（网易新闻，2016年05月27日），《小心被套！VR将迎来寒冬》（搜狐新闻，2016年05月11日）……

人们犹记得2015年下半年到2016年年初的VR热：从创业者到投资人，大家都对VR有着无限的热情与希望。而从计算机背景出生转行做VR的人真不在少数：他们正是看准了这块“热土”，从大公司走出，一头钻进VR行业。

行业缺少优质标的，关键性技术节点远未突破，VR如同一个牙牙学语的婴儿，尚在襁褓之中，远未成熟。与其说VR凛冬已到，不如说之前的泡沫正在合理地被挤破。

这里的“关键性技术节点”其中之一，就是空间音频技术。在今天，人们更愿意叫它3D音频。

苹果音乐和VR工作室Vrse联手为U2乐队制作了一段VR音乐视频《Song for Someone》。图为MV片段中U2在空无一人的多伦多体育场的演唱。

正如著名VR制作公司Jaunt的音频首席工程师亚当·桑默（Adam Somers）说的：“（在VR这件事上面），听觉占了五成，视觉占剩下五成。”

听觉决定了人类对空间的定位、对物体距离的感知等等。视觉给出一个线索，听觉则去证实这个线索是否真实存在。如果少了视觉的沉浸感，那么一切画面的真实性就荡然无存。不解决听觉问题，虚拟现实就不能成为虚拟现实。可以这么说，3D音频决定了我们念叨着的VR时代是否真正到来。

首先科普一下3D音频

什么是3D音频？简单来说，3D音频是对声音最逼真的模拟技术，能让听众完全还原到与现场相似的声场。类似的叫法还有全景声方案、Immersive Audio（沉浸式音频）。你能完全听到逼真到“现实”的声音，而不是“现实主义”的。

目前世界范围内最成熟的空间音频制作公司之一，VisiSonics的创始人之一拉玛尼·杜瑞斯沃米（Ramani Duraiswami）有一句话：“当你听到的声音是极度真实的时候，耳机就消失了。”

人耳对声音信号有一套自己的分析系统，来得以对声音进行分析与定位。从空间任意一点传到人耳（鼓膜前）的信号都可以用一个滤波系统来描述，音源+滤波器（传递函数）得到的就是声音到达两耳鼓膜前的信号。

HRTF图示。人耳对声音信号有一套自己的分析系统，来得以对声音进行分析与定位。

我们不必关心声音是如何传递到双耳的，而只需要知道：音源与到达我们双耳之前的信号是有差别的；并且我们的左耳和右耳听到的声音是不一样的。这可能是源于我们的进化，视觉没有办法在黑夜中定位，而耳朵可以通过左右耳的声音不同，进行定位与防御。

这个滤波器（传递函数）叫HRTF(head-related transfer function)。如果我们有空间所有方位到双耳的滤波器组，就能得到一个滤波矩阵，从而还原来自整个空间方位的声音信号。

HRTF是极具个人性的。每个人成长中都会形成一套自己对听力的感知。并且，我们每个人的头部大小不一样、耳间距不一样，耳朵的轮廓、里面的旋涡状也不一样。加上，我们在成长当中养成了自己独特的听力习惯。可以这么说，每个人听到的同样物体发出的声音，其实都有细微差别。

如何还原人耳真实听到的声音？科学家对此的探索不是今天的新事。在将近一个世纪之前，1933年，AT&T贝尔实验室就把这项技术带到了芝加哥世博会上。这家公司的人声研究部做了一个机械化的仿真人头——他们把这个假人取名叫“Oscar”。Oscar的耳朵里装上了两个麦克风，坐在展示房间中，录取周围的声音。Oscar听到什么，他就能录到什么。

AT&T贝尔实验室提供的解决方案叫做双耳录音技术（Binaural Audio）。

双耳录音技术模拟人类真正的头部的形状、左右耳的耳间距，可以收录到近乎于真正的人类听到的声音。这是一种有效的“笨方法”，物理层面上即还原了HRTF。沿着这条路径，德国麦克风公司纽曼(Neumann)在1973年到1992年间，连续在双耳录音技术上做出了各种突破——更好的收音设备、把麦克风放置于仿真假人耳内鼓膜上等等。

1933年，AT&T实验室的双耳录音技术仿真人，Oscar

双耳录音技术在这个世纪中一直处于缓慢的速度发展，原因在于，没有强大的产业需求。一直等到这一波VR热潮的来临，它才重上舞台。由于Oculus Rift，索尼Morpheus以及三星Gear带来的VR普及，3D音频技术迎来了它的“文艺复兴”——于是它又被称作了VR音频。

3D音频技术到底难在哪儿？

VR需要有3D音频才能产生更真实的沉浸感。Jaunt的音频首席工程师Adam Somers在接受THE VERGE采访时这样描述：“在沉浸感这件事上面，听觉占了五成，视觉占剩下五成。”

Jaunt是美国著名的VR制作公司，去年得到上海华人文化产业基金（CMC）与迪斯尼的6500万美金投资。

然而，双耳录音技术本身不能支持收听的时候转动头部。玩家在玩VR游戏的时候，如果有声音从后面传来，人的本能反应是转头向后看。这时候如果声音继续在你的前方，那么会大大降低沉浸感。

另一种还原真实声场的技术也不能支持收听的时候转动头部，叫环绕立体声(surround audio)。环绕立体声用多个物理扬声器来打造一个360度的声场，来自不同方向的声音通过不同的音箱/扬声器来播放。该项技术最著名的公司是DTS和杜比（Dolby）。

比如一家环绕立体声影院，它会在观众的周围放置很多音箱/扬声器。如果画面左边出现了爆炸，那么左边的音箱会发出声响，而不是右边。由于播放器的位置固定，听众只有在固定的点，才能听到模拟得最真实的声场。

真正的沉浸体验，来自于高中低音频在空间内全方位的还原，即以人头为中心收录一个球形内所有角度的声音，并进行还原。

如何解决这个问题？计算成为了重中之重。

在双耳录音技术取到的声音之后，还原HRTF，然后进行计算，把各个方向的HRTF还原，才能合成一套随着转头、位置移动声场自然发生变化的空间音频。

在这三个环节中——收音、录音；计算、渲染(processing, rendering)；回放——技术壁垒最强的地方在于计算环节。

核心算法是考验各家空间音频公司的能力指标。Two Big Ears的公司广告语说明了一切："We do mathematics so you can focus on being awesome."（我们做数学，你来好好做酷的事情。）这家位于爱尔兰的公司目前在空间音频技术上处于领先地位。

有些团队则为了减轻计算量，用了一些比较笨的办法。比如3dio，他们创造出收音设备，可以尽可能地在同一时间录到各个方向的HRTF。

3dio公司生产的四对仿真人耳的收音设备

如果没有它，VR注定是场“闹剧”

正文

首先科普一下3D音频

3D音频技术到底难在哪儿？

请到「今天看啥」查看全文