专栏名称: 雷峰网

中国智能硬件第一媒体

大神问答：关于 ARKit 的 16 大问题解读

雷峰网 · 公众号 · 科技媒体 · 2017-09-03 10:00

正文

沉浸感按：本文作者系 Super Ventures 合伙人 Matt Miesnieks ，此前他曾通过《苹果 ARKit 凭什么碾压对手？》一文详细解释了 ARKit 的工作原理，以及与 Tango、微软 HoloLens 的不同之处。随后他又发表了《ARKit 很厉害，但苹果做 AR 眼镜还需翻过这 8 座大山》。文中，他利用自己在行业内摸爬滚打的多年经验，对真正的消费级 AR 眼镜诞生路上的 8 座大山进行了梳理，同时还对未来一段时间内的技术发展脉络进行了预测。这两篇文章引起了广泛的讨论，因此 Miesnieks 专门搜集了 16 个网友提问并在今天这篇文章做了集中回答。

Q1：我同意您“追踪系统已经进入商品化阶段”的论断。现在整个业界应该将注意力转向有关交互的复杂问题了，它才是让 AR 开发者头疼的拦路石，我也是被交互问题搞得焦头烂额的开发者之一。

A1：谢谢 Philip 的提问。交互确实是一个令人着迷但又非常难啃的硬骨头。整个业界还没有现成的技术标准可用，开发者只能自己骑驴找马。AR 交互依然需要解决三大问题，它们分别是输入（硬件、模式和多模 AI）、图形界面和操作系统、应用和使用案例。

在我看来，现在谈论图形界面和应用这两大块还有些早，但绝对是个开始学习的好时机。以我的经验来看（我老婆就是个 AR 交互设计师，目前正在 Adobe 负责 Design Lab 的工作，他们在思考沉浸式设计的的未来）解决了输入后我们面对的第二大问题是如何将内容布局进一个 3D 场景中，毕竟开发者对这样的场景没有掌控力，而且这是前人没做过的大课题。同时，我们还要让内容有较强的易读性，文字是黑体还是背的？是否开启夜间模式？如何避免你错过重要信息？设置多大的字体？字体是 2D 还是 3D？等等……

我现在就将精力集中在解决这些问题上，平台公司（如Hololens、苹果和 Magic Leap 等）和在这些平台上搭建应用的开发者可能有机会赶上这个风口。

Q2: 2015 年 5 月，苹果收购了新创公司 Metaio，该公司手握相当强悍的追踪技术，Metaio 的技术是否也为 ARKit 的诞生立下了汗马功劳？

WWDC 上苹果还一并推出了 Metal 2，其图形效能相比Metal提升高达10倍，这绝对不是巧合。ARKit 的横空出世是否与 Metal 2 有关呢？

如果两者有联系，安卓阵营的 GPU API Vulkan 是否也该尽快提供视觉和推理计算加速呢？

在我看来，苹果确实有一定的技术优势，但与当年 Mac 大战 Windows 一样，现在的安卓全球市场份额达到因 85%。因此如果整个安卓生态也能用上新的 API，就能进行快速追赶。同时，网页端也能通过相同的方式进行 AR 大普及。

A2：关于苹果和 Metaio 的问题，我没有什么内幕消息，不过我认为 Metaio 的代码库在平面检测上对苹果帮助不小。同时，它们在视觉追踪器的定位上也帮了不少忙。眼下，FlayBy 是业内惯性追踪器做的最好的厂商，而该技术是 ARKit 能实现惊人效果的基石之一。我认为，未来苹果会基于现有的视觉惯性测量系统（VIO）打造更为完善的 SLAM 系统，到时 Metaio 的价值自然会提现出来。

关于 Metal 的问题，我们曾将 Dekko 的代码移植进苹果早期系统的通用图形处理器中，随后花了大量时间对其性能进行了测试。下面是我们得出的结论：

1. 借助强大的惯性系统和良好的校准，视觉系统在运算上省了很多力。在 GPU 帮助下它们还能做一些特征检测和光束调整的工作。不过，真正起作用的还是硬件加速的 3D 矩阵运算，因此追踪系统在这里作用不大。

2. 解决了三维重构（在设备上进行密集的重构还很困难）问题后真正的好处才会大量出现。当然，我们还要在追踪地图上解决重新定位的问题（特别是在较大区域进行追踪时）。

在你看来，安卓能凭借 85% 的市场占有率赢得这场 AR 之战的最终胜利。不过我认为真正要紧的是：

时钟同步的传感器中心必须融入所有设备（现在已经在许多新设备上实现了）；

惯性测量单元（IMU）校准和建模需要成为 OEM 商的默认设置，而这会对设备的制造成本和时间造成影响，是业界面临的一大挑战；

硬件加速随后会占据主导地位，驱动 AR 用户体验。值得注意的是，我们必须首先解决密集的实时单一三维重构和广域本地化技术。搞定了它们，3D 场景语义自然就明了啦。

对头戴设备来说，能耗问题相当重要，要提升设备的佩戴体验必然会影响电池的大小。不过，现在预测此类设备搭载的芯片会向何种方向进化还为时过早（是采用 Movidius 的 CVGPU 还是 HoloLens 的 HPU ASICs，或是高通骁龙 835？）。

顺便说一句，关于 Vulkan 和 WebVR/WebAR 未来的市场前景，我还有很多思考。为了这些问题我也和 OEM 商和风投们进行了大量交流。显然，它们更偏向 Chromebook 风格的头戴设备，因为这样就不用开发新的操作系统了。不过，这样的产品在追踪和三维重构能力上有一定的缺陷。

Q3：确实，AR 不会像智能机一样显示个 4x6 的桌面图标阵。我想我们需要可以一次看多个 APP 的方法。因此我们需要全新的 UI 架构。不过，在 web 端我更看好新型的“用户代理”。

A3：这个问题问得好，在 AR 面临的所有挑战中，UI 最令我着迷，同时它也是最难解答的。在我看来，最终的 UI 基调会由输入系统来决定。

其次，整体 UI 风格会保持高度的拟物化（至少在初期），这样用户才能更加直观的理解这种虚拟的感觉。最后我想说的是，AR 的 UI 风格不会特别华丽，它与我们熟悉的设计会有较多相似之处。

Q4：在文章中你没有明确解释有关 MR 和 LiDAR 融合的问题。我迫切想知道关于高分辨率内容和注释系统的信息。

A4：由于功耗较高，LiDAR 恐怕难以融合进移动 AR 设备。把硬件问题放在一边，我觉得你真正在乎的是系统是否能给应用开发者或内容创造者以真实世界的 3D 感知（这里会提到密集 3D 重建 Dense 3D resconstruction，而不是我们使用的 Voxels 三维像素。通常，密集意思是各个立方英寸的三维像素，或者说 2D 摄像头传感器上每个像素的三维像素。）更高的像素是可能的，但对于室外或室内场景，即便是每个面一英寸的三维像素，对 UX 来说都需要足够高的分辨率。

想营造这种 3D 感知，系统需要提供“几何学”和“语义学”意义，举例来说系统需要提供沙发的外形，也得提供一些证明它是沙发的标签。

只要有两个摄像头（一个传统的 RGB，一个景深摄像头），就能完成密集的 3D 重建，Tango 和 HoloLens 都在使用这样的解决方案。不过，两套系统提供的都是简化的几何学意义，而只利用一颗 RGB 摄像头就完成密集重构的技术现在还不成熟（至少还要等一年）。此外，这种解决方案对处理能力的要求市场上现有设备都无法满足。

对 3D 场景的语义学理解也是个相当活跃的研究领域，但想出产品至少也得等一年。

Q5：苹果可能会借 ARKit 完成对智能手机 AR 行业的早期统治，但非 iOS 用户却享受不到，这部分用户甚至很长时间都用不上这项功能。那么 ARKit 的诞生对安卓生态有什么意义呢？谷歌需要快速转变打法，推出廉价版的 Tango 吗（本文发布时，谷歌推出了 ARCore）？

A5：在我看来，ARKit 的真正价值和意义在于它告诉 OEM 商（也就是 Android 和 HMD 商），当硬件性能过关后，只需给开发者提供一定的支持，他们就能进入深层的内容开发学习。

实话说，即使是一款能将 ARKit 性能发挥到极限的应用也并不完美，因为现在的应用依然要靠手持，没有三维重构，输入体验也不怎么样。不过，有了 ARKit 开发者终于可以认识到除了一个好点的追踪系统，AR 到底还需要什么。

无论谷歌是否会推出轻量级的 Tango（本文发布时，谷歌推出了 ARCore），安卓 OEM 商们都有自己的小算盘，它们也想扼住命运的咽喉，推出自家的 ARKit，未来一场混战不可避免。

Q6：我关注移动 AR 和 SLAM 已经一年左右了，但读了你的文章我依然感觉醍醐灌顶。

我有两个问题，第一个是 ARKit 会在 iPhone 7s 上调用第二个摄像头吗？第二个则是 ARKit 和 Tango 到底用了什么算法来避免物体移动带来的 VIO 漂移？

A6：我觉得 7s 不会调用第二颗摄像头（内部消息，至少在这一版本不会使用），不过在绘制初始 3D 地图时，第二颗摄像头可能会负责提高精度。当年 FlyBy 的初始系统就没用到第二颗摄像头。由于 ARKit 可以兼容传统 mono RGB 摄像头手机，因此它必须提供对立体声硬件的特别支持。因此未来调用第二摄像头也不是不可能。

对于问题中说到的“物体移动带来的漂移”我不太理解。我想你说的可能是系统如何保持虚拟物体的位置，毕竟在 AR 场景中会有各种移动的物体“入侵”。厂商们实现这一效果靠的是以下这两种方式：

1. 当场景动起来时，无论设备动不动，光学系统都会犯懵（当你站在一辆静止的火车上，与另一列火车并排而立，一辆车动起来后你无法立即找出到底是哪辆车动了）。这个问题可以由惯性测量单元来解决，如果它探测不到加速，那么你就是静止不动的，移动的是场景。

2. 一般情况下，场景内都只有一部分在移动（如人走动、地面和建筑静止）。系统会盯着场景中的某些点，它会设定一些“可靠性得分”来测算某些点是否能确定设备的姿态。那些足够可靠的点最后才会入选，而场景中移动的物体会被忽视。

Q7：一旦到了室外，景深摄像头就不太灵光了，因为背景光中红外光谱的变化会扰乱它的工作。不过，也有人不这样认为，因为虽然我们发送的光子数量不多，但都是在极短的时间内完成的，因此某一点上产生的能量其实比太阳还高。以下为该理论的参考链接：

http://computerstories.net/new-technology-allows-for-outdoor-depth-sensing-cameras-16482

A7：这话说得有道理，但不是 100% 正确。如果发射器能散射出足够的能量，那么即使户外光线较强设备也能正常工作。此外，我们也能使用立体红外接收器（像 Intel 的 Realsense），这样在户外也能实现较好的 AR 效果（限定在一定的范围内）。真正困扰研究人员的其实是功耗、成本和到底能应对多少户外情况。因此现有技术下，研究人员还不愿将景深相机加入消费级设备中去。

Q8：首先，我要赞一下那两篇文章，因为终于有人指出计算视觉终将替代景深传感器了。鉴于模拟数据正在快速崛起，我相信这一天离我们不远了。

A8：动态红外传感器到底能不能胜任景深探测我也不敢 100% 确定。它们确实能解决一些 RGB 相机无法搞定的事情，比如光线较暗的房间、单色的表面和静态物体的景深信息。在某些情况下，红外线传感器还能解决生物追踪的问题。虽然这些都是些边边角角的个案，但未来在降低成本和空间利用率上可能都会起到作用，不过想省电是没戏了。

虽然未来不好预测，但可以肯定的是，景深相机的活未来 mono RGB 摄像头都能替代。

Q9：我们准备为建筑业开发一款 AR 应用并融入 Revit 模型，你觉得我们该选择 ARKit 还是 Tango 平台呢？

A9：我认为你们做选择应该基于下列考虑：

首先，你们希望用户下载应用（选 ARKit）还是直接从你们手里购买解决方案（选 Tango，顺便售卖应用、手机、训练教程和售后）呢？

其次，你的内容是否与三维世界有互动？如果有，只能选 Tango 了。当然，一年以后 ARKit 可能也会支持该功能。

当然，由于不太了解你的公司，因此我只能简单推荐你们选择 Tango 平台。这样就能直接售卖解决方案并尽快找出产品在市场上的定位。如果你们的产品不能卖个高价，就说明它竞争力不够。一旦 ARKit 开始支持你们所需的技术了，就能转换平台了，到时可以通过低成本的“自助”应用来拓展市场。

Q10：你认为未来不同的头戴或移动设备该怎么同步坐标系？现有的应用需要多位用户能同时看到并与相同的虚拟物体进行互动，这就需要整体坐标来保驾护航。未来，用光学传感器加复杂的数据处理能解决这一问题吗？或者说我们还能拿出其他解决方案？

另外，你认为未来会有其他传感器平台融合进头戴设备吗？比如 LiDAR 或雷达？或者说未来我们会纯靠摄像头？在我看来，如果只靠光学解决方案，必然会遇到一些过不去的坎。

A10：关于你提到的多人联机问题，我们在 Dekko 和三星都做过相关的解决方案，因此对这个问题我门清。这套系统肯定要用到绝对坐标，相对坐标就没有那么重要了。随后，系统会在不同的设备间分享坐标（多玩家在线游戏早就解决这一问题了）。

困难之处在于如何通过定位获取绝对坐标。眼下，这一问题外还没有单一的解决方案，只有能拿到更精确 GPS 数据和惯性测量单元的军方才能做到。一般来说，系统开机后会定位在 0,0,0 坐标并获取 GPS 读数（精度为 10-20 米），随后开始覆盖 VIO 和 GPS 系统。

除此之外，系统还会抓取相机坐标系并利用天际线或地标对比 GIS 地理信息系统进行定位。这样一来，用户的绝对坐标值就会更加精确。不过，未来我们需要像素级的超精确定位，现在的技术虽然已经可以实现，但想迅速推广还是有些不现实。

实话说我并不看好 LiDAR 或雷达的前途，因为它们会大幅提升设备的功耗和重量。大多数设备还是会选择 VIO，当然有些设备会轻度使用景深摄像头。GPU 的职责这是支持这些传感器完成地位和三维重构。此外，我们也不能忘了云端 3D 地图和训练数据的巨大作用。

Q11：如果说校准是重中之重，那么苹果为什么要费那么大力将 ARKit 下放给 iPhone 6s 和 SE？最近苹果还推出了机器学习框架 CoreML，它与 ARKit 是否有很多交集？

A11：苹果为支持多款设备而付出了多少努力我不得而知，不过即使一并拉上了较老的 6s 和 SE，也不意味着苹果每换一个机型就要重头做起。

在打造 VIO 时，苹果并未用上 Metal 或者 CoreML。由于惯性系统准确度很高，因此对 CPU 处理能力的要求并不高。此外，苹果还要留着 GPU 渲染游戏和应用呢。

Q12：文章写的真不错。为了更深的理解我还专门做了功课，结果发现 ARKit 用到的一些技术与苹果在 iPhone 6 上引入的 Focus Pixels 技术有关。

A12：我也听过这样的论断，至于苹果是否用过我也不清楚。这项技术确实能提高景深估算的准确性，不过到底能提升多少我也说不清。同时，其稳定性也存疑，如果需要相机时刻保持稳定，其实用性就大打折扣了。对于苹果这种软硬件整合能力如此强悍的公司来说，将 Focus Pixels 技术用在追踪器上确实有一定作用。

Q13：对于你文章中提到的价值主张我非常认同。在这里我还想添加几点自己的意见：

1. AR 将人们的精力从设备上转移开，使他们能重新抬起头与人面对面交流。AR 有潜力扭转移动设备对传统社交互动的破坏。我们手上的设备和社交应用引来了一场数字鸦片危机。我虽然像其他人一样热爱科技热爱移动设备，但我也能毫不犹豫的远离它们。

2. 一段时间以后，AR 就能让我们看到并与一些现实世界无法见到的奇景进行交互，对此我非常感兴趣。不过，人们擅长逃避，而空想主义有多种形态，我们有机会借 AR 打造一个比迪士尼更加天马行空的世界。就这一点而言，我认为我们正站在一场大革新的门前。这场革新将颠覆我们的想象力，是留给子孙后代最好的遗产。

从个人层面来说，我非常希望开发者能真正成熟并拿出一些让人眼前一亮的原型产品和体验，这个行业里每个人的工作都是在添砖加瓦。

A13：上面提到的两点确实很棒。关于让人多抬头，我觉得意义不大，因为人们还是会分心。我们确实可以面对面交流，但如果一方在做白日梦，这话也难说下去。AR 确实给了交互设计是一个好机会，我非常希望能参加到这场重大的实验项目中去。

你提到的第二点我非常喜欢且赞同。实话说 AR 行业的野心比这个还大，它也确实能给我们的生活增光添彩，Dekko 也一直在朝这个方向努力，但技术环境却一直不成熟。如果 AR 能最终成熟，兔子罗杰的故事拍成电影肯定比终结者或钢铁侠更加令人震撼。现在这项技术正处在关键的临门一脚，我实在是等不急了。

Q14：苹果现在在 Apple Watch 上用的“compute tethering”策略你怎么看？iPhone 上 CPU/GPU 和 6D 传感器数据混合让苹果眼镜成了渲染对象和屏幕。

无线数据的吞吐能力是个大问题，因此苹果眼镜自己也得有个 GPU，这样才能完成压缩数据流的渲染。

A14：我认为你提到的几点从技术角度来看都非常现实。在我看来，iPhone 会长期扮演“外置处理器”的角色。从设计角度来看，苹果不会一上来就把大量传感器和技术融合进头戴设备中。它们还是会继续挤牙膏的风格，让用户逐步适应并最终过渡到真正的 AR 世界。即使底层系统已经能提供追踪等技术，AR 面对的一系列设计挑战现在依然很难解决。

从技术角度来看，用户的姿态估算可能会由头戴设备上的专用集成电路完成，但渲染工作还是得靠智能手机。不过，以现有的无线网络来看，带宽问题会成为一头拦路虎。虽然一根电缆就能解决问题，但这样的方案背离了我们的初衷。

Q15：数字与物理相结合确实很棒，但更为简单的桌面 3D 也有三大优势：1. 其社交和多人游戏属性更强，同一物理空间的利用率更高；2. 缩放和旋转等动作更易改变语境且更容易实现相应的 VR/AR 效果；3. 桌面世界让人更有参与感，而大多数软件都没有这些优势。

A15：你提出的这些点都很有料。在桌面游戏中，我们已经体验到了社交 AR 带来的益处。不过，我们的大量测试也证明，仅仅是缩放和控制摄像头对桌面 AR 来说还远远不够。此外，你还要时常改变设备的角度，而玩家通常比较懒。对于桌面 AR，我持观望态度。要想更好地开发这种解决方案，手机就不能仅仅成为镜头或窗口，它还要亲身参与成为游戏手柄。在我看来，所有这些技术都必须遵循与现实世界互动的规律。在下一篇我将详述这一问题。

Q16：1994 年，Paul Milgram 和 Fumio Kishino 将 MR 定义为“虚拟连续统一体极值间的任何地方”。2004 年，Doug A. Bowman （VR/AR 专家，2016 年加入苹果）又将 MR 称为“包含了虚拟环境和 AR 的连续统一体。连续统一体中环境的位置则体现了虚拟性的级别。”Bowman 去年年初还被苹果招致麾下。

如今，微软将 MR 做成了一个更具营销意义的名词，虽然它只是个术语而且重要性并不高，但其意义非常值得深度解读。

A16：给 AR 等术语下定义我一直以来都是拒绝的，因为这实在是太学究了。在我看来，当用户有了相关体验，他们自然就能将相关术语概念化。能有越来越多的人意识到所谓的连续统一体我很欣慰。在我看来，上面两个定义都没问题，人们对产品的分类也越来越明晰。Doug Bowman 和 Mark Bilinghurst 都是我多年的老朋友，他们研究的领域也很类似，所以我知道 Doug 大体在研究什么，但他在苹果到底做了什么我还真不了解。