专栏名称: 42号车库

Hey, it's 42HOW. 和你一起探索未来汽车。E-mail: [email protected]

特斯拉：一文了解自监督学习、Dojo 计算机和完全自动驾驶功能

42号车库 · 公众号 · · 2020-01-15 20:32

正文

原文来自 Seeking Alpha，作者： Trent Eady ，翻译：译龙

摘要

在 2020 年，自监督学习或将提升计算机视觉的最新技术现状。
特斯拉正致力于一款专用的计算机——Dojo，该款设备采用自监督学习技术，用于训练神经元网络。
凭借主动学习技术，特斯拉能够自动创建最有用的视频剪辑（video clips），供自监督学习使用，该类视频素材源自于近 75 万辆搭载了摄像头的特斯拉智能网联车队。
特斯拉的大型车队还能在计算机视觉、行为预判及（自动驾驶）决策方面提供其他的优点。
涉及万亿美元（收入所带来）的疑问：无人驾驶出租车是否能够实现？若该目标能实现，且特斯拉能够大规模部署无人驾驶出租车时，公司的股价或将翻两番（4 倍）。

从我的角度看，在 影响特斯拉长期市值的各变量中，最重要的未知变量是该公司是否拥有推出一款自动驾驶出租车（或无人驾驶出租车）服务的能力。

这就是我密切关注特斯拉最新版软件升级包的原因，这也是我试图自学机器学习领域相关知识的原因。这样，对于更好地理解其幕后的技术变化，我的信心就更足了。

以下是最新的消息：

特斯拉刚推出了所谓的「完全自动驾驶可视化预览版」（Full Self-Driving Visualization Preview）。该软件升级展示了车载显示屏上的目标物探查功能，可提供停车标识、交通灯（包含颜色变动）、车道线、转向箭头乃至于垃圾桶。

该款可视化功能看起来类似于彰显平面简约主义（minimalist graphics）的一款视频游戏。下方的视频播客展示了车辆运行中时新软件的状态。

显然，特斯拉在持续提升其计算机视觉功能，该公司的近期目标是发布可供都市道路使用的新 Autopilot 功能。

在本文中，我将继续探究该技术，并坚信特斯拉将继续提升计算机视觉功能。我还会解释为何会坚信 该技术将在自动驾驶领域取得竞争优势。

用于计算机视觉的弱监督学习

在本人早前发布的特斯拉文章作品中，我讨论了人类行为的线索是如何向摄像头数据提供自动标签的。这类自动标注的数据可被用于训练与计算机视觉相关的人工神经元网络。 对于自动驾驶技术而言，计算机视觉是不可或缺的一部分 。该方法的技术名称是弱监督学习。

我探究的主要示例是将人工驾驶的区域标注为「自由空间」（free space）（如：空白空间）。同时，将除了自由空间外的其他所有区域均标注为非自由空间（如：已占用的空间）。另一个示例（可以说，这不仅限于视觉）是根据驾驶员的转向角来预测道路的曲率。

除了这些示例外，人类行为及（驾驶）环境中各因素间存在着各种关系。例如，某款总体不错（但并不太完美的）预测器（predictor）可预测交通灯是处于红灯状态还是绿灯状态，从而判定人类驾驶员应停车还是继续前行。

通用 Cruise 和谷歌 Waymo 等竞争对手旗下拥有大量的车辆，差不多占到上路行驶车辆总数的近千分之一。然而，对于特斯拉而言，这类 弱监督学习的优势在于： 其自动标注训练数据的采集量是其他竞争对手采集量的近千倍 。

据百度的研究表明，若特斯拉所掌握的数据量是其他竞争对手的近千倍，那么特斯拉或将在神经元网络性能方面击败其竞争对手，该公司可获得的自动标注任务数量是其竞争对手的十倍乃至更多。

弱监督学习与完全监督学习形成了鲜明对比，后者是计算机视觉中最常见的深度学习形式。

在完全监督学习模式下，由人工注解员对图像或视频内容完成手动标注，其过程无疑非常耗时和费力。当然，完全监督学习的规模可扩大，直至其劳工成本高到令人望而却步。然而，完全监督学习可与弱监督学习及其他方法共用。因此，从个人角度讲，我认为 在可预测的未来中，完全监督学习将继续发挥重要的作用 。

用于计算机视觉的自监督学习

自监督学习则是另一种方法，其旨在 规避手动标注数据的劳动成本 。正如该技术名称所示， 在自监督学习模式下，数据可实现自监督 。换言之，训练信号将告诉神经元网络，哪个输出值是正确的，哪些不正确的输出值应归咎于数据本身。让我来举个具体的例子。

特斯拉这类公司能够通过车载摄像头中采集海量的图像数据。自监督学习可设法学习这类图像的内部构造——图像内部重复出现的模式（recurring patterns），这需要通过任务训练来实现，该任务相当于一个代理，代表我们想要神经元网络真正去做的事情，其技术术语为代理任务（也就是所谓的借口任务）。

例如，代理任务可能是提取一张图像，而该图像已移除了随机补丁（random patches），并填入了缺失的像素。在训练期间，神经元网络可获得整张、未修改的图像。

在测试时，展示在神经元网络面前的是一组以前从未见过的新图像组，且这些图像存在随机补丁缺失的情况。在对生成的像素帧数与真实缺失的像素进行比对后，可对神经元网络的精度予以判定。

这一「填补空白」（fill in the blanks）理念可被用于视频帧数中缺失的补丁。因此，特斯拉这类公司或许能够使用视频剪辑中的序列帧，而非仅限于图像的使用。

然后，我明白了，在这类代理任务的训练过程中， 神经元网络可自行学会表达物理世界 （外界，physical world） 的方方面面 ，包括：车辆、人类、自行车等目标物及车道、人行道及草地等路面。

在一个代理任务（或多个代理任务）中训练神经元网络，这将涉及到学前训练（pre-training）。然后，相同的神经元网络可通过手动标注的图像或视频进行训练，即所熟知的「精准调整」。

注解人员为车道等路面各帧图像中的车辆等目标物周边绘制了 3D 立体的方块（3D 边界框），然后选用了颜色代码。神经元网络学习这类显示标签（explicit labels）的速度更快，执行效果也更好，因为神经元网络已经对这类视觉现象建立了内部表征。

在完全监督学习模式下，神经元网络可改进这类已存在的表征，并将其与显示标签（explicit labels）相关联。自监督学前训练正是以此来推动完全监督学习的。

在 DeepMind 最近发布的一篇论文中，研究人员们发现， 凭借自监督学前训练，只需向神经元网络提供半数的手动标注图像 训练样例，就能在图像识别方面取得更好的效果。相较之下，若同一个神经元网络想取得同样的效果，所需提供的图像示例数量则需要翻两倍。因此， 自监督学前训练的数据有效性是神经元网络的两倍多 。

在另一个版本的实验中，研究人员给了一个学前训练神经元网络的训练数据，其数据量仅为常规手动标注训练数据组数量的 1%。然而，该学前训练的神经元网络击败了其他同类非学前训练神经元网络（non-pre-trained network），而后者的训练数据量却高达训练数据集的 5%。显然，前者的数据有效性是后者的 5 倍。

深度学习的从业人员预计，自监督学习将成为引人注目的研究领域，因为若该技术能取得突破（ if the nut can be cracked），那么将有助于改进计算机视觉（及其他深度学习任务），可通过数据及运算实现扩容，无需耗费令人咋舌的人工成本。

如今，YouTube 视频网站上的视频时长已达到数十亿小时。谷歌已从 YouTube 上创建的视频剪辑中搜集了近 35 万小时的开放式数据集，用于深度学习研究。研究数据就在那儿。

搭载了 8 个环视摄像头的特斯拉车队数量总数接近 75 万辆，其每天的平均行驶时间约为 1 小时，这意味着整个特斯拉车队每月可获得时长约 2000 万小时的视频。若将这类车辆所搭载的 8 个摄像头所采集的视频都采集完，其视频的累计时长约为 1.7 亿小时。

特斯拉所获得的视频数量非常多，若采用手动标注的方式，压根不具备经济可行性。然而， 自监督学习可给出正确的代理任务，该技术或能 从海量视频中自动提取视频剪辑片段，然后再提取出色的内在表征 。若采用多次完全监督学习方式，这类表征或将使得其数据有效性提升数倍。

特斯拉是如何将自监督学习用于计算机视觉的

在 2019 年 4 月的特斯拉自动驾驶主题日（Tesla Autonomy Day）活动中，公司首席执行官埃隆·马斯克暗示，自监督学习是公司的头等大事。（备注：「非监督式学习」是自监督学习的同义词）。

马斯克表示：「车辆是一种结论优化型的计算机。特斯拉正在进行一个大项目，今天没时间谈论太多，该项目被称为 Dojo。这是一款超级强大的训练计算机。 Dojo 将能够接纳海量的视频类数据 。公司还能利用 Dojo 计算机来实现对大量视频的非监督大规模训练，但这是新的篇章。」

在最近的发言中，负责特斯拉人工智能领域的高级总监 Andrej Karpathy 表示， Dojo 训练计算机的最终目的是为了能够以较低的成本实现指令，并大幅提升其性能表现 。目前尚不清楚，Dojo 的研发已经到了哪一步，也不清楚该款计算机将于何时部署。

我们了解到，特斯拉正在探究计算机视觉的自监督学习，若具体到某个领域，那就是感知深度。

特斯拉车队拥有近 75 万辆智能网联汽车，该公司可实现主动学习技术来选择相应的视频剪辑并保存，然后通过无线网络将其上传。主动式学习试图通过各类方式，以便选择最具指导性的训练样例，尽可能提升学习的高效性。

例如，英伟达就研究出一种方法，可从冗长的驾驶视频中自动选取视频帧。然后，英伟达又付费聘请人员，对该视频素材进行人工评估，并手动选择视频帧，公司对这两种方法进行了比对。 英伟达发现，相较于人工选择视频帧，若采用自动选择视频帧，神经元网络的性能表现将提升 3-4 倍 。

因此，我强烈怀疑，特斯拉将会采用主动学习技术来从车队视频中自动创建视频剪辑，公司将通过自监督学习技术并通过这类视频剪辑来自动训练其神经元网络，并采用 Dojo 训练计算机来加速这一进程。

作为前文所提及深度学习领域的开拓者，Yann LeCun 预计，研究人员们正处于视频自监督学习领域技术突破阶段。据他估计，到 2020 年，深度学习领域的从业人员将能够真正意义上成功实现对视频自监督学习的应用。

当出现这种情况时，我相信特斯拉还可能在基于视频的（自监督学习）任务方面取得与 DeepMind 相同的成果，凭借图像识别技术，其数据有效性将翻番、达到 5 倍乃至更高。

值得一提的是， 主动学习可被应用于任何形式的数据采集中，其数据采集将服务于特斯拉的机器学习技术 。当对训练样例进行手动标注，这将提升其工作效率。当带宽、数据存储或运算成为制约因素时，主动学习使得特斯拉能够在这类制约因素下获得更高的神经元网络性能。

据推测，凭借近 75 万辆上路行驶的车辆，相较于其竞争对手，特斯拉所遇到顶级样例的数量级将更高。在计算机视觉方面，这不仅仅涉及到自监督学习或弱监督学习，还涉及到完全监督学习。在自监督学习或弱监督学习领域，特斯拉在数据规模方面占据优势。主动学习还适用于计算机视觉以外的其他领域。

激光雷达能否对特斯拉形成压倒性优势

特斯拉以不采用激光雷达而闻名业内，该公司尚无启用激光雷达的计划。然而，最近有一条令人备受鼓舞的消息。

Mobileye 最近发布了一条演示视频，该公司展示了一辆自动驾驶车辆在耶路撒冷道路行驶的情况，其凭借由 8 个摄像头组成的感知套件，为该测试车辆提供道路导航服务，给人留下了深刻的印象。然而，相较于特斯拉的最新款车辆，该测试车辆的运算能力只有前者的三分之一。

我的观点是： 若 Waymo 等竞争企业表明，搭载激光雷达的无人驾驶出租车是可以实现的目标 ， 且在未配置激光雷达的情况下，特斯拉无法研发出无人驾驶出租车 。那么，即便采用了激光雷达，也未必对特斯拉构成压倒性的挑战。

特斯拉入局的时间较晚，但除了激光雷达感知外，几乎在自动驾驶的所有重要领域中，特斯拉都拥有大型车队数据这一优势，其中自然也包括计算机视觉领域。

若 Waymo 是首家真正实现大规模部署无人驾驶业务的公司，我认为，特斯拉则能成为快速跟进者（fast follower）。在这种情境下，对于特斯拉而言，致力于并购一家长期从事激光雷达感知技术的自动驾驶初创公司，无疑是非常有策略性的明智之举。

凭借无人驾驶出租车所取得的收入，特斯拉就能够为购买了其完全自动驾驶套件的用户提供诸多福利，如：公司为其车辆提供改装服务，可回购其车辆并自行改装亦或是向用户支付一笔现金。该目标是有可能实现的，因为：1.预计无人驾驶出租车是非常赚钱的一项业务；2.经改装后的车辆也能被作为无人驾驶出租车，进行相关部署。

对于运算硬件，也能采用同样的思路。若特斯拉量产型车辆的运算能力并不足以为无人驾驶出租车的神经元网络提供运行支持，那完全可以采用类似 Waymo 的作坊，为无人驾驶出租车另行配置昂贵的重型硬件设备。

特斯拉自动驾驶系统由三大部件构成：计算机视觉、行为预测及规划 （有时也被称为「决策」）。

计算机视觉即车辆所能「见到的」场景。
行为预测指能够对行人、骑行者、车辆、动物及道路上其他移动目标物行为及轨迹的预测。

规划意为车辆将自行决定其所采取的行动，并通过空间与时间因素来测定其行为轨迹。

特斯拉可采用行为预测方法来训练神经元网络，该方法与 LeCun 预测计算机视觉自监督学习的方式极为类似，该方法在不久后就有实现的可能性。

相较于预测未来的视频帧，行为预测神经元网络只需预测抽象表征的轨迹，如：某个车辆周边的 3D 边界框（3D bounding）。该训练是自监督型的，因为计算机视觉系统将告诉车辆该边界框是否按照其预测的轨迹移动。

像 3D 边界框等被应用于（行为）预测的抽象表征也同样能被用于规划中。从本质上讲，神经元网络学习规划的途径主要有两条：

可模仿人类的行为来完成学习，即「模仿学习」。

可通过试错法来学习，即「强化学习」。Karpathy 在特斯拉自动驾驶活动日详细地论述了模仿学习。

模仿学习和强化学习可混搭使用，其效果要优于单纯地使用其中的任意一项技术。此外，还可以混用神经元网络和手工编码的软件，使得系统能够在缺乏训练数据的情况下更好地应对全新的情景。当神经元网络信心不足时，系统会将操控权转交给手工编码的规划师手中。

关于模仿学习和增强学习，我会在未来的文章中进一步详谈。

涉及万亿美元（投资所带来）的疑问

总之，在将大型车队数据与主动学习结合后，特斯拉认为其自身在以下五大不同领域内拥有诸多优势：

特斯拉：一文了解自监督学习、Dojo 计算机和完全自动驾驶功能

正文

请到「今天看啥」查看全文