专栏名称: 互联网观察网

互联网观察网官方微信。聚焦互联网与移动互联网，提供深入独到趋势分析、干货、微观察。【微信号：hlwgcw】【新浪微博：@互联网观察网】

扎克伯格、马斯克、彼得.蒂尔都投资的硅谷最神秘人工智能公司在干什么？

互联网观察网 · 公众号 · 科技媒体 · 2016-12-18 16:45

正文

Vicarious是硅谷最神秘的人工智能公司，这家从2010年就专注通用人工智能(Artifical General Intelligent)的公司，吸引了Facebook CEO扎克伯格、特斯拉CEO马斯克、彼得.蒂尔和亚马逊CEO杰夫.贝索斯的私人投资。

其他投资人还包括雅虎创始人杨致远、Facebook联合创始人Dustin Moskovitz、著名投资人阿什顿.库彻，以及硅谷著名VC Formation 8和全球领先的工业机器人公司ABB等，目前已筹集7200万美元。

究竟是一家怎样的公司能同时让马斯克和扎克伯格等为其注资呢？

Vicarious的目标定位于“建立下一代的人工智能算法”。并且声称要构建“像人类一样思考的软件”，实现“人脑级别的视觉、语言和自动控制系统”，致力于研究通用人工智能，目前他们的研究重点是实现人工视觉识别系统。

Vicarious的研究有别于当前主流的强调数据重要性的深度学习技术体系，非常强调模型的重要性。他们利用神经科学的一些成果和启发来构建更通用的机器学习模型（比如基于Probabilistic Graphical Model），期待通过数量小、质量高的训练数据达到接近人类认识的效果。

Vicarious的研究从2010年就开始了，2013年宣布破解验证码测试(CAPTCHA)引起了广泛关注。但它非常神秘，2016年之前都没有公开任何论文或者可供研究的程序，学术圈对此也有所争议。

今年NIPS会议，Vicarious首次发表论文，乘此机会硅谷密探拜访了Vicarious，并独家专访其联合创始人Scott Phoenix，解密这家神秘的人工智能公司。

先回答一些大家关心的问题

严肃：Vicarious是如何吸引到贝索斯、扎克伯格、马斯克和彼得.蒂尔等人的投资的呢？

Scott Phoenix：贝索斯、马斯克、彼得·蒂尔和扎克伯格本身就是非常聪明而有远见的人，他们在人们开始思考人工智能之前就已经看到了人工智能可能的未来。当我们在2010年成立Vicarious时，似乎其他人都在讨论Groupon等团购网站。彼得·蒂尔和达斯汀·莫斯科维茨（Facebook联合创始人）是第一批对人工智能的革命性前景感兴趣的的人。当时，只有两个公司认真专注于做人工智能系统：Vicarious和DeepMind，彼得和达斯汀投资了我们的第一轮。

我们静静地工作了一段时间，然后在破解验证码测试的时候，我们被介绍给了扎克伯格、马斯克和贝索斯。出于不同的理由，他们都非常有兴趣了解我们正在做什么。对于马斯克，他投资的主要原因是关心人工智能安全和存在的风险。对于扎克伯格和贝索斯，他们更多的是支持人工智能这项可能对社会产生积极变革效应的技术的发展。

（Vicarious co-founder Scott Phoenix）

严肃：Vicarious在2013年就破解了验证码测试，但是今年才发布相应的论文（今年也公布几篇其他的论文）。为何不选择早点公开这些论文？

Scott Phoenix：我们没有在2014年就公开验证码测试的工作的原因是，我们不希望这项广泛被应用的验证码系统被我们搞坏。

(被大量用于广泛应用于区分计算机和人类的CAPTCHA)

在我们宣布了破解验证码测试的消息后，谷歌和其他大型的网站逐步开始减少对图形验证码识别的依赖，这大大减少了我们公布论文后可能对互联网的危害。

我们选择现在发布论文，也是为了增加和学术圈的交流。但是，我们绝对不会像学术实验室一样频繁的发表论文，因为我们的主要重心还是为了推动人工智能的进步，而不是依赖于论文发表和被引用。

严肃：你认为大家对于Vicarious的常见误解是什么？

Scott Phoenix：我最常听到的两个相关联的问题是：为什么Vicarious融这么多钱？我们什么时候要发布产品？

我们融了一大笔钱，因为构建一个AI系统需要长时间的投入和多学科的努力。为了取得大的进步，需要一大批来自不同背景的人在一起工作很多年。就像建造第一架飞机、灯泡或电话一样，这个产品是一个非常长的科学实验和迭代的结果。

严肃：你认为深度学习有哪些局限性？

Scott Phoenix：深度神经网络（DNN)需要大量的训练数据，不能很好地适用于新的任务或环境。

此外，深度学习往往侧重于学习输入感知与输出动作之间的映射（如用于做分类决策或者是围棋、Atari游戏上的移动的决策）。

我们认为智能的本质是能够学习一个所处在世界的心理模型(mental model )，然后能否在这个模型上进行模拟（所谓想象力）。

严肃：Vicarious似乎开始将一些研究成果应用用来解决一些行业的具体的问题，会有哪些具体的应用？听说是机器人领域？为什么要从这些问题开始？

Scott Phoenix：我们认为产品是在有根本性的科研发现和重点研究后的自然结果。我们的第一个产品将帮助今天的机器人更多样化和更广泛的使用。一直以来，这个世界拥有制造数十亿的机器人的材料和零部件。这个世界上充满了廉价的传感器、电机、塑料和芯片，然而普通人每年看到的机器人几乎是零，普通工厂里拥有的机器人也是零。Vicarious旨在使用其先进的AI技术，使机器人比今天更加有用，使其无所不在。

我们选择从机器人开始，因为它对未来使用AI的方式的具有最大的影响。我们正处于机器人革命的黎明，我们的目标是让Vicarious成为机器人界的“Intel Inside”。

严肃：Vicarious的研究强调了几个主题和限制，例如“从有限数量的训练示例中归纳”（“Generalizing from a limited number of training examples”），生成模型（Generative models）？这些主题和限制会带来什么局限或挑战呢？什么样的问题是Vicarious的算法不擅长解决的呢？

Scott Phoenix：新技术开始出现时，和当前重度优化的现有技术相比，它可能在很多层面上反而没有优势。例如，当晶体管收音机出来时，它比现有的真空管收音机在许多方面差得多。但它更加便携，随着时间的推移，它从各个层面超越了真空管。构建新类型的AI也是类似的。我们的技术在许多方面优于深度神经网络(DNN)，但还有其他一些方面还不如深度神经网络。例如，我们尚未把优先级放在建立必要的规模来测试像ImageNet这样的数据集上的算法。随着时间的推移和不断的努力，我们将在大多数事情上变得更好，但是为了达到这个目标，我们有许多技术挑战和研究问题需要解决。

严肃：Vicarious面临最大的潜在的挑战是什么？

Scott Phoenix：Vicarious面临的主要挑战是技术本身。建立人工智能是一个很有难度的问题。创建第一个智能的机器人系统是具有挑战性的，因为它需要许多不同领域的专业知识。但这些挑战也是驱动我们前进的动力，非常荣幸能够和一些世界上最聪明的头脑来一起解决这个人类面临的最重要的问题之一。

Vicarious的技术特点：强调建模的重要性

Vicarious发表的这篇论文《Generative Shape Models: Joint Text Recognition and Segmentation with Very Little Training Data》是Vicarious技术的一小部分的一个尝试性的应用，他们发表的一个原因是希望吸引学术界更多人参与这种神经科学和脑科学引导的、建模为主的人工智能研究。

在采访中，我们也和Vicarious的商业化总监楼兴华博士（NIPS论文作者之一）讨论了Vicarious技术的特点。

Vicarious的技术特点一：生成性模型

Vicarious的研究重点是通用人工智能，研究重点是生成模型。

生成模型区别于判别式模型(Discriminative Model)，生成模型可以通过贝叶斯得到判别模型，但判别模型无法得到生成模型。

简单的说，拿到一张图片，生成模型需要懂得图片中需识别的物体的较为完整的信息，需要懂得此物体的构建的过程（所谓“生成”）。因为生成模型本身“懂”物体，天然地它就可以“创造”新的、未见的物体实例。如下图，一旦Vicarious的模型懂得了字符“A”，它就可以“想象”出很多种可能的“A”的实例。也就是说，如果在实际场景中观察到这些不同变化的“A”，Vicarious的模型都可以很好的识别出来。

当然，从应用角度来说，基于深度学习的判别模型更容易上手，但生成模型有更强的解释性，大部分变量都有实际的意义，更容易调试(debug)，在通往建立通用人工智能（AGI）的道路会更有竞争力。

此外，人脑的工作模式更有层次感，比如人眼观察东西，先是从形状出发，接下来可能是看颜色，在往下可能是材料和材质。深度学习则往往无法不能很好的把问题分解(factorization)，而Vicarious的模型能够很好的把问题分解，更接近于人类的思考方式。

Vicarious此次公开的三篇论文和生成模型有关，另外两篇是《Hierarchical compositional feature learning》和《A backward pass through a CNN using a generative model of its activations》（微信回复“论文”获得三篇论文的下载链接）。

Vicarious的技术特点二：基于神经科学和脑科学的成果

Vicarious约有20%的神经科学家和脑科学家，来研究人脑的工作机制和人的行为特点，这是Vicarious的一大特点。剩下50%约为机器学习背景的研究者，来基于神经科学和脑科学模型来建模，还有一部分是计算机视觉的研究者。

Vicarious认为认知（Perception）依旧是人工智能的最大难点之一，所以Vicarious目前研究的重点是视觉(Computer Vision)，主要出发点是在现实世界中，视觉是非常重要的输入来源，而针对视觉的脑科学研究也有些突破。

而基于脑科学的一些研究，能够为建立模型带来很多启发，比如Vicarious发表在NIPS上的论文，里面就利用了脑科学上非常成熟的成果：人类的神经系统系统普遍存在的侧向抑制的现象，这引导Vicarious在他们在模型上实现了侧向约束（Lateral Constraints）。

在字母验证码识别这个具体问题上，Vicarious基于生成型形状模型的系统能够只用1406张图片作为训练集，就超越了利用深度学习的800万图片达到的效果。

Vicarious的顾问团队包括计算机视觉领域的斯坦福教授Fei-fei Li，神经科学领域的UC Berkeley教授Bruno Olshausen 和UCLA教授Alan Yuille。

（Fei-fei Li）

Vicarious目前没有自然语言处理和语音等方向的研究项目。

Vicarious如何赚钱？

Vicarious目前的商业化主要集中于仓储机器人领域，希望通过提供高智能、高效率的机器人来支持现代商业中至关重要的产业，例如仓储物流和工业生产线。另一方面，Vicarious的投资方对这个方向也表现出浓厚的兴趣，例如ABB和亚马逊等。

ABB是全球最大的工业机器人公司，而Vicarious正努力将他们的研究成果把机器人变得更智能。而亚马逊的仓储机器人也有潜在的应用场景。

由于目前深度学习的局限性，深度学习很难达到通用人工智能。Vicarious目前的研究，是深度学习的有益补充。

无论是在学术界还是工业界，研究方向和产品的多样性都有利于推进人工智能的进步。

来源：硅谷密探（ID：SVS-007）

作者：严肃

>>>延伸阅读：最神秘的人工智能创业公司Vicarious，让机器拥有想象力

创立于 2010 年的人工智能创业公司 Vicarious 在 2013 年宣布破解 CAPTCHA 之后，受到了连线、MIT 科技评论等媒体的广泛关注。而后，Yann Lecun 公开发文称，谨防人工智能炒作，并称其为教科书式的反面范例。他认为，在获得基准普遍接受的顶级成果之前，千万，千万不要不要轻易相信人工智能创业公司的模糊声明。

MIT 科技评论近期再次发文报道 Vicarious，表示这家后来一直潜形匿影的公司将于今年晚些时候发布论文和 Demo。（附：Yann Lecun 公开共享的对 Vicarious 的评价。）

如果没有想象，生活将会多无聊啊。事实上，计算机最大的问题可能就是他们没有任何想象力。

正是这一想法促使创始人们成立了 Vicarious，这是一家神秘的人工智能公司，得到了硅谷一些最知名的公司的支持。受到信息流过大脑的方式的启发，Vicarious 正在开发一种处理数据的新方式。公司的高层人员说，这赋予计算机类似想象的东西，他们希望这能帮助机器变得更为智能。

实际上，Vicarious 也把赌注押在了目前热门的人工智能上。一些公司，如谷歌，Facebook，亚马逊和微软通过给庞大的神经网络灌输大量的数据，即深度学习过程，已经在过去几年里取得了惊人的进步。比如，当深度学习系统被足够的例子训练过后，它就能以非常高的精确度，识别出特定的脸或者动物类型。但是，那些神经网络都仅仅是真实大脑内部所发现的（神经结构）的粗略近似。

Vicarious 采用了一种新的神经网络算法，该算法体现了更多生物上的特征。它的一个重要特点是，在学习了一项信息之后，它能够预想这个信息在其它情景中是什么样的——这是一种人造的想象方式。该公司的创始人认为，要使机器表现出更像人类的智慧，我们十分需要从根本上完全不同的设计。以后，计算机将不得不从更少的数据中学习，并能更轻松地识别刺激或者概念。

尽管在早期吸引了大量关注，但是 Vicarious 在过去几年里一直保持低调。但在今年，该公司表示，他们将会公布他们研究的细节，并且承诺会展示一些令人瞠目的 demo，这些 demo 将展示给人们，电脑在拥有了想象后是多么的有用。

Vicarious 公司总部看起来却并不像人工智能革命的中心。该公司的办公室位于从帕洛阿尔托到旧金山湾的一小段车程处（我们被要求不透露其精确位置），该办公室很平常——与一家麦当劳店只有一箭之遥，并且离一家牙医诊所也只有几个台阶之远。然而，公司内部却充满着高科技创业公司的活力气息。当我拜访的时候，十余个工程师都正在努力工作着，其中几个使用的是令人印象深刻的跑步机办公桌。一些工程师的桌子上摆放着微软的 Kinect 3-D传感器，该公司的 33 岁 CEO D. Scott Phoenix 以不无自豪地说：「我们正非常快速的接近我们所期望的计算能力，这种计算能力能够（让我们）在人工智能上做一些有趣的事，」在我进来后不久，他告诉我。「15 年后，最快的计算机每秒处理的操作数，将会比所有人的脑神经操作数还要多。所以我们真的很接近了。」

然而，Vicarious 不仅仅致力于提高更多的计算机能力。Phoenix 说，Vicarious 创造的数学方法将会更加类似人类大脑的信息处理过程。确实，目前应用在人工智能中的神经网络，和真实大脑里的神经元、树突和突触之间的相似度是极其有限的。

Phoenix 说，人工神经网络一个最明显的不足是，信息是单向流动的。「如果你在一个典型的神经网络里看信息流，它是一个前馈结构，」他说。「但是实际上，在大脑中，反馈连接比前馈连接还要多——所以，（目前的方法）丢失了一多半的信息流。」

一个拥有想象力这个十分「人类」的能力的计算机，听起来是十分神秘的。不可否认，光是考虑想象力可能成为人工智能下一重大进步的关键，就已经十分诱人了。

Vicarious 已经证实，他们的方法能够开发一个十分准确的视觉系统，且效果惊人。在 2013 年，这一系统已能够破解 CAPTCHA（用于防止垃圾程序恶意注册账号的验证图片）。就像 Phoenix 解释的那样，嵌入 Vicarious 系统的这一反馈机制能让其在图片失真或者部分模糊的情况下，想象字符可能会是什么样的。

在一块白板上，Phoenix 概括描述了系统核心方法的一些细节。但是更具体的细节依然保密，直到概述这一 CAPTCHA 方法的科学论文在今年晚些时候发表。

原理上，这个视觉系统可用于其他许多实际应用，比如更准确地识别架子上的目标，或者更智能地识别现实世界的场景。公司的创建者们也表示，他们的方法能扩展到其他更为复杂的智能领域，包括语言和逻辑推理。

Phoenix 说，公司可能会在今年晚些时候放出一部有关机器人的 Demo。确实，公司网站的招聘列表中有一些机器人专家的职位。现在的机器人，在挑拣不熟悉的、排列奇怪的、或者部分模糊的目标上表现不好，因为它们难以识别对象到底是什么。「如果你去亚马逊设备那里就能看到，大部分时间工人挑拣目标甚至都不带看的，」他解释说。「使用感官运用模拟器，他们在想象目标在那里，以及想象手指会碰触到目标的那个地方。」

Phoenix 是公司的领导者，其联合创始人，Dileep George，是公司的技术规划者。George 出生于印度，在斯坦福大学获得电子工程博士学位。在博士研究即将结束的时候，他将注意力转到了神经科学上。在 2005 年，他与 Jeff Hawkins 联合创立了 Numenta 公司，后者是 Palm Computing 公司的创立者。但在 2010 年，George 离开了 Numenta，致力于践行关于大脑信息处理背后的数学原理的想法，同年，他与 Phonexi 创立了 Vicarious。

在我第一次造访的时候，在电梯里偶遇了 George。他是一个谦逊的、说话很静的人，有着浓重的口音。但在极重要的事物上，他也相当的求证。

到目前为止，这一关于未来人工智能的宏伟蓝图已经帮助 Vicarious 获得了令人惊奇的 7200 万美元的融资。其投资者列表看起来也像是科技领域的名人录。早期的资金来自于 Facebook 的前 CTO Dustin Moskovitz，以及 Quora 的联合创始人 Adam D’Angelo。后来的基金来自于 Peter Thiel、Mark Zuckerberg、Jeff Bezos、和 Elon Musk。

很多人非常渴望看到的是，除了打败 CAPTCHAs，Vicarious 还做了什么。「如果他们今年能像我们展示一些新的东西，我会爱上它。」西雅图艾伦人工智能研究所的 CEO Oren Etzioni 表示。相比于谷歌、Facebook 、百度，Vicarious 还未发表任何论文，也未发布研究人员能使用的工具。「（Vicarious的）人们非常棒，（他们研究的）问题也非常棒，」Etzioni 说，「但现在是时候拿些东西出来了。」

对于拿些投资了 Vicarious 的人来说，这家公司的宏伟目标使等待是值得的。一家投资了 Vicarious 的投资公司 Data Collective 的合伙人 Matt Ocko 表示，即使这需要人们等待一段时间，但潜在的回报看起来是如此巨大，令人愿意赌上一把。一个好的机器学习方法，可以应用于所有处理大数据的产业，他说。「Vicarious 的方法，是我目前见过的最可靠的。」

Ocko 还表示，Vicarious 已经证明，他们的研究成果能够被商业化。「我们会十分谨慎地实现这一点，」他说。

试看今年 Vicarious 是否能够借助其论文和 demo，同样激发其他人工智能研究者和技术专家的信心。如果它真的做到了，Vicarious 能够迅速从硅谷最热门的团队之一，发展为其成长最迅猛的企业。

这肯定也是该公司的创始人们希望看到的一件事。

但对于该公司，同样存在质疑和批评的声音，在 2013 年 Vicarious 受到广泛关注之后，Yann Lecun 就公开表示谨防人工智能炒作，认为它是教科书式的反面范例。不知接下来 Vicarious 的论文和 demo 是否能让 LeCun 改变看法。

附：2013年 Yann LeCun 对 Vicarious 的评价：

人工智能创业公司 Vicarious 声称它们的一个系统能解决 CAPTCHA（全自动区分计算机和人类的图灵测试）问题，成功率达到「90%」。

谨防：这是一个人工智能炒作教科书式的反面范例。

炒作对人工智能而言非常的危险。在过去的 50 多年中，炒作四度杀死了人工智能。人工智能炒作必须要被制止。

可能 Vicarious 在自己构造的一些 CAPTCHA 数据集上，准确率能「升到 90%」。但是：

打破 CAPTCHAs 几乎不是一个有趣的任务，除非你是一个垃圾广告者。

在自己编造的数据集上，很容易就能获得成功。其他人也能以同样的方式超过你。

识别图片上的物体，要比打破 CAPTCHAs 难的多。一些深度学习系统已经能够相当精确地做到这一点。谷歌、百度都在开发这样的系统。

对字符串的同步分割、识别几乎不算一个突破。在这里你能看到一个（http://yann.lecun.com/exdb/lenet/index.html）20 多年前的demo。

悲哀的是，这一声明被数个出版物发表，包括 MIT 科技评论、福布斯等。

这里给科学/技术新闻记者提一个建议：千万，千万不要不要轻易相信人工智能创业公司的模糊声明，除非他们的最新成果已获得可靠的行业标准的认可。

这一点在图像、语音识别等领域尤其重要，因为在这两个领域存在非常好的标准。就图像识别而言，一个非常好的标准范例是 ImageNet 大规模视觉识别挑战赛（ ImageNet Large Scale Visual Recognition Challenge）。

当一个创业公司声称在一些随机任务中达到「90% 准确率」时，不要认为这就具有新闻价值。如果一家公司还声称「我们正在开发基于人脑计算原则的机器学习软件」或者使用「递归皮层网络（Recursive Cortical Network）」这样华丽的名词时，我们需要抱有更加怀疑的态度。

目前已有一些令人印象深刻的深度学习应用（例如，谷歌、百度、微软、IBM、及其它一些创业公司），但（Vicarious）并不在此列。

谷歌的自动图片标签和百度的图片检索系统，要比这一声明中的系统强大得多。就算只谈字符识别，谷歌的 StreetView 用于识别房屋门牌号的系统，也要比这个更加瞩目。

过去 50 多年，人工智能曾因为炒作四度「死亡」：人们发表宏伟的目标（通常是为了吸引潜在的投资者或资产公司）却无法实现。然后负面影响随之而来。这在神经网络上已经发生过两次：一次在 60 年代末，一次在 90 年代中期。

不要再让其再次发生。谨防炒作。

顺带一提，除了垃圾广告者和计算机安全研究人员，没有人对破解 CAPTCHAs 有兴趣。这也是为什么你找不到关于这一主题太多的计算机视觉论文的原因。这也是为什么即使存在一个标准的数据集，也难以打破记录的原因。

作者： Will Knight

机器之心（ID：almosthuman2014）编译

·END·

专注互联网、移动互联网、O2O、电商、P2P领域。

提供深入独到趋势分析、干货、观察。

搜索公众账号“ hlwgcw ”关注