专栏名称: 雷峰网
中国智能硬件第一媒体
目录
相关文章推荐
ZOL中关村在线  ·  潮好玩冰雪季:寻找北大湖最来“电”雪友 ·  10 小时前  
ZOL中关村在线  ·  游戏界的奥斯卡:TGA历届年度最佳游戏盘点 ·  3 天前  
ZOL中关村在线  ·  微软服软了?想方设法让你升级Win11 ·  4 天前  
51好读  ›  专栏  ›  雷峰网

360 首席科学家颜水成:有关机器视觉的六个洞见

雷峰网  · 公众号  · 科技媒体 硬件  · 2016-08-13 09:45

正文

从飞鸟到飞机,从蝙蝠到雷达。人类对自然界的每一次致敬都能把自己带入一个新时代。而人工智能,恰恰是向自然界的王者——人类——致敬。


自从有计算机那天开始,人们就从未中断让机器拥有智慧的梦想。在这条路上,有一位广受世界学界尊重的大师,他就是来自 360 的首席科学家、国际知名计算机视觉与深度学习专家颜水成。


他不仅在国际上领域数次引领了计算机视觉的研究方向,还进行了大量前瞻的实践,让计算机模仿婴儿大脑的运作方式,一步步观察学习这个世界。


在 2016 CCF-GAIR 全球人工智能与机器人峰会上,颜水成接受了雷锋网的专访,分享了他对于人工智能和计算机视觉的洞见。


【360 首席科学家,360 人工智能研究院院长 颜水成】


1、端上的智能


目前的人工智能很多都依靠云端的计算,但是有些场景并不适合云端。例如:


  • 特斯拉的自动驾驶技术,对于面前的路况进行图像采集之后,如果发送到云端进行处理,会有明显的延时,这样等结果返回本地,往往已经错失了处理的时机,就失去了意义。


  • 直播业务中为主播实时加上装饰的技术,例如为主播加上虚拟的耳环。这种场景下,如果从服务器上拉回来计算结果,会有时延,由于主播在运动,所以没办法精确对位,体验就会很差。


  • 有的智能摄像头会提供一个功能:查看是否有可疑人员进入监控区域。如果设备销量很大,大量用户同时使用这个功能,这时如果在服务器端进行计算,就会对服务器造成很大压力。


  • 还有很多智能设备的应用环境是没有网络的,无法和服务器交互。


【特斯拉自动驾驶示意图】


以上这些场景,如果将运算任务直接下发到智能设备终端上,这些瓶颈就会迎刃而解。


但是,把运算载荷放到设备上,显然要克服诸多问题。其中最大的一个就是:终端设备的运算能力存在天花板。(由于智能设备成本有限,大多不可能配备顶级运算芯片)


解决这个问题,有两个方向:


  • 1、降低运算的精度。例如在手机端识别人脸和年龄,精确度必然难以比肩专业的识别系统。但是这种从95%到85%的精度损失,是人们可以承受的。


  • 2、改进计算模型。当然,最好的情况是能够开发出新的更优计算模型。但是在现有模型下,也可以通过改进策略实现算法精简。例如颜水成带领团队研究了一些算法调整,在原有算法基础上增加了一些判断那些逻辑不用计算的策略。这样虽然看起来规则更复杂了,但是总体来看计算量是减少了。


颜水成认为,这些策略的优化是非常有意义的,因为成本往往是实现商业化的重要因素。


2、人工智能专用计算芯片


目前最主流的人工智能芯片,全部采用 GPU。但是 GPU 的体量大,耗能高,无法在手机等设备中使用。目前看来,在手机或硬件上智能使用性能稍好的 CPU。


从目前来看,市面上还没有一款专门为端设备研发的深度学习芯片。而中国人也在试图给出在这个领域的专用芯片。


例如中国科学院计算技术研究所的“寒武纪”芯片,和由前百度深度学习研究院院长余凯创建的地平线机器人科技,都在试图制造这样的专用芯片。


【寒武纪芯片】


由于芯片生产是一个非常重的产业。一款芯片从流片到量产往往需要一年到一年半的时间,耗费数百万美元。如果无法大规模销售,那么将会造成成本无法控制。


在成熟的芯片可用之前,用各种方法降低端芯片的运算量,不失为一个好的方法。


3、类脑计算


当你看到一个人的照片,有关他的很多故事就会自动涌现在你的脑海里,这就是人脑的奇妙之处。


类脑研究一直以来都是人工智能领域很超前的研究方向。简单来说,就是要准确掌握人脑的工作原理,在此基础之上用相同的原理设计深度学习网络。


但是颜水成说,人脑研究领域的发展并没有想象中快。但是他非常欣赏以人脑为启发研究出来的计算模型。


例如当一个人看到某个物体时,这个物体是不断地对视网膜进行冲击,这个信号就像流水一样,在神经的各个部位达到了一个新的平衡。



这就像一个水管网络,在入口加压,会层层推导,造成整个网络的各个节点的压力同时改变。


“对于大脑而言,某个图像对整个系统加电信号,会导致与之相关的所有记忆和知识瞬间涌现。”


这样的效率会远远高于目前人工智能所使用的线性计算。


虽然这种模型听上去很奇妙,但是在实际的方程求解方面,仍然面临重重问题。不过颜水成表示,在这个方向上,也许未来能有新的解决方法。


4、无监督学习和自学习


目前的深度学习,无一例外需要大量的数据。例如要想让机器可以准确识别出一只狗,需要先让系统“看”成千上万只狗。但这显然和人类的学习方式不同。


一个小孩子,可能只需要看到一两只狗,就可以认识全世界所有的狗。


【无监督学习】


从这一点上看,“小样本”“无监督”“自学习”是人类完胜机器的方面。那么机器有没有可能实现小样本无监督学习和自学习呢?


这也许就要回到每个人最初认识世界的那一刻。


颜水成说:


根据一些研究,每个小孩子最初的视觉学习都是从运动的物体开始的。婴儿就像青蛙一样只能识别运动的物体。因为物体只有运动,才能分割出眼前世界的区块。而从这里出发,才有了物体的概念。这以后才是小样本学习和自学习的过程。


颜水成对这种学说非常感兴趣,这实际上展现了机器视觉的新入口:视频。


从视频切入,发现人类和机器学习的密码。这也是颜水成带领团队正在进行的工作之一。


5、人脑的两套识别系统


你有没有这样的经历。看到一个人,你确信认识 Ta,但就是想不起 Ta 的名字?


这个人脑特有的现象,不经意间揭示了一个人脑运作的巨大秘密。


【经常想不起对方的名字】


颜水成向雷锋网(搜索“雷锋网”公众号关注)分享了他最近了解到的一个新的假说:


这可能说明人脑分为两套识别系统:参数模型和非参数模型。


对于不常见到的人或物体,大脑会选择把他们放置在非参数模型中;直到你经常看到这个对象,大脑才会把它转移到参数模型中;如果接下来又长时间不见面,这个对象又会被移动回非参数模型中。


这大概就是动画片《头脑特工队》所描述的规则。



而这个规则,恰恰可以和人类的学习模型相联系。


例如父母刚刚教会了小孩“马”。这时“马”就进入到了他大脑的非参数模型中,直到他有一天到了动物园,观察到新的“马”。这些样本累积到了一定程度,就会使得“马”进入到了参数模型。


这种认知模型,对于改进机器学习的架构有着重大的意义。机器的无监督学习和自学习似乎露出了一丝曙光。但是颜水成说,人类的学习远远不是这么简单,因为人的学习不仅是依靠图像,还结合了声音、语义。而在这些方面,研究空白很大。


6、语义理解


对于 AI 来说,最重要的有四个方向:视觉,语音、语义、大数据。


而目前科学家在视觉,语音和大数据方面,都实现了可用性比较强的人工智能。唯独在“语义理解”这个最重要和易感知的方面徘徊不前。


这也是为什么目前的所有人工智能机器人感觉都有些“辞不达意”的原因。


究其原因,仍然是之前提到的:人类现有的语义理解实现技术和人大脑的工作架构完全不同。人对于语义的理解,不仅仅是建立在对方的话语本身之上,还要综合考虑话语环境,知识背景、情绪等等因素。这些因素中的任何一个,目前都不能被人类科学家很好地控制。


颜水成坦言,这方面的研究非常困难,已经超越了他的能力范围。但也是正是专注于自己的视觉和大数据研究领域,才能专心做出更多的成绩。


AI,这两个字母充满了神秘和浪漫的气息。这不仅代表了我们对于未知的渴望,对于创造的期待,也代表了我们对于自身智慧的无上虔诚。


在人工智能领域的每一个洞见,都可以让我们更加接近那个终极的答案。


这让我们感到欣喜。



颜水成,360 首席科学家,360 人工智能研究院院长。曾在新加坡国立大学领导机器学习与计算机视觉实验室。颜水成的主要研究领域是计算机视觉,深度学习,与多媒体分析。他的团队提出的“Network in Network” 对深度学习产生了很大的推动力,他的团队在五年内曾7次问鼎计算机视觉领域“World Cup”竞赛 PASCAL VOC 和 ILSVRC的世界冠军和亚军奖项。