专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
雨生云计算  ·  黄仁勋深度解读DeepSeek ... ·  9 小时前  
雨生云计算  ·  黄仁勋深度解读DeepSeek ... ·  9 小时前  
机器之心  ·  刚刚,OpenAI推出最贵o1-pro ... ·  昨天  
爱可可-爱生活  ·  [LG] RWKV-7 Goose ... ·  昨天  
宝玉xp  ·  Satya: Microsoft 365 ... ·  2 天前  
51好读  ›  专栏  ›  新智元

【ImageNet最后的冠军】颜水成:像素级标注数据集将引领计算机视觉下一个时代

新智元  · 公众号  · AI  · 2017-08-17 09:45

正文

1 新智元专访

编辑:零夏


【新智元导读】 2017年,ImageNet ILSVRC正式宣告终结。在计算机视觉领域深耕16年的“老兵”颜水成与团队拿下最后冠军,巧合的是,5年前的PASCAL VOC收官之战,冠军也是他。有“水哥”之称的颜水成可谓计算机视觉竞赛领域名副其实的常胜将军。在本次接受新智元的专访中,他分享了自己多年来的战斗经历和实战经历。现在已担任副教授的他,对学生也有许多寄语。颜水成认为, 计算机视觉的未来属于多标签、像素级、语义级分析。



颜水成,360副总裁、人工智能研究院院长,新加坡国立大学终身教职,作为计算机视觉界的老将,今年他和他的前学生Feng Jiashi助理教授一起带领团队摘得了ImageNet Challenge收官之战的 “皇冠”,同时5年前他同样带领团队摘得了PASCAL VOC收官之战的“皇冠”。


这次专访,他将带着我们看:未来计算机视觉研究还能怎么玩?


他认为,类似于PASCAL VOC竞赛, ImageNet已经完成使命,它的单标签识别的核心问题已不再代表未来的主要发展方向,确实可以终结了。而计算机视觉的未来属于多标签、像素级、语义级分析。

他不认为Web Vision是最终取代ImageNet的数据集,他认为需要一个像素级、多标签的数据集才可能引领计算机视觉进入下一个时代。 如果像素级分类做好了,无论做任何类型图像理解和语义理解的问题都好办了。

虽然现在新的数据集有做语义级别分析或者局部关联分析的,但这些数据库存在内在的局限性。 建立一个像素级和多标签的数据集挑战非常大,他希望在合适的时间点,由大公司或NPO甚至国家出来做这样的事情。

对于摘得最后一届ImageNet皇冠的DPN模型,颜水成和他的学生们还从本质上探讨了ResNet、DenseNet和DPN之间关系。他认为虽然ResNet可以解释成是DenseNet的一个特例,而DPN也是两者思想的融合,但是由于两者是错位对接的, DPN无法再解释成DenseNet的一种特列,而是一种新的网络结构。

对于各种图像竞赛,他的观点是: 比赛的名次本身并不重要,重要是“是否给整个society带来有价值的insight”。“雕虫小技”很容易被人遗忘,”群殴”式的模型堆砌不会被人敬佩,”暗杀”式的不公布算法细节的刷榜很难被铭记 。比赛给各种算法提供了一个相对公平的“比武场”,这是有助于技术创新的。基础模型和标准组件是两种常见的为整个society贡献Insight的方式。

对于最近火热的边缘计算,他认为 大家都希望AI最终能落地,2C的量远大于2B的量,最大的量在手机等终端设备上 。所以边缘计算是人工智能发展需求决定的一个大趋势。技术上看,目前有三种方式降低边缘计算量: 第一种是内功—就是特别好的网络结构;第二种是武器—低精度表示的方法;第三种是暗器—巧妙用低功耗的网络先确定那部分不需要计算的网络。 三种方法都是为了减少计算量以适应边缘计算,三种相辅相成。

最后他讲述了自己在计算机视觉领域的整整16年,他认为,算法更新了很多代,但是研究的很多问题本身没变 。颜水成师承计算机视觉大师Thomas S. Huang、张宏江、汤晓鸥、李子青等,本在学术界风生水起,却因为老周对智能硬件的热情而跨入工业界,经历了学术界到工业界的巨大变化。 他更懂得如何发挥学生各自特长,带出了很多优秀的学生,谁适合工业界谁又适合学术界,他都加以指引。虽然他是一个很push的老板,但也被学生亲切地称为“水哥”。



以下是颜水成采访实录,由编辑整理,有删减和调整。


ImageNet确实可以终结了,计算机视觉的未来属于多标签、像素级、语义级


“图像的竞赛还是像素级别的分类更好。如果像素级分割做好了,无论做任何类型图像理解或语义理解的问题都好办了。”

新智元 :今年之后ImageNet的ILSVRC挑战赛“退出江湖”,是不是表明分类检测任务已经取得相对完善的表现?

颜水成 :计算机视觉竞赛有很长的历史,PASCAL VOC进行了八年,ImageNet也是八年。每个比赛都承载了大家对技术发展的期望,同时大家也会逐渐发现这些数据库的局限性。

2005-2012年,PASCAL VOC非常火,但是只有二十类,2010年开始的ImageNet有一千类,于是研究者逐步转向ImageNet。

ImageNet数据库现在最大的挑战是,在分类中每一个图像中只标注了一个主要的物体,所以ImageNet主要是做单个物体的分类和定位。这不符合现实世界图像的分布特点,存在局限性,这是ImageNet结束比赛的一个重要原因。 但是ILSVRC比赛里面的物体检测这个任务,本身还没有终结,后面还会也应该继续下去。

我们需要像某些多标签的多媒体数据集那样的数据集,更符合真实图像的情况。

新智元 :多label的数据集,现在有哪些?

颜水成 :比较大的有来自新加坡国立大学的NUS-WIDE。但是label也不多,只有81个。

新智元 :ImageNet为什么是单label?

颜水成:工作量的问题,多label意味着每个图像对多个label要做校验。但是单label只需要判断yes or no。

假如是个一千个label的多标签数据集,你的校验就是一千倍,否则依然会存在错误。

新智元 :未来计算机视觉的竞赛还应该往哪方面发展呢?

颜水成 :在我个人看来,图像的竞赛还是像素级别的分类更好。如果图像分割做好了,无论做任何类型图像理解或语义理解的问题都好办了。

ImageNet去年有Scene Parsing任务,但遗憾的是今年没继续。如果将来把图像分割作为核心任务,再做任何其它任务就好办多了。

真正好的分割是全景的分割。所谓全景分割,就是对每一个像素都有一个标注。这样比ImageNet检测和分类的任务难很多,标注量也非常大。

希望在合适的时间点有大公司或NPO来做这样的事情。现在有新的数据集做语义级别分析或者局部关联分析,但这些数据库存在内在的局限性,最终还是要做像素级别。


DPN摘下最后的“皇冠”,本质是ResNet和DenseNet思想的结合


“ResNet可以解释成是DenseNet的一个特例。但是DPN还暂时无法被解释成是DenseNet的特例。原因是...”


新智元 :本届比赛中,你所在团队使用了DPN技术,这种技术除了用于像ImageNet中“图像识别”、“图像检测”和“图像分割”这三大任务,是否适合用其他任务或者应用上?

颜水成 :计算机视觉领域的基础模型至关重要,如AlexNet, NIN, GoogleNet, VGG, ResNet, 以及这次的DPN。不仅仅限于这三大任务,只要计算机视觉相关的并且用深度学习的都可受益于这些基础模型。

新智元 :论文中说ResNet是DenseNet的一个特例,而DPN结合了两种模型的思想,DPN是否也是一种DenseNet的特例呢?

颜水成 :这个问题非常有意思。ResNet可解释成是DenseNet的一个特例。但是DPN还暂时无法被解释成是DenseNet的特例。原因是,把ResNet当成DenseNet特例的时候,两者是有错位的。


ResNet的block和DenseNet的block不是对齐的,而是错位对应的。把ResNet和DenseNet融合在一起的话,它们错位了。我和CHEN Yunpeng都仔细分析过,无法把新的DPN再解释成是原来的DenseNet的结构。

其内在的合理性我们用三角形来做个类比,DenseNet可以看成等边直角三角形,ResNet是其中一个方向的特例。如果合适地拼接,可以组成另一个等边三角形,但也可能拼接成一个正方形。DPN属于后者,由于错位拼接,最后的模型不再是DenseNet。

下一个ImageNet:根本上还是需要有一个像素级标注的数据集


“涉及到语义,ground-truth往往不reliable,很多标注达不成共识,这让研究的难度增加很多。”


新智元 :ImageNet已经告别,现在涌现了 Visual Genome、Web Vision这样的结合语义和知识的图像数据集,您认为是否意味着语义和知识的理解是下一个趋势?视觉和自然语言处理是否会殊途同归?

颜水成 :首先,涉及到语义的时候,难度比ImageNet的分类任务大很多。现在做语义级别的理解, 一种是探索图像块之间的语义关联,还有一种是用一段话来描述图像 。这时候不再是一个个标签,而是词的序列组合。这个空间和图像空间两者融合在一起,其内在维度就比以前增加了很多。维度的增加,意味着训练所需要的数据量就更多。

做图像理解和语义理解的期望是不一样的。ImageNet分类的问题,是给图像一个label或者一个框,只要这一千个标签分类做的还不错,大家就可以接受。 涉及到语义层面,即使像Image Caption 这样的任务,人们都对你最后说出来这句话有着非常高的期望,人们期望这些话是有价值的,不是枯燥无意义的,例如“一个棵树旁边有一朵花”这种话对普通人来说没有太大价值。







请到「今天看啥」查看全文