360 副总裁颜水成教授: 深度学习的研发目标及 1×1 卷积的功能 | CCF-GAIR 2017

AI科技评论 · 公众号 · AI · 2017-07-08 16:57

正文

请到「今天看啥」查看全文

7 月 7 日，雷锋网承办的第二届 CCF-GAIR 全球人工智能与机器人峰会在深圳如期开幕。奇虎 360 副总裁、首席科学家、IEEE Fellow、IAPR Fellow 颜水成教授带来了主题为《深度学习：精度极限 VS 用户体验》的演讲。这是今天最后一场演讲。

深度学习研发的两种不同目标：

追求极限精度

针对一个具体的问题，去探索算法能达到的边界和极限。比如说我们可以设计更好的模型结构，可以用更大、更快的模型，也可以用大量的模型去做融合，另外一方面我们也会思考用更好的训练平台和更多的资源实现多机多卡分布式训练。在训练的时候可以利用海量的无标注数据，比如说利用预测学习的方式实现预训练，当训练好模型之后，又可以利用 Baby-learning 和增强学习的方式来增强模型的性能。
追求产品的体验

人工智能本身不是一个产品，必须跟具体的场景相结合才有它的价值，核心算法只是这里面的一个部分而已，最好的办法是算法和场景数据形成一个闭环，先训练出初始的模型，然后在具体的场景里得到模型失效的数据，用这些数据再来提升模型的精度，再把模型用到场景中，进行不断地迭代，最终在场景中达到它最好的体验。只有算法科学家和产品工程师结合，可能让不完美的算法产生完美的用户体验。有一个很明显的例子就是当前很多 AR 相机采用的萌颜效果。

总的来说第一个目标的特点是必须” 用脑”，而第二个目标更多的是” 用心”。

两种目标相互促进的实例：

在 2016 年，大家都觉得分类和检测已经可以在工业界中很好地使用，但是从来没有人觉得物体分割已经到了可以使用的阶段。我的研究组就做了很多人体分割的工作，给出一个图象，输出每个像素具体是什么东西，我们花了两年的时间把它的性能从 44% 提升到了 86%。同时领域内有很多分割算法取得了很好的成果，去年年底工业界开始思考，确实有很多的应用场景可以受益于这种分割的技术，于是很多人开始思考怎么样去对模型进行加速，保证在一些限定的场景的性能能满足产品化的需求。

从今年开始，比如说美图秀秀和 Snapchat 可以把人的头发和脸分割出来，可以产生很好的头发美化的效果，360 和其他一些公司则提供人体分割的技术，可以把人实时从自拍的视频里面分割出来，叠加到动态的场景，产生很多好玩、好看的效果。这是一个典型的因为追求精度极限达到一定程度时，就激发了新的产品形态的创新。

1×1 卷积概念

纯粹的内积不能很好地模拟人的神经元的复杂工作方式，卷积可以用更复杂的网络结构来替代，当这种复杂的结构是多层感知机的时候，对应的后面操作就是 1×1 卷积，这个 1×1 卷积跟前面的 3×3、5×5 卷积叠加在一起，就会产生更复杂的抽象过程。基于 1×1 卷积的模型的参数可以降到很低，这样就为我们把深度学习往端上迁移提供了一个可能性。

1×1 卷积功能

基于 1x1 卷积的张量逼近分析可以很好地解释当前各种流行网络，GoogleNet、ResNet, ResNext 里面微观结构的理论依据。

基于 1x1 卷积的分析可以将 ResNet 解释成 Deeply Connected Network 的一个特列，同时启发了我们提出的一个新网络，Dual-path Network。这个网络在 ImageNet 取得了单模型的最好性能。

通过对每一个卷积操作附加一个 1x1 卷积操作然后再点乘，虽然模型变复杂了，但可以大幅减少前向传播的计算量。