专栏名称: Python程序员
最专业的Python社区,有每日推送,免费电子书,真人辅导,资源下载,各类工具。我已委托“维权骑士”(rightknights.com)为我的文章进行维权行动
目录
相关文章推荐
Python开发者  ·  请立即拿下软考证书(政策风口) ·  2 天前  
Python爱好者社区  ·  推荐我的抖音变现俱乐部! ·  2 天前  
Python爱好者社区  ·  张雪峰公司今年的年终奖... ·  2 天前  
Python爱好者社区  ·  吴恩达,yyds ·  4 天前  
Python爱好者社区  ·  DeepSeek薪资曝光! ·  4 天前  
51好读  ›  专栏  ›  Python程序员

MLP回归,无需卷积、自注意力,纯多层感知机视觉架构媲美CNN、ViT

Python程序员  · 公众号  · Python  · 2021-05-10 12:30

正文



机器之心报道

当前,卷积神经网络(CNN)和基于自注意力的网络(如近来大火的 ViT)是计算机视觉领域的主流选择,但研究人员没有停止探索视觉网络架构的脚步。近日,来自谷歌大脑的研究团队(原 ViT 团队)提出了一种舍弃卷积和自注意力且完全使用多层感知机(MLP)的视觉网络架构,在设计上非常简单,并且在 ImageNet 数据集上实现了媲美 CNN 和 ViT 的性能表现。


计算机视觉的发展史证明,规模更大的数据集加上更强的计算能力往往能够促成范式转变。虽然卷积神经网络已经成为计算机视觉领域的标准,但最近一段时间,基于自注意力层的替代方法 Vision Transformer(ViT)实现新的 SOTA 性能。从技术上讲,ViT 模型延续了长久以来去除模型中手工构建特征和归纳偏置的趋势,并进一步依赖基于原始数据的学习。

近日,原 ViT 团队提出了一种不使用卷积或自注意力的 MLP-Mixer 架构(简称 Mixer),这是一种颇具竞争力并且在概念和技术上都非常简单的替代方案。

Mixer 架构完全基于在空间位置或特征通道重复利用的多层感知机(MLP),并且仅依赖于基础矩阵乘法运算、数据布局变换(如 reshape 和 transposition)和非线性层。
  • 论文地址:https://arxiv.org/pdf/2105.01601.pdf

  • 项目地址:https://github.com/google-research/vision_transformer/tree/linen


结果表明,虽然 Mixer 架构很简单,但取得了极具竞争力的结果。当在大型数据集(约 1 亿张图像)上进行预训练时,该架构在准确率 / 成本权衡方面能够媲美 CNN 和 ViT,实现了接近 SOTA 的性能,在 ImageNet 数据集上取得了 87.94% 的 top1 准确率。

对于该研究提出的 Mixer 架构,特斯拉 AI 高级总监 Andrej Karpathy 认为:「很好!1×1 卷积通常利用深度卷积实现堆叠或交替,但在这里,通道或空间混合得到简化或者实现完全对称。」 


另一用户表示:「CV 领域网络架构的演变从 MLP 到 CNN 到 Transformer 再回到 MLP,真是太有意思了。」


不过,谷歌 DeepMind 首席科学家 Oriol Vinyals 也提出了质疑,他认为:「per-patch 全连接,那不就是卷积吗」


架构思路

下图 1 描述了 Mixer 的宏观架构,它以一系列图像块的线性投影(输入的形状为 patches × channels)作为输入,先将输入图片拆分为 patch,通过 Per-patch Fully-connected 将每个 patch 转换为 feature embedding,接着馈入 N 个 Mixer Layer,最后通过 Fully-connected 进行分类。

Mixer 架构采用两种不同类型的 MLP 层:channel-mixing MLP 和 token-mixing MLP。channel-mixing MLP 允许不同通道之间进行通信,token-mixing MLP 允许不同空间位置(token)之间进行通信。这两种类型的层交替执行以促进两个维度间的信息交互。


另外,在极端的情况下,Mixer 架构可以看做是一个特殊的 CNN,使用 1×1 卷积进行 channel mixing,同时全感受野和参数共享的的单通道深度卷积进行 token mixing。

设计思想

Mixer 架构的设计思想是清楚地将按位置(channel-mixing)操作 (i) 和跨位置(token-mixing)操作 (ii) 分开,两种操作都通过 MLP 来实现。

该架构如图 1 所示,Mixer 将一系列 S 个不重叠的图像 patch 作为输入,每个 patch 投影到所需的隐藏维度 C 上。这将产生二维实值(real-valued)输入表 X ∈ R^S×C。

Mixer 由大小相同的多个层组成。每个层由 2 个 MLP 块组成,其中,第一个块是 token-mixing MLP 块,第二个是 channel-mixing MLP 块。每个 MLP 块包含两个全连接层,以及一个单独应用于其输入数据张量的每一行的非线性层。Mixer 层描述如下:





请到「今天看啥」查看全文

推荐文章
Python开发者  ·  请立即拿下软考证书(政策风口)
2 天前
Python爱好者社区  ·  推荐我的抖音变现俱乐部!
2 天前
Python爱好者社区  ·  张雪峰公司今年的年终奖...
2 天前
Python爱好者社区  ·  吴恩达,yyds
4 天前
Python爱好者社区  ·  DeepSeek薪资曝光!
4 天前
中国经济网  ·  抬头是方向,低头是清醒丨可读
8 年前