专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
德州日报  ·  已确认!当场击毙 ·  3 小时前  
德州日报  ·  已确认!当场击毙 ·  3 小时前  
军武次位面  ·  冲锋衣这种东西!100元和1000元差别有多大! ·  3 天前  
每日英语  ·  每日谚语 | 学如逆水行舟,不进则退 ·  3 天前  
51好读  ›  专栏  ›  极市平台

CVPR 2024|微软新作StarNet:超强轻量级Backbone

极市平台  · 公众号  ·  · 2024-05-13 22:00

正文

↑ 点击 蓝字 关注极市平台
作者丨 VincentLee
来源丨晓飞的算法工程笔记
编辑丨极市平台

极市导读

论文揭示了star operation(元素乘法)在无需加宽网络下,将输入映射到高维非线性特征空间的能力。基于此提出了StarNet,在紧凑的网络结构和较低的能耗下展示了令人印象深刻的性能和低延迟 >> 加入极市CV技术交流群,走在计算机视觉的最前沿

论文地址: https://arxiv.org/abs/2403.19967
论文代码: https://github.com/ma-xu/Rewrite-the-Stars

Introduction

最近,通过元素乘法融合不同的子空间特征的学习范式越来越受到关注,论文将这种范例称为 star operation (由于元素乘法符号类似于星形)。

为了便于说明,论文构建了一个用于图像分类的 demo block ,如图 1 左侧所示。通过在 stem 层后堆叠多个 demo block ,论文构建了一个名为 DemoNet 的简单模型。保持所有其他因素不变,论文观察到逐元素乘法( star operation )在性能上始终优于求和,如图 1 右侧所示。

在这项工作中,论文证明 star operation 具有将输入映射到极高维的非线性特征空间的能力,从而解释 star operation 的强表达能力。论文不依赖直观或假设的高级解释,而是深入研究 star operation 的细节。通过重写和重新表述 star operation 计算过程,论文发现这个看似简单的运算实际可以生成一个新的特征空间,含大约 线性独立维度。

与增加网络宽度(又称通道数)的传统神经网络不同, star operation 类似于在不同通道上进行成对特征乘法的核函数,特别是多项式核函数。当应用到神经网络中并通过多层堆叠时,每一层都会带来隐式维度复杂性的指数增长。只需几层, star operation 就可以在紧凑的特征空间内实现几乎无限的维度。在紧凑的特征空间内计算,同时受益于隐含的高维度,这就是 star operation 的独特魅力所在。

根据上述见解,论文推断 star operation 本质上更适合高效、紧凑的网络,而不是常规使用的大型模型。为了验证这一点,论文提出了一种概念验证的高效网络 StarNet ,其特点是简洁和高效。 StarNet 非常简单,缺乏复杂的设计和微调的超参数。在设计理念上, StarNet 与现有网络明显不同,如表 1 所示。利用 star operation StarNet 甚至可以超越各种精心设计的高效模型,如 MobileNetv3 EdgeViT FasterNet 等。这些结果不仅从经验上验证了论文对恒星运行的见解,而且强调了其在实际应用中的实用价值。

论文简要总结并强调这项工作的主要贡献如下:

  • 证明了 star operation 的有效性,如图 1 所示,揭示了 star operation 具有将特征投影到极高维隐式特征空间的能力,类似于多项式核函数。
  • 从分析中汲取灵感,确定了 star operation 在高效网络领域的实用性,并提出了概念验证模型 StarNet 。无需复杂的设计或精心选择的超参数即可实现高性能,超越了许多高效的设计。
  • 基于 star operation 存在大量未探索的可能性,论文的分析可以作为指导框架,引导研究人员远离随意的网络设计尝试。

Rewrite the Stars

Star Operation in One layer

在单层神经网络中, star operation 通常写为 ,通过逐元素乘法融合两个线性变换的特征。为了方便起见,将权重矩阵和偏置合并为一个实体 ,同样地,通过 ,得到 star operation

为了简化分析,论文重点关注涉及单输出通道转换和单元素输入的场景。具体来说,定义 ,其中 为输入通道数。这可以随时进行 扩展以适应多个输出通道,以及处理多元素输入

一般来说,可以通过以下方式重写 star operation

其中 作为通道下标, 为个子项的系数:

重写 star operation 后,可以将其展开为 个不同子项的组合,如等式 4 所示。值得注意的是,除了 的每个子项(这里是 偏置项)都与 呈非线性关联,表明它们是单独的隐式维度。

因此,在 维度空间中使用计算效率高的 star operation ,可以得到 的隐式维度特征空间。从而在显著放大特征维度的同时,不会在单层内产生任何额外的计算开销,这个突出的属性与内核函数有着相似的理念。

Generalized to multiple layers

通过堆冝多个层,可以递归地将隐式维度以指数方式增加到几乎无限。

对于宽度为 的初始网络层,应用一次 star operation ,可得到 的隐式特征空间内。

表示第 star operation 的输出,可得:

也就是说,通过堆叠 层可以隐式获得 维特征空间。例如,给定一个宽度为 128 的 10 层网络,通过 star operation 获得的隐式特征维数近似为 ,相当于无限维度。因此,通过堆叠多个层,即使只有几个层, star operation 也可以以指数方式大幅放大隐式维度。

Special Cases

实际上,并非所有 star operation 都遵循公式 1 那样,两个分支都进行变换。例如, VAN SENet 包含一个 identity 分支,而 GENet- 无需任何需学习的变换(池化、最近邻插值后乘回原特征) 即可运行。

  • Case I: Non-Linear Nature of and/orW

在实际场景中,大量研究(例如 Conv2Former FocalNet 等)通过合并激活函数将变换函数 和/或 变为非线性。尽管如此,最重要的其实是看通道间的处理是否像公式 2 那样实现,是则其隐式维度仍然保持不变 (大约为 )。

  • Case II:







请到「今天看啥」查看全文


推荐文章
德州日报  ·  已确认!当场击毙
3 小时前
德州日报  ·  已确认!当场击毙
3 小时前
单反摄影技巧  ·  一些特简单的单反入门摄影技巧分享
7 年前
学生时代  ·  哪种体型的女生嘿嘿嘿能力最强?
7 年前
经典段子网  ·  送给我最想念的你!
7 年前
PPP产业大讲堂  ·  财政专项扶贫资金绩效评价有新“标尺”
7 年前