专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
连云港市场监管  ·  连云港在全省率先出台《数据知识产权保护指南》 ... ·  12 小时前  
连云港市场监管  ·  连云港在全省率先出台《数据知识产权保护指南》 ... ·  12 小时前  
知识产权那点事  ·  【案例报告】AI一键生成的图片版权归属 ·  4 天前  
太格有物  ·  新品快讯|沃尔沃发布越野电动SUV,adid ... ·  2 天前  
51好读  ›  专栏  ›  极市平台

CVPR 2024|LORS:腾讯提出低秩残差结构,瘦身模型不掉点

极市平台  · 公众号  ·  · 2024-03-27 18:22

正文

↑ 点击 蓝字 关注极市平台
者丨VincentLee
来源丨晓飞的算法工程笔记
编辑丨极市平台

极市导读

本文提出了用于堆叠网络的新颖低秩残差结构LORS,与普通结构相比,在大幅减少参数数量的同时保持甚至提高性能。作者引入有效的方法来减少堆叠结构中的静态参数和自适应生成参数,这使得作者提出的LORS更加通用。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿

深度学习模型通常堆叠大量结构和功能相同的结构,虽然有效,但会导致参数数量大幅增加,给实际应用带来了挑战。为了缓解这个问题, LORS (低秩残差结构)允许堆叠模块共享大部分参数,每个模块仅需要少量的唯一参数即可匹配甚至超过全量参数的性能。实验结果表明, LORS 减少解码器 70% 的参数后仍可达到与原始模型相当甚至更好的性能
来源:晓飞的算法工程笔记 公众号

论文: LORS: Low-rank Residual Structure for Parameter-Efficient Network Stacking

论文地址: https://arxiv.org/abs/2403.04303

Introduction

在当前大模型繁荣的时代,一个普遍的问题是参数量大幅增加,这给训练、推理和部署带来了挑战。目前有各种方法来减少模型中的参数数量,例如知识蒸馏,将大型模型压缩为较小的模型,同时试图保持其性能,但仍可能导致模型容量的下降;剪枝,从模型中删除冗余参数,但会影响模型的稳定性;量化,降低模型参数的数值精度,降低存储和计算量,但可能会导致模型精度损失;参数共享,通过在不同层之间共享参数来减少参数数量,但可能会限制模型的表达能力。

与上述方法不同,论文观察到一个导致参数数量庞大的重要事实:层堆叠在神经网络中的广泛使用。层堆叠是指那些具有相同架构并执行相同或相似功能的模块,但由于随机初始化和训练更新而具有不同的参数。堆叠的例子可以在许多著名的神经网络中找到,比如经典的 ResNet 模型和 Transformers 。特别是, Transformers 严重依赖堆栈结构,并且通常在编码器和解码器中采用完全相同的多层堆栈。现在它已成为计算机视觉、自然语言处理等领域许多优秀模型不可或缺的组成部分。

尽管层堆叠对于增强模型容量非常有效,但也会导致参数数量的急剧增加。例如, GPT-3 使用 1750 亿个参数,由 96 个堆叠的 Transformer 层组成。如何才能享受堆栈带来的好处,同时减少所需的参数数量?论文注意到堆叠的解码器具有相同的结构和相似的功能,这表明它们的参数之间应该存在一些共性。然而,由于它们处理不同的输入和输出分布,因此它们的参数也必须有独特的方面。因此,一个自然的想法是:也许可以用共享参数来表示共享方面,同时允许每个堆叠模块仅保留捕获其独特特征的参数,从而减少总体参数使用。

基于上述考虑,论文建议将堆叠模块的参数分解为两部分:代表共性的共享参数和捕获特定特征的私有参数。共享参数可供所有模块使用并共同训练,而私有参数则由每个模块单独拥有,在保持模型性能的同时减少参数量。为了实现这一目标,受 LoRA 方法的启发,论文引入了低秩残差结构 ( LORS ) 的概念,本质上是将私有参数添加到共享参数中,就像残差连接将残差信息添加到特征中一样。

为了验证论文的想法,选择 AdaMixer (一个强大的基于查询的对象检测器)作为实验对象。其堆叠的解码器中包含大量自适应和静态参数,是展示 LORS 有效性的理想候选者。自适应参数和静态参数的区别在于是否随着不同的输入而变化,而论文的目标是证明 LORS 可以有效减少两类参数的总体使用,同时保持模型的性能。对此检测器进行的广泛实验表明, LORS 成功地减少了 AdaMixer 解码器中高达 70% 的参数,同时能够实现与其普通版本相当甚至更优越的性能。

总之,论文的贡献可以总结为:

  • 论文提出了用于堆叠网络的新颖低秩残差结构 LORS ,与普通结构相比,在大幅减少参数数量的同时保持甚至提高性能。
  • 论文引入有效的方法来减少堆叠结构中的静态参数和自适应生成参数,这使得论文提出的 LORS 更加通用。
  • 论文的方法有潜力作为大型模型的基本网络结构之一,这些模型受到堆叠网络导致的参数过多问题的影响很大。 LORS 能使参数更加高效,从而在实际应用中更容易实现。

Approach

Preliminary

The mechanism of LoRA

低秩适应( LoRA )技术是一种新颖的方法,使大型预训练语言模型能够适应特定任务。 LoRA 的关键思想是引入一个低秩参数矩阵,该矩阵能够捕获任务相关的知识,同时保持原始预训练参数固定。

从数学角度来看,给定一个预训练的参数矩阵 LORA 使用低秩矩阵 和投影矩阵 来适应 ,其中秩 。适应的参数矩阵由以下计算:

其中 用于捕获特定于任务的知识。

LORA 的主要优势在于显着减少需要微调的参数量,从而降低计算成本以及内存需求。在某些情况下,即使个位数值的秩 也足以将模型微调到所需状态,比直接训练 中的参数的开销少数十倍。此外,通过固定原始参数, LORA 避免了灾难性遗忘,这是微调大型模型时的常见问题。

Query-based object detection

在对象检测领域,基于查询的检测器建立了一种新的范例,利用一组可学习的查询向量与图像特征图进行交互:

其中 表示查询、键和值。可学习查询 最终用于预测对象类和边界框,而 通常为编码的图像特征。经过连续的解码层, 不断地与 交互来细化是一种常见的做法,而这些层通常由结构相同的解码器组成。

Decoders of AdaMixer

AdaMixer 是一种基于查询的检测器,添加自适应通道混合( ACM )和自适应空间混合( ASM )方法,大大增强了性能。

给定一个采样特征 ,其中 为采样组数。采样特征通过组采样操作获得的,该操作将每个多尺度特征的空间通道 划分为 组,然后对每个组内特征进行单独3D采样操作,得到的多组采样特征分别进行后续的 ACM ASM 操作。

首先对采样特征执行 ACM (自适应通道混合)操作,根据对象查询 生成的自适应权重在通道维度转换特征 ,增强通道语义:

随后对通道增强的采样特征执行 ASM (自适应空间混合)操作,通过对空间维度应用自适应变换,使得对象查询 能够适应采样特征的空间结构:

ACM ASM 都为每个采样组训练独立的参数,最后整合多组输出将形状为

与解码器的其他操作相比, ACM ASM 和输出线性变换 拥有更多的参数,是模型参数量的主要贡献者。因此,论文选择它们作为目标组件来验证 LORS 方法在参数减少方面的有效性。

Formulation of Our Method

LORS 的完整计算过程如图 1 所示,分为两种类型:自适应计算和静态计算。其中,“自适应”表示变换矩阵是否依赖于对象查询。

Static Low Rank Residual Structure

假设单个模块包含 个具有相同架构的堆叠层,并且 是第 层的参数矩阵,则有:

为所有堆叠层的共享参数, 为第 层的私有参数,其计算如下:

,其中秩 为用于计算 的参数组的数量。

LORS 计算 的伪代码如图 2 所示。

Adaptive Low Rank Residual Structure

定义 为第 个堆叠层中自适应生成参数,其计算为:

算得到的:

其中 ,秩

计算 的伪代码如图 3 所示。

Applying LORS to AdaMixer’s Decoders

LORS 应用到 AdaMixer 的每个解码器的 ACM ASM 的线性变换的参数中。

Adamixer 中运行的 LORS 的整体流程如图 4 所示。对于每组采样点,LORS 用于减少 ACM (映射 ) 和 ASM 的参数 (映射 LORS 则用于最小化 中的参数 (映射 )。

从上面括号中的映射关系可以看出, 的参数量分别为 当分组采样策略由 2 组、每组 64 点组成时,变量的值为 ,进而计算出 的参数数量均超过百万。

事实上,这三个组件共同占据了以 ResNet-50 为主干的 AdaMixer 模型总参数的大部分,同时它们也是增强模型性能的主要驱动力。综上,这也就是论文对它们进行 LORS 实验的动机。

Analysis on Parameter Reduction

定义 为堆蛋结构中每层都存在的权重参数, 为堆蛋层数:

  • 如果是静态的,则原本就有 个参数,而使用 后平均每层仅需要 个参数。
  • 如果是自适应的,通过 线性变换生成需要 个参数,其中 的维度,使用 每层平均仅需要 个参数。

为了更直观地展示 LORS 的参数减少效果,在 ASM 设置







请到「今天看啥」查看全文