专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
乌鸦预告片  ·  《哪吒2》冲击145亿!单挑阿凡达3! ·  昨天  
叶子猪游戏网  ·  三法都能秒伤百万!这枚大话2水炮为何如此暴力 ·  3 天前  
l 看齐 l  ·  成龙,突传消息! ·  3 天前  
l 看齐 l  ·  成龙,突传消息! ·  3 天前  
51好读  ›  专栏  ›  极市平台

北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba

极市平台  · 公众号  ·  · 2024-10-15 22:00

正文

↑ 点击 蓝字 关注极市平台
作者丨机器之心
来源丨机器之心
编辑丨极市平台

极市导读

这篇文章介绍了北京大学林宙辰团队提出的新型混合序列建模架构MixCon,该架构结合了注意力机制的Transformer层、Conba层和MoE组件,旨在提高序列建模的效率和适应性,实验结果显示其性能远超Mixtral、Mamba和Jamba。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿

在自然语言处理、语音识别和时间序列分析等众多领域中,序列建模是一项至关重要的任务。然而,现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。

因此,北京大学林宙辰、徐鑫提出了一种 全新混合序列建模架构 ——MixCon ,它为解决这些难题带来了创新性的方案。经实验验证,其性能远超 Mixtral、Mamba 和 Jamba。论文已在 European Conference on Artificial Intelligence (ECAI) 2024 上发表。

论文地址: https://zhouchenlin.github.io/Publications/2024-ECAI-MixCon.pdf

一、现有序列建模模型的困境

线性注意力 Transformer

线性注意力 Transformer 旨在通过近似注意力机制来提高原始 Transformer 模型的效率,将计算复杂度从 降低到 ,但在处理长序列时可能会面临性能下降和计算开销增加的问题。

例如,早期利用局部敏感哈希方案虽降低复杂度,但引入大常数因子;近期通过改变计算顺序等方法近似 Softmax 函数,但仍存在性能不如 Softmax 注意力且可能增加额外开销的情况。

线性 RNN 模型

线性 RNN 模型如 Mamba 等通过将序列表示为状态空间并利用扫描操作,以线性时间复杂度提供了序列建模的新解决方案。

然而,它们可能缺乏复杂序列建模任务所需的适应性和动态特性,并且像传统序列模型一样,缺少反馈机制和自适应控制。

MoE 模型

MoE 模型通过结合专家模块,能有效处理长序列并保持计算效率,根据输入数据自适应选择专家模块。

但 MoE 模型的专家模块稀疏激活可能导致训练稳定性问题,部分参数不常使用降低参数效率,在处理长序列时可能在计算效率和训练稳定性方面面临挑战,且对动态变化适应性不足。

二、MixCon 的核心架构与技术

Conba 模型架构

1. 状态空间方程

Conba 将序列建模任务表示为状态空间系统,状态空间定义为 ,其中 分别为时间步 的状态、输入和输出, 是非线性函数,可由神经网络近似。 , 其中 是可学习参数矩阵。 是可学习参数矩阵。

为处理长序列, Conba 采用选择性状态空间机制 , 以及引入延迟状态 和动态状态缩放机制

最后状态空间系统表示为 来捕捉长程依赖和适应序列动态变化。

2. 自适应控制机制

设计目标是最小化实际输出 和期望输出 之间的跟踪误差

控制增益矩阵 通过 更新, 其中 是跟踪误差向量 的 2 范数, 是学习率。

3. 实施细节

神经网络近似:

利用 MLP 近似状态转移函数 的非线性部分和观察函数 ,通过端到端训练确定最佳参数。

选择性状态空间函数 用 SwiGLU(基于 Swish 和 GLU 的混合激活函数)近似,其公式为 Sish







请到「今天看啥」查看全文