点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:极士平台
添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「
3D视觉从入门到精通
」知识星球
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
没有算法没有实验,从2610篇收录论文中脱颖而出,成为唯一一篇
纯理论
入选2024 ICML Spotlight的论文。
“
Vocabulary for Universal Approximation: A Linguistic Perspective of Mapping Compositions
(词的万能逼近:从语言角度看映射组合)”,这篇纯理论论文讲了什么,何以入选Spotlight?
简单来说,目前基于深度学习的序列模型,如语言模型,受到了广泛关注并取得了成功,这促使研究人员探索
将非序列问题转换为序列形式
的可能性。
沿着这一思路,深度神经网络可以表示为一系列线性或非线性映射的
复合函数
,其中每个映射都可以看作是一个
“词”
。
然而,线性映射的权重是未确定的,因此需要无限多个词。
而这篇论文研究有限情形并构造性地证明了存在一个
有限的函数词汇表V
,用于实现万能逼近。
也就是说,对于任何连续映射f、紧集Ω和ε>0,存在V中的一个有限序列,使得它们的复合映射能够在Ω上近似f且逼近误差小于ε。
论文研究结果展示了函数复合的非凡近似能力,并为正则语言提供了新的模型。
这项研究由北京师范大学蔡永强完成,在2024 ICML的2610篇收录论文中,144篇是Oral,191篇是Spotlight。但初步盘点在今年的Oral和Spotlight论文中,仅有这一篇是没有算法没有实验的纯理论文章。
下面我们来看看具体内容。
自然语言与万能逼近的相似之处
认知心理学家和语言学家早已认识到语言对于智能的重要性,而BERT和GPT等语言模型的流行进一步凸显了这一点。
这些基于RNN或Transformer的模型通过将自然语言处理转化为序列学习问题,彻底改变了自然语言处理的研究方向。它们可以处理文本中的长程依赖性,并根据上下文内容生成连贯的文本,这使它们成为语言理解和生成方面的重要工具。
这些模型的成功还催生了一种通过
将非序列问题转化为序列问题来解决非序列问题
的新方法。
例如,图像处理可以转化为序列学习问题,将图像分割成小块,将它们按一定顺序排列,然后使用序列学习算法处理得到的序列以实现图像识别。
序列学习算法的使用还可以扩展到强化学习领域,例如Decision Transformer通过利用因果掩码Transformer输出最佳动作,可以取得很好的性能。
序列建模为解决各种问题开辟了新的可能性,这种趋势似乎在理论研究领域也得到了体现。
众所周知,
人工神经网络具有万能逼近能力,宽或深的前馈网络可以任意逼近紧集上的连续函数
。
然而,在AlphaFold、BERT和GPT等实际应用中,残差网络结构比前馈结构更受青睐。据观察,残差网络(ResNet)可以视为动力系统的前向欧拉离散,这种关系催生了一系列基于动力系统的神经网络结构,例如连续情形的Neural ODE等。基于动力系统的神经网络结构有望在各个领域发挥重要作用。
值得注意的是,语言模型和动力系统都与时间序列建模相关,并且已有效地应用于非序列问题。
这一观察自然会让我们产生疑问:
语言模型和时间序列建模各自的成功之间是否存在内在联系?
本文这项研究就是在探究这一问题。
通过比较研究,作者从万能逼近的角度得到了一些初步结果。具体来说,可以证明
存在有限个映射
,称为词汇表,(其中的映射可以取为一些自治动力系统的流映射),使得任何连续映射可以通过复合词汇表中的一个系列来近似。
这与自然语言中基于词来构建短语、句子、段落和篇章来传达复杂信息的方式相似。
下表1直观地体现了这种相似性。
表 1. 自然语言与万能逼近的相似之处
总结来说,研究有以下几个贡献:
-
证明了通过复合有限集 V 中的一系列映射可以实现万能逼近性质。
-
给出了构造性证明,基于动力系统流映射构造了满足条件的 V。
-
给出了复合映射与自然语言中的单词/短语/句子之间的一个类比,这可以启发逼近理论、动力系统、序列建模和语言学之间的跨学科研究。
主要结论
记号
对深度学习有所了解的读者应该都听说过万能逼近定理,它指的是神经网络可以近似任意的连续函数。
“近似”需要明确是在什么意义之下,下面是两种常见的刻画,本文称为C-UAP和Lᴾ-UAP,其中C-UAP更强一些。
万能逼近性质
为了表述本文的新型万能逼近定理,需要给出如下记号:
有限词汇表
核心是将V称为词汇表,V中的映射称为“词”,V中一个序列的复合称为“句子”,所有“句子”的集合记为HV。记号中的实心点表示的是函数复合,计算时先复合最左边的函数。与常规的复合函数记号相比,有下面的关系:
函数复合
这里之所以要引入新的记号,而不是直接用复合函数的常规记号,是因为常规记号中最先运算的函数是写在最后边,这个相反的顺序不便于书写。
定理
本文的主要定理表述如下:
主要结论
定理2.2比较技巧性,记号:
表示的是d维保持定向的微分同胚组成的集合,根据Brenier&Gangbo于2003证明的结论(保持定向的微分同胚可以近似连续函数,前提是维数d大于等于2)可以得到推论2.3。
推论2.3表明“句子”的集合HV具有万能逼近性质。这与传统的万能逼近具有本质的区别。
证明思路