专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
51好读  ›  专栏  ›  计算机视觉工坊

ICML 2024 Spotlight|这篇独立一作论文:没算法没实验

计算机视觉工坊  · 公众号  ·  · 2024-08-24 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:极士平台

添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

没有算法没有实验,从2610篇收录论文中脱颖而出,成为唯一一篇 纯理论 入选2024 ICML Spotlight的论文。

Vocabulary for Universal Approximation: A Linguistic Perspective of Mapping Compositions (词的万能逼近:从语言角度看映射组合)”,这篇纯理论论文讲了什么,何以入选Spotlight?

简单来说,目前基于深度学习的序列模型,如语言模型,受到了广泛关注并取得了成功,这促使研究人员探索 将非序列问题转换为序列形式 的可能性。

沿着这一思路,深度神经网络可以表示为一系列线性或非线性映射的 复合函数 ,其中每个映射都可以看作是一个 “词”

然而,线性映射的权重是未确定的,因此需要无限多个词。

而这篇论文研究有限情形并构造性地证明了存在一个 有限的函数词汇表V ,用于实现万能逼近。

也就是说,对于任何连续映射f、紧集Ω和ε>0,存在V中的一个有限序列,使得它们的复合映射能够在Ω上近似f且逼近误差小于ε。

论文研究结果展示了函数复合的非凡近似能力,并为正则语言提供了新的模型。

这项研究由北京师范大学蔡永强完成,在2024 ICML的2610篇收录论文中,144篇是Oral,191篇是Spotlight。但初步盘点在今年的Oral和Spotlight论文中,仅有这一篇是没有算法没有实验的纯理论文章。

下面我们来看看具体内容。

自然语言与万能逼近的相似之处

认知心理学家和语言学家早已认识到语言对于智能的重要性,而BERT和GPT等语言模型的流行进一步凸显了这一点。

这些基于RNN或Transformer的模型通过将自然语言处理转化为序列学习问题,彻底改变了自然语言处理的研究方向。它们可以处理文本中的长程依赖性,并根据上下文内容生成连贯的文本,这使它们成为语言理解和生成方面的重要工具。

这些模型的成功还催生了一种通过 将非序列问题转化为序列问题来解决非序列问题 的新方法。

例如,图像处理可以转化为序列学习问题,将图像分割成小块,将它们按一定顺序排列,然后使用序列学习算法处理得到的序列以实现图像识别。

序列学习算法的使用还可以扩展到强化学习领域,例如Decision Transformer通过利用因果掩码Transformer输出最佳动作,可以取得很好的性能。

序列建模为解决各种问题开辟了新的可能性,这种趋势似乎在理论研究领域也得到了体现。

众所周知, 人工神经网络具有万能逼近能力,宽或深的前馈网络可以任意逼近紧集上的连续函数

然而,在AlphaFold、BERT和GPT等实际应用中,残差网络结构比前馈结构更受青睐。据观察,残差网络(ResNet)可以视为动力系统的前向欧拉离散,这种关系催生了一系列基于动力系统的神经网络结构,例如连续情形的Neural ODE等。基于动力系统的神经网络结构有望在各个领域发挥重要作用。

值得注意的是,语言模型和动力系统都与时间序列建模相关,并且已有效地应用于非序列问题。

这一观察自然会让我们产生疑问:

语言模型和时间序列建模各自的成功之间是否存在内在联系?

本文这项研究就是在探究这一问题。

通过比较研究,作者从万能逼近的角度得到了一些初步结果。具体来说,可以证明 存在有限个映射 ,称为词汇表,(其中的映射可以取为一些自治动力系统的流映射),使得任何连续映射可以通过复合词汇表中的一个系列来近似。

这与自然语言中基于词来构建短语、句子、段落和篇章来传达复杂信息的方式相似。

下表1直观地体现了这种相似性。

表 1. 自然语言与万能逼近的相似之处

总结来说,研究有以下几个贡献:

  • 证明了通过复合有限集 V 中的一系列映射可以实现万能逼近性质。

  • 给出了构造性证明,基于动力系统流映射构造了满足条件的 V。

  • 给出了复合映射与自然语言中的单词/短语/句子之间的一个类比,这可以启发逼近理论、动力系统、序列建模和语言学之间的跨学科研究。

主要结论

记号

对深度学习有所了解的读者应该都听说过万能逼近定理,它指的是神经网络可以近似任意的连续函数。

“近似”需要明确是在什么意义之下,下面是两种常见的刻画,本文称为C-UAP和Lᴾ-UAP,其中C-UAP更强一些。

万能逼近性质

为了表述本文的新型万能逼近定理,需要给出如下记号:

有限词汇表

核心是将V称为词汇表,V中的映射称为“词”,V中一个序列的复合称为“句子”,所有“句子”的集合记为HV。记号中的实心点表示的是函数复合,计算时先复合最左边的函数。与常规的复合函数记号相比,有下面的关系:

函数复合

这里之所以要引入新的记号,而不是直接用复合函数的常规记号,是因为常规记号中最先运算的函数是写在最后边,这个相反的顺序不便于书写。

定理

本文的主要定理表述如下:

主要结论

定理2.2比较技巧性,记号:

表示的是d维保持定向的微分同胚组成的集合,根据Brenier&Gangbo于2003证明的结论(保持定向的微分同胚可以近似连续函数,前提是维数d大于等于2)可以得到推论2.3。

推论2.3表明“句子”的集合HV具有万能逼近性质。这与传统的万能逼近具有本质的区别。

证明思路







请到「今天看啥」查看全文