回顾！华为天才少年谢凌曦：关于视觉识别领域发展的个人观点！

3D视觉工坊 · 公众号 · · 2025-01-31 01:34

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：小白学视觉

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

最近，我参加了几个高强度的学术活动，包括CCF计算机视觉专委会的闭门研讨会和VALSE线下大会。经过与其他学者的交流，我产生了许多想法，千头万绪，便希望把它们整理下来，供自己和同行们参考。当然，受限于个人的水平和研究范围，文章中一定会存在许多不准确甚至错误的地方，当然也不可能覆盖所有重要的研究方向。我期待与有兴趣的学者们进行交流，以充实这些观点，更好地探讨未来发展方向。

在这篇文章中，我将会着重分析计算机视觉领域，特别是视觉感知（即识别）方向所面临的困难和潜在的研究方向。

相较于针对具体算法的细节改进，我更希望探讨当前算法（尤其是基于深度学习的预训练+微调范式）的局限性和瓶颈，并且由此得出初步的发展性结论，包括哪些问题是重要的、哪些问题是不重要的、哪些方向值得推进、哪些方向的性价比较低等。

在开始之前，我先画出如下思维导图。为了寻找合适的切入点，我将从计算机视觉和自然语言处理（人工智能中两个最受关注的研究方向）的区别开始谈起，引出图像信号的三个根本性质：信息稀疏性、域间差异性、无限粒度性，并将它们与几个重要的研究方向相对应。这样，我们就能更好地了解每个研究方向所处的状态：它已经解决了哪些问题、还有哪些重要的问题没有解决，然后针对性地分析今后的发展趋势。

CV的三大基本困难和对应研究方向

一直以来，NLP都走在CV的前面。不论是深度神经网络超越手工方法，还是预训练大模型开始出现大一统的趋势，这些事情都先发生在NLP领域，并在不久之后被搬运到了CV领域。这里的本质原因是NLP的起点更高：自然语言的基础单元是单词，而图像的基础单元是像素；前者具有天然的语义信息，而后者未必能够表达语义。

从根本上说，自然语言是人类创造出来，用于存储知识和交流信息的载体，所以必然具有高效和信息密度高的特性；而图像则是人类通过各种传感器捕捉的光学信号，它能够客观地反映真实情况，但相应地就不具有强语义，且信息密度可能很低。

从另一个角度看，图像空间比文本空间要大得多，空间的结构也要复杂得多。这就意味着，如果希望在空间中采样大量样本，并且用这些数据来表征整个空间的分布，采样的图像数据就要比采样的文本数据大许多个数量级。顺带一提，这也是为什么自然语言预训练模型比视觉预训练模型用得更好的本质原因——我们在后面还会提到这一点。

根据上述分析，我们已经通过CV和NLP的差别，引出了CV的第一个基本困难，即语义稀疏性。而另外两个困难，域间差异性和无限粒度性，也多少与上述本质差别相关。正是由于图像采样时没有考虑到语义，因而在采样不同域（即不同分布，如白天和黑夜、晴天和雨天等场景）时，采样结果（即图像像素）与域特性强相关，导致了域间差异性。同时，由于图像的基本语义单元很难定义（而文本很容易定义），且图像所表达的信息丰富多样，使得人类能够从图像中获取近乎无限精细的语义信息，远远超出当前CV领域任何一种评价指标所定义的能力，这就是无限粒度性。关于无限粒度性，我曾经写过一篇文章，专门讨论这个问题。

https://zhuanlan.zhihu.com/p/376145664

以上述三大基本困难为牵引，我们将业界近年来的研究方向总结如下：

语义稀疏性 ：解决方案为构建高效计算模型（神经网络）和视觉预训练。此处的主要逻辑在于，想要提升数据的信息密度，就必须假设数据的非均匀分布（信息论）并对其建模（即学习数据的先验分布）。目前，最为高效的建模方式有两类，一类是通过神经网络架构设计，来捕捉数据无关的先验分布（例如卷积模块对应于图像数据的局部性先验、transformer模块对应于图像数据的注意力先验）；一类是通过在大规模数据上的预训练，来捕捉数据相关的先验分布。这两个研究方向，也是视觉识别领域最为基础、受到关注最多的研究方向。
域间差异性 ：解决方案为数据高效的微调算法。根据以上分析，网络体量越大、预训练数据集体量越大，计算模型中存储的先验就越强。然而，当预训练域和目标域的数据分布具有较大差异时，这种强先验反而会带来坏处，因为信息论告诉我们：提升某些部分（预训练域）的信息密度，就一定会降低其他部分（预训练域没有包含的部分，即预训练过程中认为不重要的部分）的信息密度。现实中，目标域很可能部分或者全部落在没有包含的部分，导致直接迁移预训练模型的效果很差（即过拟合）。此时，就需要通过在目标域进行微调来适应新的数据分布。考虑到目标域的数据体量往往远小于预训练域，因而数据高效是必不可少的假设。此外，从实用的角度看，模型必须能够适应随时变化的域，因而终身学习是必须。
无限粒度性 ：解决方案为开放域识别算法。无限粒度性包含开放域特性，是更高的追求目标。这个方向的研究还很初步，特别是业界还没有能被普遍接受的开放域识别数据集和评价指标。这里最本质的问题之一，是如何向视觉识别中引入开放域能力。可喜的是，随着跨模态预训练方法的涌现（特别是2021年的CLIP），自然语言越来越接近成为开放域识别的牵引器，我相信这会是未来2-3年的主流方向。然而，我并不赞成在追求开放域识别的过程中，涌现出的各种zero-shot识别任务。我认为zero-shot本身是一个伪命题，世界上并不存在也不需要zero-shot识别方法。现有的zero-shot任务，都是使用不同方法，将信息泄露给算法，而泄露方式的千差万别，导致不同方法之间难以进行公平对比。在这个方向上，我提出了一种被称为按需视觉识别的方法，以进一步揭示、探索视觉识别的无限粒度性。

这里需要做一个补充说明。由于数据空间大小和结构复杂度的差异，至少到目前为止，CV领域还不能通过预训练模型直接解决域间差异的问题，但是NLP领域已经接近了这一点。因此，我们看到了NLP学者们利用prompt-based方法统一了几十上百种下游任务，但是同样的事情在CV领域并没有发生。另外，在NLP中提出来的scaling law，其本质在于使用更大的模型来过拟合预训练数据集。也就是说，对于NLP来说，过拟合已经不再是一个问题，因为预训练数据集配合小型prompt已经足以表征整个语义空间的分布。但是，CV领域还没有做到这一点，因此还需要考虑域迁移，而域迁移的核心在于避免过拟合。也就是说，在接下来2-3年，CV和NLP的研究重心会有很大的差异，因而将任何一个方向的思维模式生搬硬套在另一个方向上，都是很危险的。

以下简要分析各个研究方向

方向1a：神经网络架构设计

2012年的AlexNet，奠定了深度神经网络在CV领域的基础。随后10年（至今），神经网络架构设计，经历了从手工设计到自动设计，再回到手工设计（引入更复杂的计算模块）的过程：

2012-2017年，手工构建更深的卷积神经网络，探索一般优化技巧。关键词：ReLU、Dropout、3x3卷积、BN、跳跃连接，等。在这个阶段，卷积操作是最基本的单元，它对应于图像特征的局部性先验。
2017-2020年，自动构建更复杂的神经网络。其中，网络架构搜索（NAS）盛行一时，最后定型为基础工具。在任意给定的搜索空间中，自动设计都能够达到稍微更好的结果，且能够快速适配不同的计算开销。
2020年至今，起源于NLP的transformer模块从被引入CV，利用attention机制，补足了神经网络的远距离建模能力。如今，大部分视觉任务的最优结果，都借助于包含transformer的架构所达到。

对于这一方向的未来，我的判断如下：

如果视觉识别任务没有明显改变，那么不论是自动设计，或者加入更复杂的计算模块，都无法将CV推向新的高度。视觉识别任务的可能改变，大致可以分为输入和输出两个部分。输入部分的可能改变如event camera，它可能会改变规则化处理静态或者时序视觉信号的现状，催生特定的神经网络结构；输出部分的可能改变，则是某种统一各种识别任务的框架（方向3会谈到），它有可能让视觉识别从独立任务走向大一统，从而催生出一种更适合视觉prompt的网络架构。
如果一定要在卷积和transformer之间做取舍，那么transformer的潜力更大，主要因为它能够统一不同的数据模态，尤其是文本和图像这两个最常见也最重要的模态。
可解释性是一个很重要的研究方向，但是我个人对于深度神经网络的可解释性持悲观态度。NLP的成功，也不是建立在可解释性上，而是建立在过拟合大规模语料库上。对于真正的AI来说，这可能不是太好的信号。

方向1b：视觉预训练

作为如今CV领域炙手可热的方向，预训练方法被寄予厚望。在深度学习时代，视觉预训练可以分为有监督、无监督、跨模态三类，大致叙述如下：

有监督预训练的发展相对清晰。由于图像级分类数据最容易获取，因此早在深度学习爆发之前，就有了日后奠定深度学习基础的ImageNet数据集，并被沿用至今。ImageNet全集超过1500万的数据规模，至今没有被其他非分类数据集所超越，因此至今仍是有监督预训练上最常用的数据。另外一个原因，则是图像级分类数据引入了较少bias，因而对于下游迁移更加有利——进一步减少bias，就是无监督预训练。
无监督预训练，则经历了曲折的发展历程。从2014年开始，出现了第一代基于几何的无监督预训练方法，如根据patch位置关系、根据图像旋转等进行判断，同时生成式方法也在不断发展（生成式方法可以追溯到更早的时期，此处不赘述）。此时的无监督预训练方法，还显著地弱于有监督预训练方法。到了2019年，对比学习方法经过技术改进，首次显现出在下游任务上超越有监督预训练方法的潜力，无监督学习真正成为CV界关注的焦点。而2021年开始，视觉transformer的兴起催生了一类特殊的生成式任务即MIM，它逐渐成为统治性方法。
除了纯粹的有监督和无监督预训练，还有一类介于两者之间的方法，是跨模态预训练。它使用弱配对的图像和文本作为训练素材，一方面避免了图像监督信号带来的bias，一方面又比无监督方法更能学习弱语义。此外，在transformer的加持下，视觉和自然语言的融合也更自然、更合理。

基于上述回顾，我做出如下判断：

从实际应用上看，应该将不同的预训练任务结合起来。也就是说，应当收集混合数据集，其中包含少量有标签数据（甚至是检测、分割等更强的标签）、中量图文配对数据、大量无任何标签的图像数据，并且在这样的混合数据集上设计预训练方法。
从CV领域看，无监督预训练是最能体现视觉本质的研究方向。即使跨模态预训练给整个方向带来了很大的冲击，我依然认为无监督预训练非常重要，必须坚持下去。需要指出，视觉预训练的思路很大程度上受到了自然语言预训练的影响，但是两者性质不同，因而不能一概而论。尤其是，自然语言本身是人类创造出来的数据，其中每个单词、每个字符都是人类写下来的，天然带有语义，因此从严格意义上说，NLP的预训练任务不能被视为真正的无监督预训练，至多算是弱监督的预训练。但是视觉不同，图像信号是客观存在、未经人类处理的原始数据，在其中的无监督预训练任务一定更难。总之，即使跨模态预训练能够在工程上推进视觉算法，使其达到更好的识别效果，视觉的本质问题还是要靠视觉本身来解决。
当前，纯视觉无监督预训练的本质在于从退化中学习。这里的退化，指的是从图像信号中去除某些已经存在的信息，要求算法复原这些信息：几何类方法去除的是几何分布信息（如patch的相对位置关系）；对比类方法去除的是图像的整体信息（通过抽取不同的view）；生成类方法如MIM去除的是图像的局部信息。这种基于退化的方法，都具有一个无法逾越的瓶颈，即退化强度和语义一致性的冲突。由于没有监督信号，视觉表征学习完全依赖于退化，因此退化必须足够强；而退化足够强时，就无法保证退化前后的图像具有语义一致性，从而导致病态的预训练目标。举例说，对比学习从一张图像中抽取的两个view如果毫无关系，拉近它们的特征就不合理；MIM任务如果去除了图像中的关键信息（如人脸），重建这些信息也不合理。强行完成这些任务，就会引入一定的bias，弱化模型的泛化能力。未来，应该会出现一种无需退化的学习任务，而我个人相信，通过压缩来学习是一条可行的路线。

方向2：模型微调和终身学习

作为一个基础问题，模型微调已经发展出了大量的不同的setting。如果要把不同的setting统一起来，可以认为它们无非考虑三个数据集，即预训练数据集 Dpre （不可见）、目标训练集 Dtrain 、目标测试集 Dtest （不可见且不可预测）。根据对三者之间关系的假设不同，比较流行的setting可以概括如下：

迁移学习：假设Dpre或者 Dtrain 和 Dtest 的数据分布大不相同；
弱监督学习：假设Dtrain只提供了不完整的标注信息；
半监督学习：假设Dtrain只有部分数据被标注；
带噪学习：假设Dtrain的部分数据标注可能有误；
主动学习：假设Dtrain可以通过交互形式标注（挑选其中最难的样本）以提升标注效率；
持续学习：假设不断有新的 Dtrain 出现，从而学习过程中可能会遗忘从 Dpre 学习的内容；
……

从一般意义上说，很难找到统一的框架来分析模型微调方法的发展和流派。从工程和实用角度看，模型微调的关键在于对域间差异大小的事先判断。如果认为 Dpre 和 Dtrain 的差异可能很大，就要减少从预训练网络中迁移到目标网络中权重的比例，或者增加一个专门的head来适应这种差异；如果认为 Dtrain 和 Dtest 的差异可能很大，就要在微调过程中加入更强的正则化以防止过拟合，或者在测试过程中引入某种在线统计量以尽量抵消差异。至于上述各种setting，则分别有大量研究工作，针对性很强，此处不再赘述。

关于这个方向，我认为有两个重要问题：

从孤立的setting向终身学习的统一。从学术界到工业界，必须抛弃“一次性交付模型”的思维，将交付内容理解为以模型为中心，配套有数据治理、模型维护、模型部署等多种功能的工具链。用工业界的话说，一个模型或者一套系统，在整个项目的生命周期中，必须得到完整的看护。必须考虑到，用户的需求是多变且不可预期的，今天可能会换个摄像头，明天可能会新增要检测的目标种类，等等。我们不追求AI能自主解决所有问题，但是AI算法应该有一个规范操作流程，让不懂AI的人能够遵循这个流程，新增他们想要的需求、解决平时遇到的问题，这样才能让AI真正平民化，解决实际问题。对于学术界，必须尽快定义出符合真实场景的终身学习setting，建立起相应的benchmark，推动这一方向的研究。
在域间差异明显的情况下，解决大数据和小样本的冲突。这又是CV和NLP的不同点：NLP已经基本不用考虑预训练和下游任务的域间差异性，因为语法结构和常见单词完全一样；而CV则必须假设上下游数据分布显著不同，以致于上游模型未经微调时，在下游数据中无法抽取底层特征（被ReLU等单元直接滤除）。因此，用小数据微调大模型，在NLP领域不是大问题（现在的主流是只微调prompt），但是在CV领域是个大问题。在这里，设计视觉友好的prompt也许是个好方向，但是目前的研究还没有切入核心问题。

方向3：无限细粒度视觉识别任务

关于无限细粒度视觉识别（以及类似的概念），目前还没有很多相关的研究。所以，我以自己的思路来叙述这个问题。我在今年VALSE报告上，对已有方法和我们的proposal做了详细解读。以下我给出文字叙述，更详细的解读请参考我的专题文章或者我在VALSE上做的报告：

https://zhuanlan.zhihu.com/p/546510418

https://zhuanlan.zhihu.com/p/555377882

首先，我要阐述无限细粒度视觉识别的含义。简单地说，图像中包含的语义信息非常丰富，但不具有明确的基本语义单元。只要人类愿意，就可以从一张图像中识别出越来越细粒度的语义信息（如下图所示）；而这些信息，很难通过有限而规范的标注（即使花费足够多的标注成本），形成语义上完整的数据集，供算法学习。

我们认为，无限细粒度视觉识别是比开放域视觉识别更难，也更加本质的目标。我们调研了已有识别方法，将其分为两类，即基于分类的方法和语言驱动的方法，并论述它们无法实现无限细粒度的理由。