专栏名称: AI算法与图像处理
考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Python等技术实战分享,也有考研,转行IT经验交流心得
目录
相关文章推荐
余杭时报  ·  最新公布!余杭142.2万人! ·  昨天  
余杭发布  ·  中雨、大雨、暴雨!今晚抵达余杭! ·  昨天  
杭州本地宝  ·  2025年浙江三位一体招生3月13日截止报名! ·  昨天  
余杭发布  ·  全球首例!余杭企业解锁“光之魔法” ·  3 天前  
51好读  ›  专栏  ›  AI算法与图像处理

何恺明ResNet级神作,分形生成模型计算效率狂飙4000倍!清华校友一作

AI算法与图像处理  · 公众号  ·  · 2025-02-26 20:25

正文



报道

来源:新智元
【导读】 大自然的分形之美,蕴藏着宇宙的设计规则。刚刚,何恺明团队祭出「分形生成模型」,首次实现高分辨率逐像素建模,让计算效率飙升4000倍,开辟AI图像生成新范式。
图像生成建模全新范式来了。

你是否曾凝视过雪花的精致对称,或惊叹于树枝的无穷分支?

这些都是大自然中的「分形」。早在1983年,数学家Mandelbrot就揭示了这一现象。

而如今,何恺明团队将这一概念注入AI,重磅提出「分形生成模型」(fractal generative models),将GenAI模型的模块化层次提升到全新的高度。

论文链接:https://arxiv.org/abs/2502.17437

类似于数学中的分形,它采用了「递归结构」,递归调用原子生成模块,构建了新型的生成模型,形成了自相似的分形架构。

具体来说,每个生成模块内部包含了更小的生成模块,而这些小模块内又嵌套着更小的模块。

这也并非凭空想象,科学研究早已证明,大脑的神经网络正是分形的杰作。人类大脑同样是通过模块化递归,将微型神经网络组合成更大的网络。

在像素级图像生成上,研究团队验证了新方法的强大——

「分形生成模型」首次将逐像素建模的精细分辨率的计算效率,提升了4000倍。

分形生成模不仅是一种新模型,更是生成建模领域的全新范式。

它将AI设计与自然界奥秘合二为一,或许通往真正智能道路,就是更深入理解、模拟自然界已有的设计模式。

这篇神作一出世,便有网友表示,何恺明的ResNet 2?

还有大佬称,「分形生成模型代表了AI领域一个激动人心的新前沿。自回归模型的递归特性,就是在学习模仿大自然的模式。

这不仅仅是理论,而是一条通往更丰富、更具适应性AI系统的道路」。

自然界终极设计模式,「分形」无处不在

计算机科学的核心概念之一是模块化。

现代生成模型(如扩散模型和自回归模型)是由基本的「生成步骤」组成的,而每个步骤本身都是由深度神经网络实现的。

将复杂的功能抽象成基本模块,通过组合这些模块来构建更复杂的系统。这就是模块化方法。

基于这一理念,研究团队提出 将生成模型本身作为一个模块 ,从而开发更高级的生成模型。

新方法受到了生物神经网络和自然数据中观察到的分形特性的启发。

与自然分形结构类似,设计的关键组件是定义递归生成规则的「生成器」。

例如,生成器可以是一个自回归模型,如图1所示。在这种实例化中,每个自回归模型由本身也是自回归模型的模块组成。具体来说,每个父自回归模块生成多个子自回归模块,而每个子模块进一步生成更多的自回归模块。

最终的架构在不同层次上展现出类似分形的自相似模式,如图1所示。

图1:分形生成模型

在这个实例中,使用自回归模型作为分形生成器。在自回归模型中,递归调用自回归模型,构建了一个具有不同层级之间自相似性的类似分形的框架。

动机和直觉

从简单的递归规则中,分形可以产生复杂的模式。

这也是分形生成模型的核心思想:利用现有的原子生成模块,递归地构建成更高级的生成模型。

在分形几何中,这些规则通常被称为「生成器」。

通过不同的生成器,分形方法可以构建许多自然模式,如云、山脉、雪花和树枝,并且和更复杂的系统有关,如生物神经网络的结构、非线性动力学和混沌系统。

Mathworld中不同的分形模式

形式上,分形生成器g_i,指定了如何基于上一级生成器的输出xi,生成下一级生成器的新数据集

例如,如图1所示,生成器可以通过在每个灰色框内递归调用类似的生成器来构建分形。

由于每个生成器层级可以从单个输入生成多个输出,在仅需要线性递归层级的情况下,分形框架可以实现生成输出的指数级增长。

这特别适合用相对较少的生成器层级,来建模高维数据。

「分形生成模型」核心架构

分而治之

在理论上,生成模型就是建模多个高维随机变量的联合分布,但直接用单一的自回归模型建模,在计算上是不可行的。

为了解决这个问题,采用了分而治之的策略。

关键模块化是将自回归模型抽象为一个模块化单元,用于建模概率分布p(x∣c)。

通过这种模块化,可以在多个下一级自回归模型的基础上构建一个更强大的自回归模型。

假设每个自回归模型中的序列长度是一个可管理的常数k,并且总随机变量数N=k^n,其中n=log⁡_k(N)表示框架中的递归层级数。

分形框架的第一层自回归模型将联合分布划分为k个子集,每个子集包含k^{n−1}个变量。形式上,我们将联合分布分解为:

每个包含k^{n−1}个变量的条件分布p(⋯∣⋯ ),由第二层递归的自回归模型建模,以此类推。

通过递归调用这种分而治之的过程,分形框架可以使用n层自回归模型,高效地处理k^n个变量的联合分布。

架构实例

如图3所示,每个自回归模型将上一层生成器的输出作为输入,并为下一层生成器生成多个输出。

它还接受一张图像(可以是原始图像的一部分),将其切分成多个patch,并将这些patch嵌入以形成Transformer模型的输入序列。这些patch也会被传递给相应的下一层生成器。

然后,Transformer将上一层生成器的输出作为一个独立的token,放置在图像token之前。

基于合并的序列,Transformer生成多个输出,供下一层生成器使用。

遵循领域内模型中的常见做法,将第一个生成器g_0的序列长度设置为256,将原始图像划分为16×16的patch。

然后,第二层生成器对每个patch进行建模,并进一步将这些patch细分为更小的patch,递归地继续这一过程。

为了管理计算成本,逐渐减少较小patch的Transformer宽度和Transformer块的数量,因为对较小的patch建模,通常比较大的patch更容易。

在最后一级,使用非常轻量的Transformer,以自回归方式建模每个像素的RGB通道,并对预测应用256路交叉熵损失。

值得注意的是,分形设计建模256×256图像的计算,成本仅为建模64×64图像的两倍。

实现

采用宽度优先的方式,端到端训练原始图像像素。

在训练过程中,每个自回归模型从上一层的自回归模型接收输入,并为下一层自回归模型生成一组输出作为输入。这个过程一直持续到最终层级,在那里图像被表示为像素序列。







请到「今天看啥」查看全文