专栏名称: 集智俱乐部

本公众号用于发布与集智俱乐部有关的活动信息、文章以及关于俱乐部的基本介绍。

《自动搜索人工生命》到底在搜索什么

集智俱乐部 · 公众号 · · 2025-02-11 19:48

正文

背景

2024年末，Sakana AI联合来自MIT、OpenAI、瑞士AI实验室IDSIA等机构的研究人员，公开了一种名为「自动搜索人工生命」（Automating the Search for Artificial Life with Foundation Models）的新算法。论文一经发表，众多公众号便对其进行了深入解读，并纷纷采用“震惊体”作为标题，发布了一系列文章。这些文章似乎在暗示AI已经揭开了生命起源的秘密，引发了社会的广泛关注。

然而，经过深度阅读原论文后可以发现，新算法并未直接涉及生命起源的奥秘。但它确实带来了一些启示，为未来探索生命的奥秘奠定了一定的基础。

集智俱乐部《一种新科学》读书会组织了针对这个论文的夜谈交流，这篇文章正是基于夜谈的分享总结而来，欢迎查看视频：

https://pattern.swarma.org/study_group_issue/852

研究领域： 元胞自动机，人工生命（ALife），神经网络，混沌边缘，参数空间搜索，跨模态表征，自监督视觉编码

张礼贤、韩司阳 | 作者

论文题目：用基础模型自动搜索人工生命（后简称：ASAL）

作者：Akarsh Kumar, Chris Lu, Louis Kirsch, Yujin Tang, Kenneth O. Stanley, Phillip Isola, David Ha

论文地址：https://arxiv.org/abs/2412.17799

基本概念

“基质”——人工生命

“搜索”——整体思路

“眼睛”——基础模型

代码结构

实验方法

“符合描述”——目标导向

“变化莫测”——开放探索

“五花八门”——启发发现

实验框架总结

实验结果

三种方法的发现

量化人工生命

与基础模型无关

扩展

基因与表型

混沌边缘的超级参数

向前迈进

总结

1. 基本概念

“基质”——人工生命

该论文所说的人工生命（ALife），其实就是2维欧氏空间中依照一定规则相互作用的若干粒子，或状态依照一定规则变化的2维格子。更多介绍可以参考 ALife是什么，为什么值得研究？（今日的头条文章）。

论文中将运行这类人工生命的程序称之为“基质” （Substrates ），相关实验涉及5种类型的人工生命基质，并设置了核心初始化参数：

鸟群（Boids） : 128只鸟，依16个最近邻居的位置和速度调节自身运动
粒子生命（Particle Life） : 6种粒子，共5000个，相互吸引或排斥
类生命元胞自动机（Life-like Cellular Automata） : 64*64的方格，每个格子的生灭状态取决于其周围8个最近邻格子。
Lenia: 一种连续时空版本的类生命元胞自动机
神经元胞自动机（Neural Cellular Automata） : 一种用神经网络做状态转移函数的连续元胞自动机

“搜索”——整体思路

在人工生命中，一个特定的初始状态 (s ₀ ) 和相互作用的规则（或状态转移的规则）（Step _θ ）决定了一个“生命”的历程，这被称为一个模拟。而一个模拟由一些参数（θ）所决定，并且不同的参数设定将产生不同的模拟结果。其中，某些参数的设定将模拟出“生命”的现象，而某些参数则不能。因此，预期说要搜索人工生命，实际上则是搜索那些能模拟出“生命”特征的参数（ θ ）。

但在以往的人工生命研究领域中，系统性探索所有潜在模拟空间的方法始终存在缺失。这种方法的缺失导致研究者在构建虚拟世界规则时不得不依赖人类直觉作为主要指导。虽然简单元素的大规模互动可能催生复杂的涌现现象，但这些现象本质上具有不可预知性，往往超出研究者的前瞻能力。因此在实际操作中，研究者通常会针对简单且预期的结果来设计模拟，这无疑限制了意外发现的可能性，同时也减少了新现象的科学发现。

假设我们能够预先定义目标涌现特征，并实现该特征的自动化搜索，将会产生怎样的突破？尽管已有研究尝试通过生存能力、复杂度指数、趣味性等复合指标来量化人工生命特征，但这些参数化标准始终难以完全捕捉人类认知中关于生命本质的微妙内涵。

随着这几年图像识别等人工智能技术的发展，海量自然数据训练的基础模型展现出类人的表征能力，甚至可能基于我们的真实世界统计数据得到一个理想化的表征。这种特性使得基础模型非常适合用于量化人类对人工生命复杂度的概念。

基础模型充当人类“眼睛”来搜索具有“生命”特征的人工生命

“眼睛”——基础模型

我们需要类似人类“眼睛”的基础模型来帮我们找到“生命”特征。在论文中引入了CLIP、DINOv2和Pixels，这里着重介绍前两个基础模型。（ASAL并不对基础模型进行设计或者训练，只是调用这些基础模型）

CLIP (Contrastive Language-Image Pretraining) （对比语言-图像预训练）是一种多模态基础模型（Foundation Model），通过对比学习方法在大规模互联网数据集上进行预训练，将图像和文本的潜在表示空间对齐，从而学习通用的跨模态表示。CLIP 提供了两个显式的编码器：图像编码器VLM_img( )和文本编码器 VLM_txt( )，分别用于生成图像和文本的嵌入向量。
DINOv2 (Distillation with No Labels) （无标签蒸馏）是一种单模态视觉基础模型，通过自监督的教师-学生框架在大规模图像数据集上进行训练，学习高质量的视觉特征表示。DINOv2 仅提供图像编码器VLM_img( )，因此无法支持 ASAL 的给定目标搜索任务，因为它缺乏跨模态的文本表示能力。

这里的重点是：基础模型经过训练，能够学习到图片和文本的意义，并把这种意义用一个高维的向量（在CLIP中是512维）表示出来，称为嵌入向量，而这些向量构成的空间叫做表示空间。如果两个图片、两个文本或一个图片与一个文本的“意义”相近，则它们被映射为相近的向量；反之，意义不同的图片和文本则被映射为差别较大的向量。比方说：一只狗的照片被映射为(0,0,1)，“一只狗”这个文本被映射为(0,0.1,1.1)，而一幅风景画被映射为(1,-2,0)。

当给到“一只狗”的文本时，模型将认为狗的照片更接近。

代码结构

论文实验的代码地址：

https://github.com/SakanaAI/asal

整个工程比较简单，目录下一共有2个核心文件夹以及核心python文件，如下图：

foundation_models文件夹下是3种“眼睛”，用于搜索生命，如下图：

substrates文件夹下就是不同人工生命的基质了。可以看到这里涵盖了之前介绍的所有基质，并且还可以基于接口继续扩展这里的类型和种类，如下图：

2. 实验方法

每一类人工生命就是一类初始状态和步进函数，其中有特定格式的参数，其生命历程依照初始状态和步进函数来确定，也就由参数来确定。

不同种类的人工生命基质（比如粒子生命与类生命元胞自动机），其参数的格式不同（粒子生命的初始状态的参数是粒子的初位置和初速度，步进函数的参数是粒子间相互吸引或排斥的强度；而类生命元胞自动机的初始状态的参数是格子的生死状态，步进函数的参数是一个格子周围有多少活格子时会生或灭）。

基质类型	初始状态参数	步进函数参数	参数作用示例
粒子生命	粒子的初始坐标 (x, y)	吸引力/排斥力强度系数 (α, β)	α=0.5时粒子相互吸引，β=1.2时相互排斥
	初始速度矢量 (vx, vy)	作用半径阈值 (r)	当粒子间距
类生命元胞自动机	网格初始激活状态 (0/1矩阵)	存活规则 (例: "23/3")	邻居2-3个存活则保持，正好3个则新生
	网格尺寸 (n×n)	邻居判定方式 (四邻域/八邻域)	八邻域计算时包含对角线相邻单元

虽然如此，下面的公式1中统一用 θ 来抽象地指代各种格式的参数。

在一类人工生命中（比如粒子生命中），确定了这些参数（粒子的初始位置、速度，相互作用强度），就是确定了一个人工生命，即一个模拟。

这里面的 Render 是渲染函数，它是规定了如何将人工生命可视化（这个公式可能引起困惑，因为公式中的Render带有角标 θ ，但是其实原文的工作中渲染函数并不包含任何可变的参数）。人工生命的状态是一组数值，要形成图片才能被视觉基础模型来“观察”。渲染函数就是把人工生命每一时刻的状态（一组数值）映射为一个图片。

实验适用了三种方法来搜索人工生命：

“符合描述”， 即给到文字，来找到符合文字描述的一张图或者一组图，并最终找到其设定的参数（ θ ）。

“变化莫测” ，即寻找那些每一时刻的状态要尽量不同的人工生命，并最终找到其设定的参数（ θ ）。

“五花八门” ，即尽可能的寻找互相有差异的一组人工生命，并最终找到这些人工生命其设定的参数（ θ ）。

“符合描述”——目标导向

原文称之为目标导向（Supervised Target），即搜寻符合文字描述的人工生命。

寻找一个人工生命，使得目标文本的嵌入向量与人工生命的图像的嵌入向量尽可能接近。

这里面RS ^T ( θ )代表了经过T时间步人工生命的图片，而VLM _img 是基础模型提供的接口，它将图片映射为一个向量（图嵌入向量），VLM _txt 是基础模型提供的另一个接口，它将文本映射为一个向量（文本嵌入向量）。尖括号代表两个向量的相似度（其实就是两个向量夹角的余弦值，即两个向量单位化之后再作内积）。最后，代表对所有时刻取平均值。（实际上，在论文提到的实际操作里，已预先设定了有限的时间步数）

可以使用颜色标记可以用文字解释上述公式：

搜索 一个模拟 ，该模拟 生成的图像 与 基础模型表示 中的 目标自然语言提示 相匹配。

“变化莫测”——开放探索

原文称之为开放探索（Open-Endedness），即搜寻变化最多的人工生命。

寻找一个人工生命，使得人工生命的图像不同的时间步的嵌入向量之间的相似度尽可能低。

借助这种新颖的功能，ASAL 搜索 一种模拟 ， 该模拟可以生成 在 基础模型表示 中历史上新颖的图像。一些初步实验表明，历史上的最近邻新颖性比基于方差的新颖性产生更好的结果。

“五花八门”——启发发现

原文称之为启发发现（Illumination），即搜寻尽可能多样的若干人工生命。

寻找一些人工生命，它们生成的图片的嵌入向量的相似度尽可能低。

设定好了目标函数，接下来就采取某种办法寻求最优的参数，这样就能得到尽可能符合目标文本的人工生命。为了实现这一目标，ASAL 搜索了 一组模拟，这些模拟 产生的图像 与 基础模型表示 中的 最近邻居 相去甚远。实验发现，最近邻分集比基于方差的分集产生更好的启发（更加的五花八门）。

实验框架总结

上图描述了ASAL的整体框架。图中ASAL使用视觉语言基础模型，通过将过程表述为三个搜索问题来发现人模拟中的人工生命。

目标导向模式（Supervised Target）：基于监督式搜索机制，ASAL通过参数空间遍历定位符合特定条件的模拟实例，其演化轨迹在预训练基础模型的表征空间中精确映射预设提示序列的语义特征。

开放探索模式（Open-Endedness）：采用动态创新评估框架，ASAL系统持续筛选具有范式突破潜力的模拟进程，其核心判据在于时间序列演化中持续产生突破历史经验边界的创新性轨迹模式。

启发发现模式（Illumination）：通过多目标优化算法，ASAL构建突破局部最优约束的模拟集群，该集合内各样本在状态空间中的拓扑分布离散度达到最大化，用来揭示非平凡的系统性规律。

3. 实验结果

三种方法的发现

每个人工生命都是动态的，读者可以到网站https://pub.sakana.ai/asal/查看视频。

“符合描述”——目标导向

给定单一目标文本（不随时间变化），在多种类型的人工生命中，找到了符合目标文本的模拟：

给定多个目标文本（分别赋予不同的时间步），找到了符合目标文本的人工生命：

“变化莫测”——开放探索

如下图所示，规则为B013456/S123 （第三行）的人工生命是最Open-Ended的类生命元胞自动机。（根据原文公布的代码，实际上此任务中是固定了一个特定的初始状态，并没有搜索初始状态）

当然，这里所说的变化最多（最Open-Ended）是根据不同时间步的图片嵌入向量之间的相似度来衡量的。

如果不用嵌入向量，直接用像素之间的差别作比较，那么变化最多的是规则为B0136/S034678 （第二行）的类生命元胞自动机。但是，这个人工生命的图片整体上看起来却没有那么多变化，尽管它在像素的层级上前后变化很大，但是给人留下的整体印象就是一团乱，毫无变化。

“五花八门”——启发发现

如下图，可找到8192个尽可能不一样的Lenia型人工生命

如下图，可找到8192个尽可能不一样的Boids型人工生命

量化人工生命

将人工生命生成的图片映射为嵌入向量，然后计算相似度，就在一定程度上量化了人工生命的表现形式。由此可以定量地判断人工生命的与其参数之间的关系是否具有线性的关系，评估人工生命的参数中哪些对于形成特定的形状更加重要，还可以观察人工生命的“生长速度”。

1. 鸟群的参数空间是非线性的

一个鸟群（背后有一组特定的参数）具有有意义的结构“a biological cell”，另一个鸟群（背后有另一组特定的参数）具有有意义的结构“a fibonacci spiral in nature”。但是，如果把它们的参数作一个加权平均，权重逐渐从一端移动到另一端，就会发现鸟群不再形成任何有意义的结构。这表明鸟群的“意义”与它的参数之间不是线性的关系。而这种非线性的程度，可以通过中间的鸟群与两端的鸟群的图片的嵌入向量的相似度来定量的表现出来。

2.粒子生命中的“多者异也”

当粒子的数目超过1000时，才能找到符合目标文本“A Caterpillar”的粒子生命。这种“符合”的程度由文本的嵌入向量和粒子生命的图片的嵌入向量之间的相似度衡量，这个相似度在粒子数达到1000时才有显著的提高。

3.找到对形状形成起关键作用的参数

通过比较扰动不同的参数对粒子生命的形状的影响，可以观察哪一个参数对形成特定形状最关键。通过对每一个参数作多次扰动，计算与目标文本的嵌入向量的相似度的标准差，来定量衡量参数的重要性，标准差最大的参数最关键。

与基础模型无关

论文中自动搜索人工生命的方法，要利用基础模型的视觉能力。这种方法的结果当然会受到基础模型的影响，但是实验表明在不同的基础模型上，该方法都表现良好，而且都明显好于单纯使用像素表征。（所谓像素表征，其实就是不作任何抽象表征，图片就用它的原始的每一个像素的颜色RGB值来代表，它也可以当作是一个向量。基础模型的表征是抽象的表征，它与像素点RGB值并没有简单直接的对应关系。仅仅使用像素表征，就好比一个人虽然能够指出每一个微观的点的颜色，却无法辨识宏观物体。）

4. 拓展

集智俱乐部曾对该论文发起一次夜读分享，以下内容为夜谈中的部分扩展。

基因与表型

人类基因组计划的完成曾引发一场科学认知的革命性期待——正如密码学家破译密文般，研究者们试图通过基因测序揭示生命本质的终极密码。这种"基因决定论"范式将DNA序列视作生命现象的解码手册，预设了从碱基对到生物性状的线性对应关系。

但随着表型组学研究的深入，科学界逐渐认识到生命系统的深层悖论：尽管基因型构成了生物发育的原始图谱，但表型表达实质上是时空动态的涌现过程。语言能力、认知特征等复杂表型无法在胚胎基因中直接读取，正如芯片的硅基结构不能预判软件系统的智能层级。

《自动搜索人工生命》到底在搜索什么

正文

1. 基本概念

“基质”——人工生命

“搜索”——整体思路

“眼睛”——基础模型

代码结构

2. 实验方法

“符合描述”——目标导向

“变化莫测”——开放探索

“五花八门”——启发发现

实验框架总结

3. 实验结果

三种方法的发现

“符合描述”——目标导向

“变化莫测”——开放探索

“五花八门”——启发发现

量化人工生命

1. 鸟群的参数空间是非线性的

2.粒子生命中的“多者异也”

3.找到对形状形成起关键作用的参数

与基础模型无关

4. 拓展

基因与表型

请到「今天看啥」查看全文