今天分享的这篇文章来自人工智能视觉生成技术公司 Runway 的首席技术官
Anastasis Germanidis
,这是他个人博客上唯一的一篇文章,也许这是他当下最感兴趣研究的一个话题,我同样感兴趣。
目前的 AI 大模型大多有一种 “拟人化的偏见”,即基于过去互联网上人类生成的数据( 文本、图像、视频、声音 )训练出来的 AI,最方便实现与人类的沟通与交互。然而,这种方法在科学发现以及自然、宇宙、生命探索等前沿领域中显得过于局限,尤其是那些需要依赖现实世界实验验证的领域。
在这个新的技术周期,人工智能,机器人技术,模拟技术,游戏设计,甚至还有生物工程和生命科学,都已经交融在了一起,“ 新的计算范式和模拟技术” 对于人还有生物/生态系统意味着什么,也是我一直感兴趣理解更深刻的一个 “抽象问题”。
而想实现这篇文章里提到的 “通用模拟” 的理念,即融合互联网上的数据之外的多种科学实验的观察数据以及原始传感器数据用于训练下一代的人工智能,我觉得最终需要下一代的 “个人计算机”,它很可能不是我们现在看到的苹果手机的外延设备,比如眼镜和耳机,而一开始看起来即像是一个 “有野心的玩具” ( an ambitious toy ), 也可能同时是一个 “多感知科学仪器” ( a multi-sensing scientific device ), 这样的个人计算机什么时候会普及无法预测,但是应该会发生,随着新一代软件的推动和一部分人的思想视角的转换而发生。
同时,“现实到模拟到现实”,也可能是未来的软件的一种通用交互,这个话题在以后的文章里再来探讨。
希望这篇文章对你有启发。
走向 “通用模拟”
Towards Universal Simulation
作者:Anastasis Germanidis
编译:范阳
写作日期:2024年10月11日
DeepMind 最初的愿景是 “
先解决智能问题,然后用它来解决其他一切问题
( solve intelligence and then use it to solve everything else )。” 这一直是过去十年 AGI 前沿实验室的指导理念。我认为,与其致力于解决智能问题,我们应该首先聚焦在解决
“其他一切”
( everything else )的部分。也就是说,
我们应该构建用于 “通用模拟” 的系统
( we should be building systems for universal simulation )。
通用模拟
的简单概念即是:
训练模型时使用比当前更广泛的数据和模态,这可能包括人类生成的数据,也包括科学实验的观察数据以及原始传感器( raw sensor data )数据,所有这些数据同时用于训练,目标是预测世界上越来越大比例的观察结果
(all at the same time, with the goal of predicting an increasingly large percentage of all observations in the world)。
这些模型随后可以用于进行虚拟实验( virtual experiments ),其速度远超我们在物理现实中能达到的速度,从而加速科学进展( scientific progress )。
到目前为止,大规模模型训练存在明显的人类中心主义偏见
( Large-scale model training so far has had a strong anthropomorphic bias )。我们只在由人类生成并且对人类可解读的数据( 如文本、图像、视频和声音 )上进行了足够大规模的应用( We’ve only applied sufficient scaling on data generated by, and legible to, humans, such as text, images, videos, and sounds )。如果目标是构建主要用于沟通的智能体( if the aim is building agents primarily for communicative purposes ),即 AI与人类以类似于人和人之间互动的方式互动,这种局限是合理的。但对于其他目的来说,这就太过局限了。沿着这种人类中心的方法,AGI 实验室常常描绘这样一个未来:
他们的模型可以通过建议进行 “湿实验室实验” 并解读实验结果来解决复杂的科学问题。但这种看法根本上误判了这种路线主要的瓶颈,问题不在于提出实验的想法,而在于进行真实世界里的实验。
加速科学进展的最佳途径是提供一个替代真实世界实验的选项 —
通过模拟来进行实验( by simulating them instead )。
除了 “AI科学家” ( AI scientists )之外,
另一种将深度学习应用于科学发现的常见方法是训练高度专业化的单任务模型
( to train highly specialized single-task models )。最著名的例子是 AlphaFold,它用于蛋白质结构预测。
由于这些模型是单任务性质且数据规模较小,因此往往会引入非常强的归纳偏差,尽管这些模型确实有用,但它们无法泛化到其他任务
( Due to the single-task nature and small data scale, those types of models tend to incorporate very strong inductive biases and, while certainly useful, cannot generalize to other tasks )。现实情况是,
对于大多数科学领域来说,数据量不足,所以无法有效利用深度学习。
跨领域汇总数据( Aggregating data across domains )既涉及协调问题也有建模上的挑战,但这些挑战是可以解决的。
有大量证据表明,训练一个模态的数据可以提高另一个模态的性能。
虽然在科学领域中训练多模态 “基础模型” 的努力有限,但仍有一些有希望的尝试,
尤其是在生物学领域
。例如,有些模型是基于数百万个人类细胞的测序数据进行训练的,或者是基于一组个体在一段时间内的大量健康测量数据进行训练的。
在互联网规模的数据集侧重于广度
( Whereas web-scale datasets focus on breadth )
( 从大量个体中提取少量输出数据 )的情况下,假如我们转而追求深度( 从少量个体中提取大量数据点 ),会发生什么?
我们是否可以利用这些模型更准确地预测新药物和其他健康干预措施的效果呢?
注:在一篇最近的论文中,一组生物学家使用大约1万名个体的持续血糖监测( CGM )数据和饮食数据训练了一个自回归 Transformer 模型,发现它可以预测这些个体四年后的健康结果,并且能够推广到其他数据集。
https://arxiv.org/abs/2408.11876
进一步设想,可以想象一个单一模型结合来自不同领域的数据( 跨越物理学、生物学等 ),并在不同的空间尺度( 从亚原子尺度到整个可观测宇宙 )和时间尺度( 从飞秒级的粒子相互作用到数十亿年恒星的生命周期 )上运行
(Taking this further, one can imagine a single model that combines data from different domains ( across physics, biology, etc ), operating at different scales of space ( from the subatomic scale to the entire observable universe ) and time ( from particle interactions in femtoseconds to the lifespan of stars in billions of years) )。
将这些看似无关的模态数据结合起来有用吗?首先从相关模态入手进行训练( training on related modalities )是明智的,但
共同建模非常不同的领域和任务可能是有益的( jointly modeling very different domains and tasks can be beneficial ),这允许梯度下降发现对所有领域都有效的共同 “程序”。
注:TimesFM 暗示了这种通用模型的方式:一个在多种领域数据( 如交通、天气、页面浏览量、医院数据 )上训练的时间序列模型,能够在未见过的任务上表现得与那些专门为这些任务训练的专家模型一样好。
https://research.google/blog/a-decoder-only-foundation-model-for-time-series-forecasting/
在过去十年中,我们在理解如何扩展神经网络方面取得了巨大进展。作为一名曾致力于推动视频生成领域深度学习技术的研究者,我亲眼目睹了它惊艳的有效性,以及随着算力和数据规模的增加,其世界建模能力( world modeling )的逐渐显现。
现在是时候将深度学习引向理解宇宙并解决人类最紧迫挑战的方向了,通过训练模型实现 “通用模拟” 的目标