前天看到了下面这张 2024 年诺贝尔物理学奖的配图,我非常喜欢,来自于 Lachlan Gray 的分享,他是一位 AI 软件工程师和音乐爱好者,按照他的话说 — 他喜欢在复杂的事物中发现那些不容易看到的 “模型”( patterns ) 。
于是我有感而发写了这段话 — “记忆顺流而下,你我脑子皆有山水”。我只是觉得这张图和背后的科学深意都很有美感,没想到很多朋友转发。
有关于上面这张图,我引用一位叫做呢桉的朋友的阐释:
那个山的高度是什么呢?应该说每个 “山谷” 都代表一个完整的记忆,小球最终停留在哪个山谷,就代表神经网络认为这个 “输入” 最接近哪个已存储的完整记忆,所以要找的不是最低的山谷,而是最近的 “正确记忆”,就像你看到猫的一部分,你就会想到猫,而不会想到狗,即使狗可能是你更深刻的记忆 。
可能这样的类比修辞依然有点抽象,但是没关系,我们能听见物理学背后的 “音乐” 就可以了。再引用另一位朋友的留言:
损失使网络记忆,记忆使 “人” 成形。
回归到正题,今天分享的文章来自于上面提到的 Lachlan Gray 的个人博客,我看到他连续写了几篇很引发思考的好文章,在 AI 漫灌信息世界的年代,一个精心撰写和编辑的博客,就像自己的精品出版社和 “迷你亚历山大图书馆”,它的价值也会越来越大。
希望今天的这篇文章对你有启发。
上海艺术周一瞥,这个作品是有关于自然如何生成美妙的图形。
信息的 “模样”
Patterns in Information
作者:
Lachlan Gray
https://www.nobelprize.org/uploads/2024/11/popular-physicsprize2024-3.pdf
科学和工程始终紧密相连
( Science and engineering have always had tight interplay ),因此,
技术进步往往预示着科学进展的临近
( technological progress tends to foreshadow imminent scientific progress )。
如果你还不清楚的话,深度学习( deep learning )最近几年取得了巨大的进展。事实证明,它可能回答了一大批工程上的 “如何” 问题( It turns out that it may answer a critical mass of engineering "how" questions ),至少足以证明投入大量时间和资源去完善这项技术是合理的( enough at least to justify immense time and resources to perfect the technology )。从历史来看,
现存的 “为什么” 问题的答案很快也会随之出现。
深度学习的扩展不仅意味着技术转变,还预示着即将到来的观念转变,而这并不仅局限于人工智能领域
( Not only does the expansion of deep learning signify a technological shift, it also signals an imminent conceptual shift, not limited to Artificial Intelligence )。
“我们在不了解地质学的情况下挖矿,我们在几乎不了解化学知识的情况下冶铁炼钢,我们在不知道存在热力学科学的情况下制造发动机。
但这一切都很自然。在这个国家定居的男男女女每天都面临着难以解决的问题,如果人们想要生存下去,就必须用手头最近的方法迅速解决这些问题。”
历史上,人们往往先理解现象的 “本质”( essences ),再逐步构建具体的科学理论。
当发现有用的原理时,发明家和工程师会率先行动,从而带来新的技术,之后才有基础科学的发展
( When a useful principle is discovered, inventors and engineers are the first to strike. We get new technology first, fundamental science later )。
这些 “本质” 常是潜在科学理论的临时替代品( it usually turns out that "essences" are placeholders for latent scientific theories )。我们需要这些 “本质”,因为人类的创造力需要某种基础,即使这种基础不一定是根本上准确的( We need to have essences because human ingenuity requires grounding of some kind, regardless of fundamental validity )。
在18世纪的早期蒸汽机时代,人们认为 “热量” 是一种看不见、没有重量的液体,叫做 “热素”( caloric )。当物体很热时,它充满了热素;而当物体很冷时,热素则是空的。当你把一个热物体放在冷物体上时,就好像是把热素从一个物体转移到另一个物体当中一样。
人们还认为可燃物质中含有一种假设的物质,叫做 “燃素”( phlogiston ),即 “火的本质”( essence of fire )。当你燃烧某种物质时,释放出其中的燃素,这就是产生火焰的原因。
范阳注:我看过一本独特的 “科学&非科学” 杂志 Wild Alchemy Journal ,有一期的主题是 “火”,如果能找到这个刊物的朋友非常推荐阅读。
我们现在有了 “原子” 的概念模型,以及它们的基本行为如何解释这两种现象,尽管我们无法直接感知它们。
现在人们已经明白,热实际上是一种振动能量( vibrational energy )。热的物体中的原子振动剧烈,冷的物体中的原子振动较少。当它们接触时,振动会传播开来,我们感知到的就是温度变化( When they touch, the buzzing spreads out, which we perceive as a temperature change )。
我们也明白了,当某物燃烧时,实际上是一个快速的化学反应,其中释放出的能量是过程的副产品。我们现在知道,原子之间的化学键中储存着能量,如果重新排列这些化学键使其含有较少的能量,这种差异就会以热量和光的形式释放出来。
然而,如果目标是应对迫在眉睫的威胁和捕获机会,那么这些理论的细节就变得不那么重要了。
这就是为什么基础科学的突破通常会滞后于工程技术的突破。蒸汽机就是一个很好的例子。
显然,蒸汽机需要热源。尽管煤炭中没有所谓的 “燃素”,但这种科学原理的误解并不会妨碍你点燃它。对于蒸汽机而言,煤炭
为何
能产生如此强烈的热量并不重要,重要的是它确实能产生热量( For the purpose of an engine, it's not important why coal produces such intense heat, only that it does )。
燃烧的 “本质” ( The "essence" of combustion )是托马斯·纽科门( Thomas Newcomen )发明大气引擎( Newcomen atmospheric engine )所需要的全部。它解决了当时的一个重要问题 — 将水从矿井中抽出。尽管效率极低,但它能完成任务。
同样,燃烧的 “本质”( The "essence" of combustion )足以让詹姆斯·瓦特( James Watt )通过进一步控制热量流动来改进设计。当他增加了一个冷凝器时,发动机减少了自身的能量损失,使其足够高效,能够摆脱矿井的限制,持续推动了工业革命的进程。
直到 19 世纪,卡诺、克劳修斯和玻尔兹曼等人的贡献,我们才对我们一直在使用的原理有了基本的了解,这为我们最终确立了热力学定律( laws of thermodynamics )。
我们终于能够用温度、压力和熵来解释发动机,而这些又可以通过更底层的基本粒子的平均运动来解释
( We could finally explain engines in terms of temperature, pressure, and entropy, which in turn, we could explain in terms of the average motion of underlying particles )。
事实证明,我们用来建造发动机的 “本质” ,只是对现实中一个简单且本质是透明的方面的有用的 “表象”( It turns out the "essences" we employed to build the engine were helpful veneers over a simple and fundamentally transparent aspect of reality )。
当你提到“Lambda”、“ChatGPT”、“Bard”或 “Claude” 时,你提到的并不是模型权重,而是它们的数据集。
——jbetker,《 AI模型中的“它”是数据集 》
正如我们理解并利用燃烧的 “它 ”来制造发动机一样,最近的人工智能发展背后也有深度学习的 “它”。
它与理查德·萨顿( Richard Sutton )痛苦的教训( bitter lesson )有关:
利用计算的通用方法最终是最有效的,而且效果显著
( that general methods that leverage computation are ultimately the most effective, and by a large margin )。
换句话说,
当你拥有大量数据时,关键问题不是 “怎么做”,而是做 “多少”
( when you have a lot of data, the fruitful question isn't "how", it's "how much" )。这表明,
从长远来看,人工智能的进步不会受到我们创造发明能力的限制,而是由数据和计算资源的强度和供应量所限制
( AI progress won't be bounded by our inventiveness, but by the robustness, and supply of data and compute )。
这一思路显然引导我们走到了一个有趣的地方。近年来,我们观察到,深度学习模型的确随着规模的增大而变得更强大。同时,也发现为了让模型真正发挥作用,需要付出大量的精细调教。
我们将信息分阶段地 “烘培进” 模型中( We bake information into the model in phases )。我们通过数周或数月的时间,从庞大的数据量中打造出基础模型( We forge a base model from huge volumes of data over the course of weeks or months )。我们知道数据的混合方式至关重要,因此我们会精心搭配真实数据和合成数据( We know that the mixture of data matters, and we blend it thoughtfully with real and synthetic parts to target what we want from it ),以实现我们期望的目标。我们清楚数据的特性会决定模型的优点和性能,不同的数据对不同的模型也有不同的效果( We know that the character of the data will dictate the model's strengths and nature, and that different data works better for different models )。
我们预计基础模型会比较笨重。我们有一些技巧和程序来将它们与我们 “对齐” 成能够遵循人类指令、提供给我们帮助、无害且真实的语言助手。我们还有一整套精细的技术,进一步凝练或稀释模型的行为,打磨或锐化其特征。
在训练模型时,我们知道如何衡量其性能与模型大小、数据量和训练计算量的关系。我们可以估算这些量之间的最佳比例;然后我们分配时间和资源来训练模型,再以大致上最小的成本出售对模型的访问权限。
我们有不同的方法来进行基准测试( We have different ways to benchmark ),并大致衡量模型的 “能力”( capabilities )。我们知道,不同的技能和行为之间可能会有权衡。最有参考价值的评估往往来自 Elo 评分( Elo scores ),或者更好的是,真实用户的口碑评价( word of mouth )。
我们正在掌握这个事物,但理论与实践之间仍然存在着惊人的差距。
科学框架往往难以发现,并不是因为它们复杂,而是因为直观但错误的假设使我们无法看到正确的答案。
深度学习为何有效?如果你询问周围的人,可能会听到人工神经网络 “捕捉复杂模式”,“学习越来越抽象的特征”,“逼近复杂分布”,以及 “推广到新数据” ( Why does deep learning work? If you ask around you may hear that artificial neural networks "capture complex patterns", "learn increasingly abstract features", "approximate complex distributions", and "generalize to new data" )。
这些都是以数学为基础的真实陈述。然而,我们应该小心不要将神经网络理论误认为就是科学理论( a scientific theory )。
这并不是说神经网络理论是错误的,或者它不是科学理论的一部分。而是说,特征、分布和流形是过于抽象的概念。
深度学习专业知识的艺术性表明,在我们目前的图景中,仍然缺少有形的、以物理为基础的方面
( The artesian nature of deep learning expertise suggests there are still tangible, physically grounded aspects missing from our current picture )。
神经网络理论的某些元素( Elements of neural network theory )在某些方面可能类似于萨迪·卡诺的热机( Sadi Carnot's heat engine )
。
卡诺循环( The Carnot cycle )是描述物理上最有效热机的理论模型。尽管它是在假设 “热素”( caloric )物质的前提下发展起来的,但它仍然是正确的,并被传授至今。到了那个世纪晚些时候,只需稍加改动,它就能轻松融入热力学和统计物理学的广泛思想。
在过去几年里,我们收集了大量深度学习的 “如何” 的知识,却没有得到与之相称的 “为什么” 的答案( we've gathered an astounding amount of deep learning "hows", but not a proportional amount of clear "why's" )。
如果一项全新的、横空出世的技术不能在我们的物理现实模型中的某处触发连锁反应,那将是一件非常奇怪的事情。
( It would be pretty weird for a new, sweeping technology not to trigger a cascading change somewhere in our model of physical reality )。
深度学习的有效性暗示着我们正在找出 “自然” 的一个基本属性
( The effectiveness of deep learning hints that we are triangulating a fundamental property of nature )。
以一种诗意的方式来看,当今人工智能的许多根源来源于统计物理学;这其实是蒸汽机发展带来的果实
( In a poetic way, many roots of AI stem from statistical physics; fruit of the steam engine )。
今年的诺贝尔物理学奖实际上授予了约翰·霍普菲尔德( John Hopfield )和杰夫·辛顿( Geoff Hinton ),因为他们利用物理学工具构建了帮助奠定今天强大的机器学习基础方法。
霍普菲尔德网络( Hopfield Networks )和玻尔兹曼机( Boltzmann Machines )确实是我们理解生成过程、模式识别和记忆的核心组成部分,无论是在 “生物的真实神经网络” 还是人工神经网络中。
换句话说,机器学习与人们通常认为的物理学相距甚远
(machine learning is a fair distance from what people typically think of as physics)。
再加上杰夫·辛顿并非严格意义上的物理学家的事实,
这个诺贝尔奖可以看作是对物理学家为主流 AI 研究做贡献开了 “绿灯”,而无需偏离 “物理学” 的旗帜。这为研究人员提供了令人兴奋的自由度,并可能为 AI 带来新的视角
( attract new perspectives on AI )。
我感到有必要分享邓肯·瓦茨( Duncan Watts )的这段话: