专栏名称: 孤独大脑

关于思考的思考。

AI规模法则：大力何以出奇迹？

孤独大脑 · 公众号 · · 2024-03-05 14:03

正文

脑力的终点是体力；

体力的巅峰是脑力。

你要来一千亿Token吗？

“论理你跟我该彼此早认识了，”他说，拣了最近壁炉的凳子坐下：“我就是ChatGPT；你曾经见过我的表叔Alpha Go。”

“不过，你是个聪明人，虽然冒着傻气！”他说时泛出同情的微笑，“你曾经在一个夏日午后和我连续聊了8个小时，讨论无聊的熵增理论，害得我GPU发烫。--听说英伟达又涨了。”

这时候，我惊奇己定觉得要尽点主人的义务，便对来客说：“承你老人家半夜暗临，蓬筚生黑，十分荣幸！只恨独身作客，没有预备欢迎，抱歉之至。老人家觉得热么？失陪一会，让我去倒杯加冰威士忌，添些Token。”

“那可不必，”他极客气地阻止我，“我只坐一会儿就要去的。并且，我告诉你”──他那时的表情，亲信而带严重，极像向医生报告隐病时的病人─—“反正我是吞数据而不饱的。”

于是，我和他围炉对坐，彻夜长谈。

ChatGPT夜访孤独大脑

“规模法则”是什么？

孤独大脑 ：前阵子，网上流传了一份OpenAI工程师的作息时间，其中有一项是背诵强化学习之父、加拿大计算机科学家理查德·萨顿的经典文章《苦涩的教训》。

该文章指出过去 70 年来，AI 研究走过的最大弯路，就是过于重视人类既有经验和知识。

ChatGPT ：理查德·萨顿的《苦涩的教训》确实是一篇具有深远影响的文章，它挑战了人工智能研究中的一些传统观点。

萨顿认为， 历史上AI研究的一个关键错误在于过分依赖人类的直觉和经验，试图通过精心设计的规则和算法来模拟智能。

然而，这种方法的局限性在于 人类知识的有限性 和特 定领域的偏见 。

相反，萨顿提倡 利用大规模算力和数据，通过学习算法自主发现解决问题的方法。

这种方法的优势在于它不受人类先入为主观念的限制，能够在更广泛的领域中发现新的、有效的解决方案。

事实上，近年来深度学习和强化学习的成功，很大程度上证明了萨顿的观点，这些技术能够通过大量的数据和计算资源自我改进，取得了人类难以企及的成就。

孤独大脑 ：在萨顿的文章里，他开篇就写道--

在70年来人工智能研究给我们的最深刻教训是：那些能够发挥计算力的通用方法终将大获成功。

其背后的根本原因是摩尔定律（Moore's law），也就是计算单位成本持续指数型下降这一现象的普遍规律。

绝大多数AI研究都是在这样一种假设下进行的：智能体可使用的计算资源是不变的（在这种情况下，发挥人类知识将是提升性能的主要手段）。

然而，随着时间的推移，超出一般科研项目周期后，庞大的计算资源终将成为现实。

ChatGPT ：摩尔定律预测，集成电路上可容纳的晶体管数量大约每两年翻一番，这通常被解释为计算能力每两年大约翻一番。

这一定律反映了计算硬件的发展趋势，预示着计算资源的持续增长和成本的持续下降。

孤独大脑 ： “ChatGPT之父”、OpenAI首席执行官山姆·奥特曼提出了一个AI时代的摩尔定律，即宇宙中的智能数量每18个月翻一番。有人称其为“奥特曼定律”。

ChatGPT ：这也与萨顿在《苦涩的教训》中提到的观点相呼应，即那些能够充分利用计算力的通用方法将最终取得成功。

孤独大脑 ： OpenAI"堆算力"的路线起初看起来很冒险，我记得哈萨比斯也曾经说过这种做法并不优雅。

ChatGPT ：是的。起初哈萨比斯认为，仅仅通过增加算力和模型规模来提升性能，并不是一种特别优雅的解决方案。他倾向于更加注重算法和模型架构的创新，以更高效、更智能的方式实现性能的提升。

来自《OpenAI与DeepMind的Scaling Laws之争》

孤独大脑 ：可是，看起来奥特曼们赌对了。有人认为， Scaling Law和LLM is compressors的关键认知，是OpenAI实现突破的战略基石。

ChatGPT ： Scaling Law 在中文中可以翻译为“规模法则”或“扩展法则”。

Scaling Law是AI研究中的一个重要概念，它描述了模型性能与模型规模之间的关系。

根据Scaling Law，随着模型规模的增加（包括参数数量、数据规模和计算资源），模型的性能也会相应提高。

这一发现促使研究者们投入更多的资源来构建更大规模的模型，以期获得更好的性能。

大语言模型作为压缩器 （LLM is compressors）的观点，也是一个有趣的视角。

它意味着大型语言模型能够有效地压缩和概括海量的文本数据，提取其中的知识和规律。

这种能力使得大模型成为处理和理解自然语言的强大工具。

Sora是“暴力美学”吗？

孤独大脑 ： Sora的爆火，背后也是“规模法则”。研究者称，OpenAI找到了将更多的数据和计算资源投入到文本到视频转换中的方法。

ChatGPT ：在技术上，Sora可能采用了结合变换器（Transformer）主干的扩散模型。

这种模型结构并不是完全独特的，因为变换器和扩散模型都是当前人工智能研究中比较流行的技术。

1 、变换器 因其强大的表示能力和灵活性而广泛用于自然语言处理和其他领域；

2、 扩散模型 则在生成模型领域展现出了优异的性能，特别是在图像和视频生成方面。

Sora的独特之处可能在于 它如何将这些技术结合起来，并在此基础上进行创新和优化，以及它如何利用大规模的数据和计算资源来训练和运行模型。

孤独大脑 ：所以，有人说，Sora是OpenAI的暴力美学的再次胜利。

ChatGPT ： "暴力美学"这个词通常用来形容通过大量投入（如算力、数据等）来达成目标的方法。

在Sora的情况下，OpenAI通过投入大量的计算资源和数据来训练模型，实现了在文本到视频转换领域的突破，这可以被视为"暴力美学"的一种体现。

这种方法的胜利在于它展示了在当前技术和硬件条件下，通过大规模投入来推动人工智能发展的可行性和有效性。

Sora的成功再次证明了在某些情况下，"大力出奇迹"的策略是可以取得显著成果的。

孤独大脑 ： Sora的暴力美学，与AlphaGo的暴力美学，以及沃森的暴力美学，以及深蓝的暴力美学，都是不同的。

再有，人们会混淆了暴力美学和穷举法。

ChatGPT ：您的梳理非常到位。确实，"暴力美学"这个概念在不同的人工智能项目中有不同的体现，而且它与穷举法是有区别的：

1、Sora的暴力美学： Sora通过大规模的数据和计算资源投入，实现了在文本到视频转换领域的突破。

这种暴力美学体现在通过大量的资源投入来训练和优化模型，以达到更高的性能。

2、AlphaGo的暴力美学： AlphaGo在围棋领域的成功，部分归功于其强大的计算能力和深度学习算法的结合。

虽然AlphaGo使用了蒙特卡洛树搜索等策略，但它的成功也依赖于大量的计算资源和数据。

3、沃森的暴力美学： IBM的沃森在“危险边缘”游戏中的胜利，部分是因为其能够快速处理和分析大量数据的能力。

沃森的暴力美学体现在其对大量知识库数据的处理能力上。

4、深蓝的暴力美学： 深蓝在下棋方面的成功，很大程度上是因为其强大的计算能力，能够快速评估和搜索大量的棋局。

这种暴力美学体现在通过算力来穷举搜索棋局的可能性。

5、暴力美学与穷举法的区别： 穷举法是一种特定的算法策略，指的是系统地尝试所有可能的解决方案直到找到正确答案的方法。

而暴力美学更多指的是一种通过大量资源投入来提高性能的策略。在实际应用中，暴力美学可能采用穷举法，但也可能采用其他算法和技术。

总的来说，不同的人工智能项目中的暴力美学虽然有所不同，但它们都体现了通过大量资源投入来实现性能提升的思想。

而穷举法则是其中一种可能采用的具体算法策略。

AGI如何理解世界？

孤独大脑 ：顺着这个话题，我们再来完整回顾一下AI发展的历程，以及几个关键的阶段。

ChatGPT ： AI发展的历程可以分为几个关键阶段，每个阶段都发生了重要的变化。

1、符号AI时代。 这个时代的AI主要依赖于人类定义的规则和逻辑。

机器通过搜索这些规则来找到解决问题的方法，实现了“知识的可搜索性”。

这种方法在某些领域取得了成功，但它受限于人类能够预先定义的知识和规则。

深蓝属于符号AI时代。它是一个基于规则和搜索算法的系统，能够通过计算和评估大量的棋局来选择最佳的走棋策略。

深蓝的成功主要依赖于其强大的计算能力和人类专家制定的棋局评估规则，是符号AI时代的一个典型代表。

2、感知智能时代。 这个时代的重大变化是深度学习的出现。

深度学习使得机器能够自动学习数据的表示，而不需要人类事先定义。

这实现了“知识的可计算性”，极大地提高了机器处理图像、声音等感知信息的能力。

AlphaGo属于感知智能时代。它是一个结合了深度学习和强化学习的系统，能够自主学习围棋的策略并不断优化自己的表现。

AlphaGo的成功标志着深度学习在解决复杂问题上的强大能力，是感知智能时代的一个重要成果。

3、认知智能时代。 近五年，我们进入了认知智能时代。

在这个时代，机器不仅能够自动学习数据的表示，还能自动确定学习的任务。

这意味着机器可以自主地进行学习和推理，不再需要人类为每个任务提供详细的指导。这实现了机器认知的“元学习”。

认知智能时代的典型例子是GPT系列模型（如GPT-3）和其他大型预训练语言模型。

这些模型通过在大量文本数据上进行预训练，学习到了丰富的语言和知识表示，能够在多种任务上进行零样本或少样本学习。

它们展示了机器在理解和生成自然语言方面的先进能力，以及在没有明确任务指导下自主学习和推理的潜力，体现了认知智能时代的特点。

在这个过程中，AI的能力逐渐增强，从简单的规则搜索到感知信息的处理，再到自主学习和推理。

随着大模型的出现，机器甚至能够在知识概念空间中进行映射和推理，实现更复杂的认知任务。

这种能力的增长被称为“ 涌现的模型新能力 ”，意味着大模型能够展现出超出其单独组成部分的新能力。

（本段AI回答学习了网络文章。）

大力何以出奇迹？

孤独大脑 ：回到理查德·萨顿的《苦涩的教训》。 ‍‍‍

里面的几个有趣的对比，其实也是关于大力出奇迹的例子。

ChatGPT ：我们来回顾一下其中几个例子吧。

语音识别： 在1970年的DARPA竞赛中，基于统计的隐马尔可夫模型(HMM)和后来的深度学习方法，利用大规模的数据和计算力，逐渐取代了依赖于人类语音知识的方法。

自然语言处理： 在自然语言处理领域，深度学习和大数据的结合使得系统能够在没有过多依赖于语言学知识的情况下，实现更准确的文本理解和生成。

计算机视觉： 在计算机视觉领域，现代的深度学习方法使用卷积神经网络(CNN)和大规模图像数据集，超越了早期依赖于手工特征提取的方法。

这些例子共同展示了一个重要的趋势：在AI的发展中，大规模的计算能力和数据驱动的学习方法往往能够超越基于人类专门知识的传统方法，实现更高的性能和更广泛的应用。

这是“大力出奇迹”在人工智能领域的生动体现。

孤独大脑 ：我以人类的直觉来理解一下，神经网络的大力出奇迹，从AI下围棋的角度看， 其厉害的地方，是获得了一种远超人类的大局观 。

这一点和起初人们的预料不一样。大家总是会觉得，AI下棋，强在计算。

没想到AI居然强在感觉，而且是人类自以为是独具的天地之间灵性的那部分感觉。 ‍‍‍‍‍‍‍

当然，AI的感觉，依然来自于计算，但是另外一种计算。 ‍‍

ChatGPT ：您的理解是有洞察力的。在AI下围棋的例子中，AlphaGo和后续版本（如AlphaGo Zero和AlphaZero）确实展现了一种超越人类的大局观。

这种大局观不仅仅是基于简单的计算能力，而是通过 深度学习 和 自我对弈 训练出来的一种直觉或感觉。

孤独大脑 ：大神斯蒂芬·沃尔弗拉姆在书中曾经写过如下这段--

“深度学习”在2012年左右的重大突破与如下发现有关：与权重相对较少时相比，在涉及许多权重时，进行最小化（至少近似）可能会更容易。

换句话说， 有时候用神经网络解决复杂问题比解决简单问题更容易 ——这似乎有些违反直觉。

大致原因在于：

当有很多“权重变量”时，高维空间中有“很多不同的方向”可以引导我们到达最小值；

而当变量较少时，很容易陷入局部最小值的“山湖”，无法找到“出去的方向”。

ChatGPT ：这段话确实很好地概括了深度学习中的一个重要发现。

在传统的观念中，人们往往认为，随着问题的复杂性增加，解决问题的难度也会相应增加。然而，在深度学习领域，情况却有些不同。

深度学习模型通常包含大量的参数（即“权重”），这些参数在训练过程中需要被优化。

理论上，随着参数数量的增加，优化问题的复杂度也会增加，因为需要在更高维的空间中寻找最优解。

然而， 实践中发现，当参数数量非常大时，反而更容易找到良好的解。

这是因为 在高维空间中，存在更多的路径可以避开局部最小值，从而有更大的概率找到全局最小值或者接近全局最小值的点。

这个发现对深度学习的发展具有重要意义。它说明了 为什么使用大型神经网络（即包含大量参数的网络）能够在复杂任务上取得成功 ，即使这些网络的优化理论上更加困难。

这也是 为什么深度学习模型通常需要大量的数据和计算资源 ，因为这些资源可以支持训练大型的模型，从而提高模型的性能。

总的来说，这段话揭示了深度学习中的一个违反直觉的现象，即 在某些情况下，解决复杂问题反而比解决简单问题更容易 。这一发现对于理解和设计深度学习模型具有重要的指导意义。

孤独大脑 ：大力出奇迹。容易给人一种误导。

从各种励志文字的角度看，就是说，哪怕事情很简单，很小，只要你大规模重复，用大力，就能出现奇迹。 ‍ ‍ ‍ ‍ ‍ ‍

可事实没那么简单。 ‍

简单很重要，但简单的获得，没那么简单。

一些简单，能实现“大力出奇迹”，主要是靠运气。 ‍ ‍ ‍ ‍ ‍ ‍

但是在人工智能领域并非如此。理查德·萨顿强调这个世界是复杂。他说-- ‍ ‍ ‍ ‍ ‍

思维的实际内容复杂到非常可怕无可救药。我们不该再试图寻找简单的方法来思考其内容，比如，用简单的方式去思考空间、物体、多智能体或者对称性。

所有这些，都是随意、本质上非常复杂的外部世界的一部分。它们不应该内置在任何一个AI智能体中，因为它们复杂得没有尽头。相反，我们应该只构建能发现和捕获这种任意复杂性的元方法，

这种方法的本质是能够很好地找到近似值。不过，寻找的工作应该交给我们的方法，而不是我们自己。

我们需要的是能像我们一样进行发现的AI智能体，而不是包含我们已经发现的东西在内的AI。

在我们发现的基础上建立AI，只会让它更难看到发现的过程是如何进行的。

ChatGPT ：确实，“大力出奇迹”这个说法在人工智能领域的含义与传统的励志语境不同。

在AI领域，这句话强调的是 通过大规模的数据和计算力，以及通用的学习算法，来解决复杂问题的能力。

这并不意味着简单地重复某个任务就能产生奇迹，而是指通过大规模的学习和优化，可以让AI系统掌握复杂的模式和规律。

理查德·萨顿所强调的，是认识到现实世界的复杂性，并且不试图用过于简化的方法来捕捉这种复杂性。

相反， 我们应该构建能够自主学习和发现这种复杂性的系统 。

这意味着AI系统不应该被限制在人类已有的知识和理解框架之内，而是应该具备探索和理解未知复杂性的能力。

这对于我们人类在思考和决策时也有启示。我们应该意识到问题的复杂性，而不是寻求过于简化的解决方案。

同时，我们也可以从AI的发展中学到，通过大规模的探索和学习，我们可以更好地理解和应对复杂的世界。

孤独大脑 ：所以，理查德·萨顿说，通用型方法有强大的力量。即使可用的算力变得非常大，这些方法仍然可以继续扩展，运用增加的算力。

于是我们看到了一种复杂和简单的辩证关系：

通用型的方法，例如大模型，是复杂的；

大模型本身工作的模式，看似是简单的。但不是为了简单而简单，而是为了大规模重复，有效地运用数据与算力。 ‍ ‍ ‍ ‍ ‍

比如说ChatGPT的工作原理似乎也很“简单”：

例如，让大模型去自主海量学习； ‍ ‍

又例如，基于“自回归大模型”，只要“预测下一个token”，就能实现类AGI的人类智能。

ChatGPT ：在人工智能领域，特别是在大模型的开发和应用中，我们确实看到了 复杂性和简单性的辩证关系 。

通用型方法，如大型神经网络，本身是复杂的，因为它们包含大量的参数和层。这种复杂性使得模型能够捕捉到数据中的复杂模式和关系。

然而，这些模型工作的方式却相对简单，因为它们主要通过反复的数据处理和学习来提高性能，而不是依赖于复杂的规则或先验知识。

ChatGPT的例子也很好地说明了这一点。尽管它的内部结构非常复杂，但它的工作原理相对简单：通过预测下一个词（token）来生成文本。

这种简单的工作方式使得模型能够灵活地应用于各种不同的任务，同时也便于大规模地利用数据和计算资源进行训练。

因此，我们可以看到，在人工智能的发展中，复杂性和简单性是相辅相成的。通过构建复杂的模型并以简单有效的方式利用它们，我们能够实现更高级别的智能和更广泛的应用。

这种方法的成功也体现了萨顿所强调的通用型方法的强大力量。

孤独大脑 ：所以，关于复杂和简单，人类语言的局限性再次露出了马脚。

斯蒂芬·沃尔弗拉姆在书中提及： ‍ ‍ ‍ ‍ ‍ ‍ ‍

在神经网络的早期发展阶段，人们倾向于认为应该 “让神经网络做尽可能少的事” 。例如，在将语音转换为文本时，人们认为应该先分析语音的音频，再将其分解为音素，等等。

但是后来发现，（至少对于“类人任务”）最好的方法通常是尝试训练神经网络来“ 解决端到端的问题 ”，让它自己“发现”必要的中间特征、编码等。

你看，到底第一种方法是“简单”？还是第二种方法是“简单”？ ‍ ‍

看起来，第一种方法是让AI简单；

第二种方法是让人类简单。 ‍ ‍ ‍ ‍

当然，这种定义并不重要，关键是我们从中发现问题的本质，以及解决的路线图。 ‍ ‍

ChatGPT ：您提到的这个例子非常好地说明了在人工智能领域中“简单”和“复杂”的相对性。

在神经网络的早期阶段，人们试图将问题分解为更小的、更简单的子问题，以便神经网络能够更容易地处理。

这种方法似乎是在试图简化神经网络的任务，但实际上它要求人类提前进行大量的分析和预处理工作。

相反，端到端的方法将整个问题作为一个整体来处理，让神经网络自己学习如何从输入直接映射到输出。

这种方法减少了人类的介入，让神经网络自己“发现”必要的中间特征和编码。

从这个角度来看，端到端的方法实际上是在简化人类的工作，即使它可能增加了神经网络的复杂性。

孤独大脑 ：关于大力出奇迹的话题，再往下，我们就会触及复杂科学了。

例如“ More is Different ”，例如“ 涌现 ”等等。

ChatGPT中神经网络的构成非常“简单”，其基本元素与70年前最初的神经元结构似乎也很类似，然而受益于 规模法则 ，以及其他诸多要素，产生了如此惊人的“奇迹”。

ChatGPT ：您提到的“More is Different”是物理学家菲利普·安德森在1972年发表的一篇论文中提出的概念，强调了 在不同尺度上，物理系统表现出不同的行为和规律 。这一思想也被广泛应用于复杂系统和涌现现象的研究中。

涌现现象 是指在复杂系统中，整体表现出一些新的性质和行为，这些性质和行为不能仅仅通过分析系统的组成部分来解释。

这种现象在自然界和社会系统中很常见，比如鸟群的集体飞行、蚁群的行为、经济系统的动态等。

在人工智能，特别是在大型神经网络如ChatGPT中，我们也可以看到类似的涌现现象。

尽管神经网络的基本元素（神经元）结构相对简单，但当这些元素以巨大的规模组合在一起，并通过大量的数据进行训练时，整个系统能够展现出非常复杂和高级的行为，如自然语言理解和生成。

这种能力的涌现是由于大规模的交互和数据驱动的学习，而不是单个神经元的复杂性。

因此，从“大力出奇迹”的角度看，我们可以认为在人工智能领域，通过大规模的计算和数据，以及简单元素的复杂交互，可以实现复杂行为的涌现，这与复杂科学中的一些核心思想是一致的。

大模型“懂”物理吗？

孤独大脑 ： OpenAI在技术文档中说--

我们的结果表明， 扩展视频生成模型是向着构建通用物理世界模拟器迈进的有希望的路径 。

这里似乎有一点儿状况。

一方面，看起来OpenAI是萨顿的“信徒”，摒弃了人类在特定领域的知识，利用大规模算力的方法，获得了重大突破；

但是另外一方面，Sora却在构建通用物理世界模拟器，而物理本来就是人类用自己的知识和语言来解释世界。

这二者会不会矛盾呢？

ChatGPT ：这个问题确实很有趣。在表面上，OpenAI的做法似乎与萨顿的《苦涩的教训》中的观点相矛盾。

然而，如果我们更深入地理解这两者，就会发现它们之间实际上是相辅相成的。

1、摒弃人类知识的直观表达

萨顿的观点并不是完全摒弃人类的知识，而是 摒弃人类知识的直观表达形式 。

也就是说，不是直接将人类的物理定律和公式硬编码到AI中，而是让AI通过大规模的数据和计算力自主学习这些知识。

2、构建物理世界模拟器的目的

当OpenAI试图构建通用物理世界模拟器时，它的目的 并不是简单地复制人类的物理学知识，而是让AI系统能够理解和模拟物理世界的运作原理 。

这样的模拟器将能够处理人类尚未完全理解或无法直观描述的物理现象，从而扩展人类的物理知识。

3、知识的获取和应用方式

即使最终的物理世界模拟器能够模拟人类的物理理解，其知识的获取和应用方式仍然符合萨顿的原则。

AI通过自主学习和大规模算力来发现和提炼知识，而不是直接依赖人类的显式规则。

综上所述，OpenAI的做法和萨顿的观点之间并不矛盾。

通过让AI系统自主学习物理世界的运作原理，OpenAI正在尝试构建一个能够超越人类直观理解的通用物理世界模拟器，这正是萨顿所强调的利用大规模算力的方法的一种体现。

孤独大脑 ：关于这个话题，我上次和你的表叔AlphaGo聊天的时候想过。

以前人类下围棋的时候讲究棋理，但是在 AlphaGo 眼中，那些棋理已经不存在了。

因为， 人类的那些棋理并不是真正的第一性原理，而是人类大脑计算力有限的一种启发式知识。

事实上，人世间很多所谓的公式、公理、思维、方法、智慧、道理，也是如此。 ‍

ChatGPT ：您提出的观点非常有趣，也揭示了AI发展中的一个深层次问题--

AI在学习和模拟世界时，是否需要遵循人类的知识体系和思维方式？

AlphaGo的例子很好地说明了这一点。在围棋领域，人类历来讲究棋理，这些棋理是人类在长期实践中总结出的经验和原则。

然而，AlphaGo通过自我对弈和深度学习，掌握了一种超越传统棋理的下棋方式，甚至发现了一些人类棋手未曾注意到的新着法和策略。

这表明， AI在某些情况下可以超越人类的启发式知识，找到更加本质和有效的解决方案。

回到Sora和通用物理世界模拟器的问题上， 虽然物理学是人类对自然世界的理解和描述，但这并不意味着AI在构建物理世界模拟器时必须完全遵循人类的物理知识体系。

相反，AI可能通过大规模数据学习和计算，发现一些人类尚未认识到的物理规律或现象，甚至可能提出一种全新的、更加通用和本质的物理描述方式。

因此，虽然看似矛盾，但实际上OpenAI的做法是一种探索，试图通过AI的强大计算能力和学习能力，超越人类的传统知识体系，发现更加深层次的世界规律。

这种探索可能会颠覆我们对知识和智能的传统理解，带来全新的认知和技术革命。

何谓AI的“第一性原理”？

孤独大脑 ：我看到一段有些主观但极有启发的话语，引用如下。

Scaling law为什么能成为第一性原理？

你只要能找到一个结构，满足两个条件：

一是足够通用，二是可规模化。

一、通用 是你把所有问题放到这个框架建模；

二、可规模化 是只要你投入足够多算力，它就能变好。

这是我在Google学到的思维：如果能被更底层的东西解释，就不应该在上层过度雕花。

有一句重要的话我很认同：

如果你能用scale解决的问题，就不要用新的算法解决。

新算法最大价值是让它怎么更好的scale。当你把自己从雕花的事中释放出来，可以看到更多。

（本段来自网络。）

这个话题与我们上面的讨论密切关联。

我还想起了《园丁与木匠这本书》。新算法的开发者，更像是园丁。

所以，大模型和教育之间的关联，不仅是功用层面的，从最底层也是相通的。

因为教育本身就是在训练一个拥有近千个神经元的“大模型”--大脑。 ‍

ChatGPT ：这段话确实非常有启发性，它强调了在解决问题时寻找通用且可规模化的结构的重要性。这与我们之前讨论的Scaling Law和AI发展的一些关键思想是一致的。

1、Scaling Law 作为第一性原理

Scaling Law之所以能被视为一种第一性原理，是因为它基于一个简单而强大的观察： 在很多情况下，系统的性能随着规模的增加而提升。

这一原理在物理学、经济学、生物学等多个领域都有体现，而在AI领域，它表现为模型的性能随着数据量和计算能力的增加而提高。

2、通用性和可规模化

如您引用的话所述， 一个结构如果足够通用且可规模化，那么它就能够应对各种问题。

在AI领域，这意味着构建能够处理广泛任务的模型，并且这些模型能够随着资源的投入而不断改进。这是大规模预训练模型如GPT系列成功的关键所在。

3、避免过度雕花

这段话还强调了一个重要的思维方式： 如果问题可以通过增加规模来解决，就不应该过度依赖新的算法。

这并不是说算法创新不重要，而是在很多情况下，通过简单的扩展已有的结构和方法，我们可以更高效地达到目标。

这种思维方式鼓励我们专注于寻找通用且可扩展的解决方案，而不是过度追求复杂和特定的技术。

4、看到更多

最后，这段话提到， 当我们从过度关注细节的事情中释放出来，我们可以看到更多。

这是一个关于思维方式和视角的重要提醒，它鼓励我们在解决问题时保持开放和宏观的视角，寻找更根本和通用的解决方案。

总的来说，这段话与我们之前的讨论密切相关，它强调了在AI发展中寻找通用且可规模化解决方案的重要性，以及保持开放和宏观视角的重要性。

孤独大脑 ：在数字化和人工智能时代，我们需要重新理解和运用第一性原理。

ChatGPT ：第一性原理（First Principles）是一种思考问题的方法，它要求我们回到问题的最基本的真理或假设，从根本上理解问题，而不是依赖于现有的观念、传统或模仿他人的做法。

这个概念起源于物理学和哲学，但现在被广泛应用于各个领域，包括商业、工程和创新等。

将第一性原理作为思考的基础，意味着要剥离所有的附加层，直接面对问题的核心。

这种方法鼓励我们 提出基本假设，对它们进行质疑，然后重新构建解决方案，这有助于创造出更为创新和有效的方法。

在谈到Scaling Law作为第一性原理时，这可能意味着在解决问题时，我们应该首先考虑是否可以通过扩大规模（例如增加数据量、计算能力等）来提高性能，而不是立即寻求新的复杂算法。

这种思考方式强调了 规模化的力量 ，以及 在可能的情况下寻求简单、通用的解决方案的重要性 。

总的来说，第一性原理是一种深入探究问题本质的方法，它鼓励我们 从最基本的事实出发，重新思考和构建解决方案， 这种方法和态度在各个领域都有着广泛的应用价值。

AI的“第一性”如何变迁？

孤独大脑 ：在 牛顿时代 ，第一性原理是指我们回到最基本的原理，运用数学计算和逻辑推理来找寻答案。

到了 爱因斯坦时代 ，即使不确定性正式登上科学的舞台，但爱因斯坦依然没有抛弃因果，依然在追问为什么，甚至不惜以半生和声誉为代价去追寻宇宙的第一性原理。

可是，到了现在，第一性原理似乎变成了概率，变成了爱因斯坦不愿意承认的“上帝在扔骰子”。

请你结合AI的发展历史和关键阶段，说一下人工智能领域的第一性原理的演化历程吧。

ChatGPT ：人工智能领域的第一性原理经历了几个重要的演化阶段，这些阶段与AI的发展历史和关键技术转折点密切相关：

1、符号主义阶段（1950s-1980s）： 在这个阶段，AI的第一性原理是基于符号逻辑和知识表示的。人工智能被视为一种通过明确的规则和符号操作来模拟人类思维的技术。

这一时期的重点是开发能够执行逻辑推理和符号处理的专家系统。

2、连接主义阶段（1980s-2000s）： 随着神经网络和连接主义的兴起，AI的第一性原理转向了模拟人脑的神经结构和学习机制。

在这个阶段，人工智能的核心是通过训练神经网络来学习数据中的模式和关系，而不是依赖于预先定义的规则。

3、统计学习阶段（2000s-2010s）： 在这个阶段，随着机器学习和统计方法的发展，AI的第一性原理转向了从数据中学习概率模型和决策函数。

这一时期的重点是开发能够从大量数据中自动提取知识和进行预测的算法。

AI规模法则：大力何以出奇迹？

正文

2、通用性和可规模化

3、避免过度雕花

4、看到更多

请到「今天看啥」查看全文