人工智能(AI)是模拟智能的系统,当前尤指计算机系统。人类模拟智能的想法由来已久,但直到电子技术取得进展,这一领域才得以真正发展。AI发展并非坦途,历经几轮兴衰,通用性缺失一直是痛点。如今,以Transformer架构为代表的深度学习算法的成功,标志着AI迈入了通用模型时代,开始跨越不同智能场景模拟间的藩篱,归纳真实世界规律的能力取得了里程碑式的突破。在高性能算力和高质量数据的支撑下,AI性能还展示出规模定律,智能水平不断提升,让许多人对通用人工智能的实现燃起了希望。
本轮AI具备了应用普遍、催生创新、可改进的通用目的技术(GPT)特征,并体现出广泛的融合潜力。其应用潜力和商业前景已得到初步印证,AI或已跨过S型曲线的第一拐点,进入“研发-应用”循环迭代的加速期。在智能成本快速下降的推动下,一场广泛而深刻的智能融合浪潮正蓄势待发。而这一浪潮将在生产端推动人类与AI的深化分工,提升生产效率的同时改变劳动结构;将在消费端激发大量智能产品需求,并对社会形态产生深远影响。
那么谁将引领这一场浪潮?通用目的技术影响实体经济依靠初级创新与次级创新,对应着AI研发和应用的两个阶段。AI技术跨过S型曲线第一拐点的大背景下,哪个国家会在“研发-应用”的循环迭代中胜出,哪个国家就有望成为本轮AI融合浪潮的引领者。AI在研发端的优势取决于智能硬件的性能与规模、高质量数据获取能力、优秀人才的储备以及宽松的创投环境,这往往带来一定的先发优势;而AI在应用融合端的优势则更依赖多元的市场和鼓励融合创新的政策环境。
为评估各国AI“研发-应用”的循环迭代强度,我们构建了研发层的“技术活跃度”指标以及应用层的“市场友好度”指标,两者合并后得到“AI发展指数”。总体而言,美国与中国的AI发展指数最高,是引领本轮智能融合浪潮的前两名国家。美国在技术活跃度上具有较大优势,而中国在市场友好度上略胜一筹。德、日、英居于第二梯队,与中美差距较大,印度由于市场友好度较高,紧随第二梯队之后。割裂的全球市场可能会阻碍AI的价值实现并抑制创新,这或许会促使部分国家在未来的智能融合浪潮中深化合作。
人工智能(Artificial Intelligence,AI)指的是模拟智能的系统,在当今的语境中更多指的是计算机系统或与之相关的机器系统。
人工智能是一个既古老又年轻的概念。言其古老,是因为“模拟智能”的思想源远流长,在古希腊、古罗马传说中就已出现过能完成特定任务或行为的类人智慧体的描绘[1]。谈及年轻,则是因为“Artificial Intelligence”这一名词直到1956年才在麦卡锡、明斯基和香农等人工智能先驱们组织的达特茅斯会议上被正式提出。此后AI研究者发展出了多种基于逻辑规则、概率推理等模拟智能的方法。其中,机器学习是人工智能的一个重要领域,它通过让计算机系统从数据中学习和发现规律[2],进而做出预测或决策,而不需要明确的编程指令。根据训练过程中是否使用标记数据或进行反馈,机器学习又包括监督学习、无监督学习和强化学习。近年来,AI取得的许多关键成果,包括大语言模型(LLM),则来自机器学习的一个子领域——深度学习。深度学习使用多层神经网络来模拟生物脑的功能[3],从而使计算机系统能够进行复杂的数据处理和模式识别等活动。当前,深度学习在图像识别、语音识别、自然语言处理和自动驾驶等领域都取得了丰硕的成果。图表1.1是对上述人工智能不同方法间关系的一个简单梳理。
图表1.1:人工智能包含机器学习,机器学习包含深度学习
资料来源:Prince S J D,Understanding Deep Learning,2023;中金研究院
既然是模拟智能,那就不得不提及人类要模拟的智能究竟是什么。
因为涉及多个学科和不同视角,直接给智能下定义是一件异常困难的工作,对其内核含义的探讨甚至也远超本章的内容范畴。如果只是简单的诠释,那么智能就是一个多层次、复杂多维的概念,涵盖了认知能力、学习能力、推理能力、问题解决能力以及其他与信息处理和理解相关的功能,这些功能是为了让智能体在现实世界各种变化的场景中进行活动、实现目标[4]。
上述的阐释依然复杂,但如果我们从智能体“要干什么”去思考,其实可以更直观地理解智能究竟是什么。辩证唯物主义者们相信真实的世界中存在着客观的规律或者法则,并将其称之为真理,他们认为世界真理决定着世间万物的运动方式以及相互间的联系[5]。从这个角度讲,智能体要干的工作就是根据万事万物的运动以及联系的信息,反推“世界真理”。
这些反推出来的规律和法则与“世界真理”越接近,那么该智能体的智能水平就越高。比如,为什么我们会觉得牛顿和爱因斯坦的智能水平高,就是因为他们根据各类世界信息反推出的万有引力、运动的三大定律以及相对论,比其他人更加接近世界真理。
如果说智能体的工作是通过联结万事万物的信息,从中寻找规律来反推世界真理,那么收集和处理信息类型的数量,也会决定其智能水平的高低。
比如说某智能体在处理世界信息时存在限制,只能处理真实世界局部的信息,那么它就会像柏拉图洞穴寓言[6]中被困于洞穴的人们一样,虽然他们看到的是真实世界在墙壁上的投影,却误以为这些影子就是世界本身;他们可以总结出影子的运行规律,但这只是对世界真理的片面认知。当用这些规律来应对真实问题时,往往会出现偏误。
为了更深入地理解这一点,我们可以设想一个智能体A,它只能处理某个特定领域的信息,例如天气数据。虽然智能体A可以通过分析天气数据,准确预测短期天气变化,但如果一个决策中遇到涉及其他领域的问题,如社会经济发展、生态环境变化等,它就会因为信息的局限性而无法给出准确的判断。相反,如果另一个智能体B能够处理多种类型的信息,包括自然科学、人文社会、技术发展等各个方面的信息,它就更有可能从复杂的、跨领域的数据中发现更深层次的规律,推导出更接近世界真理的结论。这种多维度的信息处理能力,使得智能体B在面对复杂问题时,能够综合考虑多种因素,给出更加全面、准确的解决方案。
可以说,智能体的信息收集和处理能力的广度与深度,直接决定了其智能水平的高低。
仅仅依赖局部信息的智能体,就像柏拉图洞穴中的囚徒一样,难以突破对世界真相的片面认知;而能够整合多种信息的智能体,才有可能接近世界真理,做出更为准确的判断和决策。而
理解这一点,对于我们理解今天人工智能的发展具有重要意义。
出于便利,人们有时也会为了区分不同场景下的应用需求,对人类所具有的智能进行分类。
有人根据个体能力表现差异,把智能分为语言智能、逻辑数理智能、空间智能、运动智能、音乐智能、人际交往智能、内省智能和自然辨识智能[7];也有人从方法论角度,把智能分为分析智能、创造智能、实践智能三类[8](图表1.2);还有人从认知心理学角度把智能分为理解能力、记忆能力、推理能力、计划能力四类[9]。总的来说,人们对智能的分类有不同的逻辑依据,包括认知功能、应用领域、内容和形式、先天和后天因素、个体差异和任务环境需求等,呈现出百花齐放的状态。不过从反推世界真理的角度来讲,这些看似不同类型的智能背后其实可能存在着相似的生物学逻辑[10]。
资料来源:Gardner H,Multiple intelligences: The theory in practice,1993;Sternberg R J,Beyond IQ: A Triarchic Theory of Human Intelligence,1985;中金研究院
在对智能来源的认知上,至少存在三种比较有代表性但又差异明显的看法,不过文献发表趋势显示学者们越来越认为智能是一种可被模拟的客观能力。
第一种看法认为智能是超自然力的授予,是人类与超自然力相连的标志[11],这与古希腊神话中想象智慧体由神打造类似[12]。以阿奎那等神学家为代表,持这种看法的人认为人类无法也不应对智能进行模拟。第二种看法认为智能是人类特有的心理机制,依赖超脱物质世界的理念世界中的记忆,或者一些人类独有的先天结构。以柏拉图、笛卡尔、乔姆斯基等哲学家为代表,他们认为智能源于精神本质的心灵[13],或者天赋决定的心智系统[14],物质机制或许无法完整模拟人类智能。第三种看法认为智能来源于客观物质的生物器官,比如大脑,而大脑产生智能的过程可以通过科学研究得到解释和复制。神经科学的奠基人卡哈尔认为大脑的基本工作单元是神经元[15],神经元通过突触传递电信号和化学信号,突触的可塑性(即突触连接的变化)是学习和记忆的基础。诺贝尔生理学或医学奖得主坎德尔也认为智能可以通过神经科学的方法进行研究和解释[16]。
这三种看法各有支持者。不过,从每年发表的与“智能”相关的新增文献所属学科占比中可以看出,专业的学者们越来越倾向于将智能纳入到生物医学、计算机科学等相对基于物质客观规律的科学研究范畴中进行讨论(图表1.3)。
图表1.3:智能相关研究学科分布变化显示出较为客观的研究逐渐占据主流
注:该图统计时合并了部分学科,统计时间截至2024年4月。
资料来源:OpenAlex,中金研究院
在人工智能发展的文献中,我们经常可以看到类似图表1.4记录着AI发展重要事件的示意图。这些事件虽然对于AI研究者已经耳熟能详,但理解过去几十年AI的发展路径,对于认知当前AI里程碑式的突破具有重要意义。正如我们上文所说,一套智能模拟系统处理不同的信息能力决定该系统的智能水平,过去较长一段时间,由于AI模型的泛化和通用性较差,其在处理不同类型信息方面一直存在着隐性的壁垒,具体表现为虽然学习到了特定类型的智能,但跨场景的智能移植能力较弱。
注:图中纵轴表示的是人工智能发展热度&水平综合程度,用投资&研究=f(期望,成果)来表示。
资料来源:Bognar M Z,Prospects of AI in architecture: Symbolism, connectionism, actionism,2022;Francesconi E,The winter, the summer and the summer dream of artificial intelligence in law,2022;中金研究院
从上个世纪开始,模拟人类智能这一目标驱动着AI研究者们前赴后继、曲折前进的探索,过程中有过热潮也出现过寒冬,曲折历史背后暗含着一条模拟生物脑(联结主义)——模拟逻辑(符号主义)——小场景模拟(行为主义),再到联结主义复兴的演进主线。
十九世纪末期,人类发现了神经系统中结构与功能的基本单位——神经元[17],经历几十年的探索和发展,人们对神经元的连接方式、作用机制等已经有了一定的认识[18]。恰逢这一时期电子学取得突破性进展,计算机也随之诞生,构建一个电子的“神经网络”来模拟神经元活动,成为了模拟智能最直觉的方式,这就是“联结主义”。当时最具代表性的是感知器[19],它是一个单层神经网络,能完成简单的图像分类任务,比如区分三角形和圆形,掀起了第一波人工神经网络的热潮。
可惜单层神经网络很快就遇到挫折。
首先,上世纪六十年代的算力发展程度非常有限,当时算力最强的计算机是IBM7090,内存和处理速度甚至远比不上现在的普通笔记本电脑,只能处理很小规模的数据,无法为设想中的神经网络算法运行提供支撑。其次,单层神经网络能做的任务非常有限,与人类想象中的“人工智能”差距甚远,当时也没有发展出求解多层神经网络的有效算法,更无从谈起算法是否通用。尤其是1969年,AI领域知名科学家马文·明斯基发表《感知器》[20],对单层神经网络算法的局限性进行了证明和批评。随后,大众对于人工智能的热情冷却下来,神经网络领域的学术研究近乎停滞,从而引发AI发展的第一次寒冬。
利用电子设备模拟生物脑的联结主义遭遇挫折,但科学家们仍在尝试另一条路径,那就是抛弃大脑的生物属性,直接通过模拟逻辑来实现智能,这就是符号主义。
符号主义者们认为,智能可以理解为按照逻辑规则来操作的符号运算[21]。如果把知识提炼成规则,再把规则转化为计算机符号,将这些符号输入计算机,就可以让计算机掌握人类的逻辑,从而表现出“智能”,其中最为典型的代表即专家系统。如世界上第一个专家系统DENDRAL[22],可以根据输入的化学分子式信息来分析判断有机化合物的分子结构。在符号主义盛行阶段,各类型的专家系统陆续推出。
然而,符号主义的发展很快也遇到了阻碍。
首先,从理论层面来说,专家系统很容易就会面临规模爆炸的问题[23],比如旅行商难题,给定多个城市和每两个城市之间的距离,求解途经每个城市一次后返回出发城市的最短可能路径,随着城市个数的增加,遍历所有情况来寻找最短路径的计算复杂度急速上升,计算机系统需要耗费大量时间来求解,甚至理论上需要几十、几百年才能解出答案。其次,专家系统里面所有的规则都需要预先输入到系统中。一方面把现实生活中的问题和解决方案拆解为“如果符合某条件,那么推出某结论”的规则,工作量巨大,另一方面,当遇到新的场景时,如果系统中没有提前输入的规则,就可能无法运作。的确有人尝试过输入所有规则,构建一个“无所不能”的专家系统,如1984年美国微电子与计算机技术公司的CYC项目[24],到如今21世纪该项目已经累计百万数量级的概念和规则[25],但距离目标的“百科全书”仍然遥遥无期。随着这些缺陷逐渐暴露,人们发现专家系统能完成的任务在广度和深度上仍然有限,到了80年代末公众对人工智能的热情再次消退,这让AI的发展遭遇了第二次寒冬。
虽然经历了两次严重挫折,但人工智能的研究并未停下脚步,如果符号主义处理复杂场景时会遇到规模爆炸的问题,那是不是可以先把AI的应用限制在简单的小场景中?
于是AI开发者们“退而求其次”,将AI的研发与应用聚焦单一场景中,以此来提高AI处理某类具体任务的表现,这就是行为主义的思想。在这种思路下,许多机器人应运而生,如1990年成立的iRobot公司推出的用于太空探索的六足行走机器人Genghis、水下扫雷机器人Ariel和后来的家用扫地机器人等。但行为主义的智能迁移能力依然较弱,比如扫地机器人的算法,很难用来处理翻译或者图像识别的问题。针对不同的场景任务,行为主义还是需要重新预先编程并设计新系统来完成特定的任务,无法发挥规模效应,这也限制了AI的发展和应用。
小场景尝试让AI发展经历了一段过渡期,智能探索几经曲折后,随着算法和算力的进步,联结主义再次登场。
虽然早期联结主义陷入低谷后神经网络研究遇冷,但仍有学者没有放弃该领域的研究,陆续出现了可用于联想记忆的Hopfield网络[26]、解决多层神经网络计算问题的反向传播算法[27]、前馈的卷积神经网络[28]等,杰弗里·辛顿于2006年提出了深度学习的概念[29]。深度学习在机器学习的基础上引入了模拟人脑的多层神经网络,用更强大的计算能力让机器在大规模数据中提取特征,神经网络层数越多,对输入特征抽象的层次越深,对输入的理解也越准确, 更接近于人脑对信息的认知方式。此后,深度学习在计算机视觉、自然语言处理等领域都有较好表现,如深度学习模型在ImageNet图像分类挑战赛中将错误率降低了近一半,击败传统模型[30]等,深度学习成为重要探索领域。不过当时发展出的AI仍是适用于特定领域的,如打败围棋世界冠军的AlphaGo无法将下棋的优越表现迁移到其他领域。
前几轮AI发展的一个共同的隐性问题在于通用性的缺失,只模拟到了特定类型的智能,无法对真实世界规律进行较为全面的总结和把握,模拟出的智能水平受限。
诚然,智能可以看作多方面能力的集合,比如语言智能、逻辑数理智能、音乐智能等,模拟特定智能的方法短期来看也许立竿见影地让AI掌握了特定问题的求解能力,但实际上AI被不同类型智能的藩篱阻隔,无法对不同类型的信息进行通用性处理,这会阻碍不同领域间规律的类比和迁移,对现实世界的认识仅限于特定领域,难以形成更全面的视角,因此模拟的智能表现水平受限。或许正是因为没有意识到这一隐性问题,通用模型一直以来可能都不是AI研究的重点。如果有一种通用模型,能让AI在一致的框架下对不同类型的信息进行处理,从而从信息中刻画事物的联系,那么AI就有可能更全面、更深入地认识世界和总结规律,提高智能水平。
不同于前几轮AI热潮,本轮AI的发展在处理不同类型信息的通用模型方面取得了重要的突破。
2017年,谷歌团队提出了Transformer架构[31],本意只是解决当时机器翻译存在的长句信息丢失、计算效率低等问题。
Transformer是一种深度学习架构,基于多头自注意力机制,与人脑处理信息时类似,能忽略次要细节、专注于关键信息,能捕捉到序列中的相隔长距离的词语之间的关系,从而尽可能识别序列中的信息。同时,多头注意力机制形成多个子语义空间,允许模型同时关注输入序列中的多个不同位置,捕获更丰富的上下文信息。此外,Transformer的多个注意力头可以并行计算,不需要等待前面的单词计算完成,可以更高效地处理大规模序列数据。这些特点让Transformer架构展现出了优越的长序列数据处理能力,可以很好地完成机器翻译任务。不过“意外”的是,
人们发现,各种类型的数据都可以看作序列用Transformer来处理,这让Transformer表现出了通用模型的潜力。
Transformer一般通过“词元(Token)化”处理数据,它将每种类型的数据转换为可以被机器处理的一维标准化序列,语言、动作、影像等各种符号化或者非符号化的数据都存在“词元化”的可能。如文本数据本身就是以序列形式存在,视频可以看作时空维度上的一系列图像序列。在处理多模态数据时,Transformer可以将文本数据处理为词元,将图像处理为图块(Patches),将机器人的动作控制转化为机器人元动作[32](Robot Vocabulary)等,触觉[33]和味觉[34]等数据的处理也在探索中。此前,对不同类型数据信息的处理是由不同的模型进行,这导致了智能模拟的分割,如从文本数据中总结规律学习到语言智能,音频数据可以学习到音乐智能,数学中的“几何定理-证明”数据可以学习到逻辑数理智能等[35],而由于Transformer这一算法架构可以用相对一致的思路处理各种类型的数据,将这些智能的学习统一到了一个架构之下(图表1.5),打破了不同类型的信息处理壁垒。
图表1.5:Transformer打破了不同智能模拟间的藩篱
通用模型的出现打破了不同信息处理的壁垒,这是AI智能水平提升过程中里程碑式的突破。
对于一种特定类型的数据信息来说,Transformer架构展现出了总结和归纳其规律的能力。以文本数据为例,语言作为人类交流的工具,是人类思维的外化,因此语言文本中蕴含了人类已经发现的、总结好的那部分规律。Transformer架构将输入的文字序列转化为词元,对应生成向量,映射到向量空间中。向量的位置、向量之间的距离,对应表达出原始文本中的含义和联系,所以生成的其实是一个富含人类逻辑规律的向量空间。以“意大利的首都是罗马,西班牙的首都是马德里”这句话为例,某个国家的首都是哪里,这是人类总结出来的规律,这条规律在向量空间中表示为国家和首都城市之间相对稳定的方向和距离关系(图表1.6),“老鹰会飞,猎豹会跑”亦是如此。当基于Transformer架构的大语言模型处理足够多的文本数据时,就能挖掘到数据之间存在的这种较为稳定的联系,表面上是从概率角度推断出了句子里下一个可能出现的词元,实际上则是总结出了这种稳定联系所代表的规律,且运用了规律进行预测。而
Transformer架构通用地处理各种类型数据信息,则是打通了各种类型信息中所蕴含的规律空间。
如果说语言文本中蕴含的规律是人类思维的结晶,那么图片、视频、动作等数据中蕴含的规律包含了更多维度的信息,这些多模态的信息相结合,反映出现实物理世界的规律,包括人类已经发现的和尚未发现的。Transformer架构处理这些不同模态的数据信息,生成的向量空间就是各类型信息中所蕴含规律的空间。如一段熟透的苹果从树上落地的视频,包含了物体在空间运动、重力等物理现象和规律,如果再增加苹果落地响声的音频、对苹果和地面的触感、文字描述等,将这些多模态的数据放到通用模型中进行处理,从每种模态的信息中总结规律,并对规律进行迁移、交叉运用,就能更全面地刻画这一现实世界中的现象,对这个问题的认识也逐渐逼近现实世界的真实情况。这种跨领域的规律总结也可以激发出新的想法,通过寻找不同领域的共同结构,对产生智能的信息进行压缩和类比,挖掘到深层次的规律,从而发现世界中不同事物的新联系,这在一定程度上可以理解为创造力的来源[36]。如果说每种模态的信息是从某一角度去刻画世界[37],那么通用模型处理了各种模态的信息,就可以尽可能完整的刻画出真实世界,如同根据三视图还原立体图形一样。对真实世界的刻画越全面,反推出来的规律和法则与客观存在的“世界真理”越接近,这是AI智能水平提升的一大突破。
注:文本嵌入三维向量空间示意图,向量位置和距离表示了文本背后蕴含的规律,为了方便展示,此图用三维空间示意向量空间。
资料来源:Gabriel Furnieles,Transformers in depth,2023;中金研究院
Transformer架构的通用性潜力为AI迈入通用模型时代打开了大门,进一步加快数字智能和具身智能的发展。
如前文所述,想要模拟出表现更好的智能,需要一种能把现实世界各维度信息有机结合的通用模型,从文本数据到多模态数据,Transformer架构打破了这些不同类型数据信息的处理壁垒,目前展现出了作为通用模型的潜力。AI从学习人类写在文本中的规律,到学习真实世界普遍存在的现实规律,通用模型对多维信息的处理带来智能水平提升,将逐步展现出通用优越性,AI或将迈入通用模型时代。当然,通用智能模拟最终的答案也并不一定是Transformer,或许未来会发展出优于Transformer的通用模型架构,而那将在现有基础上更利于AI发展。通用模型加持下,未来两种AI的发展方向更为明确,发展速度加快。其一是数字智能,指以虚拟智能助理形式存在的AI,可能仍以移动终端、互联网为载体,通过AI大模型对用户输入的文本、图像、视频、语音等信息进行处理,理解用户指令和需求,进行推理、规划等完成任务,内置长短期记忆功能,长期记忆依靠外挂知识库和增强检索,并能根据任务要求和解决方案来发布指令或调用工具,这种形式的AI将覆盖大多数需要人类脑力完成的任务。其二则是具身智能,主要指智能和物理实体的结合,通用模型促进具身智能快速发展,如人形机器人可以将感知、决策和执行加以统一,通过传感装置感知和收集各种类型的环境信息,这些信息不仅仅包括上述文本、图像、视频等,还可能包括了传感器从环境中直接获取的嗅觉、触觉、味觉、磁场等信息,这些数据目前储量较小,需要配合高精度传感器等进行收集,这些信息都能在通用模型的驱动下的“大脑”中进行处理,完成分析决策,驱动四肢输出交互、完成任务等,也正是由于综合处理了多维度的信息,具身智能对真实世界的认知更为全面,智能表现更好,这种形式的AI将覆盖越来越多人类需要付出体力完成的任务,或将深度进入人类社会和人们的生活。当然,通用模型时代,算力和数据同样重要,模型如何提高性能,以实现“反推世界真理”?或许有一些潜在的答案值得讨论。
如果说通用模型让AI打破了不同信息处理的壁垒,学会了从多维度的信息中总结和归纳规律,那么数据和算力就是重要的支撑因素,规模定律则回答如何提高性能表现,更加接近真实世界规律。
基于Transformer架构的模型表现出良好的规模定律(Scaling Law)。
本轮AI性能和规模之间呈现出规模定律,随着模型训练过程累积的算力、参与训练的数据量、参数量的增大,模型表现将平稳、可预测地提高,即模型的效果越好[38]。在后续研究中,发现规模定律适用于多种模态[39]、具体的下游任务[40]等,规模定律也并非Transformer架构的专属,在深度学习领域的多种模型中都成立,但目前Transformer架构上表现出的幂律关系更为良好[41]。也就是说,普遍意义上,扩展模型的规模可以有效降低模型的损失,提高模型表现的精度。其实规模定律提出之前,已有研究者从AI历史发展中得出“苦涩的教训”,即应该寻找随着算力规模增加能持续扩展的通用方法,有效利用大规模算力来发挥作用[42]。
规模定律的意义在于,对如何提高通用模型的性能表现,使之更接近真实世界规律做出了潜在的回答。
通用模型能将各种类型的信息进行整合,用更全面的视角去总结和归纳规律。现实世界的复杂性意味着需要大量信息的输入,对应到通用模型则是需要扩展规模。以文本数据为例,人类语言出现已久,文本中包含了各种方面、大量的逻辑规律信息,参数比较少的通用模型无法完整刻画整个规律空间,需要足够多的参数形成基向量才能将之刻画出来。因此,随着基于Transformer架构的大语言模型参数量越来越多,获取足够多的基向量去刻画规律空间的可能性越大,对高维向量空间中规律的总结能力增强。这或许是为什么大语言模型扩张到一定程度的时候,出现了优异的性能,也就是所谓“涌现”。“涌现(Emergent Abilities)”[43]是指模型突破某个规模后性能显著提升、表现出小模型不具备的能力。尽管当前对于模型涌现能力的评价指标有技术争议[44],不过争议多存在于数学方法层面对涌现现象的度量,并没有否定模型会在规模增大时突然增加性能这一现象。总体来说,涌现现象可能是对高维度的规律空间刻画的结果。对于通用模型而言,如果呈现出规模定律,意味着继续扩展规模会带来模型效果的提升,对规律的刻画也能接近世界规律的“本来面貌”。
不过,作为经验定律,规模定律并非毫无争议,规模定律是否是提升性能“最好的答案”仍然有待探索。
一方面,现在已经出现了潜在高质量数据的短缺问题,有估测认为全球高质量文本数据在2026年前可能出现供不应求[45],能否有支持规模持续扩展的数据量仍是未知数,不过合成数据、待收集的其他类型数据可能是一个解决思路;另一方面,规模定律下扩展规模对模型精度的线性提升是否存在边界,也是当今学术界和业界无法解答的问题。而且,沿着规模定律还存在边际收益递减的问题,当三要素的规模比较小时,扩展规模带来的收益明显,而当模型预测损失越来越小的时候,改进模型的效果可能不那么明显。更进一步的,有观点认为规模定律与人类大脑运用少量样本、快速发现规律的方式背道而驰[46],也有观点认为过度强调规模可能会忽视知识、推理本身的重要性[47]等。激烈的讨论可能代表着沿着规模定律提高AI性能的路径仍有改进空间,规模定律是推动AI提升性能的路径,但也可能存在其他路径。
规模定律是技术层面的讨论,但也隐含着经济层面的规模要求,大国享有规模优势。
规模定律和涌现都指出了扩展规模带来模型性能提升,这意味着AI大模型的研发需要大量资源投入,大国可以发挥规模优势。算力驱动模型从大量高质量数据中进行规律总结,参数和数据的大幅增长,使本轮AI通用模型在训练阶段需要执行更大的矩阵运算,意味着更大的GPU投入,为了满足更新模型、更丰富功能带来的算力需求,AI发展持续转向性能更好、含有更多芯片的大型计算集群。此外,持续优化算法架构,研究合成数据,采集新类型的多模态数据,大模型训练的工程调优等都需要充足的人才投入。大国规模可以分摊模型训练这一高昂的固定成本,也拥有更多的人才储备,从而更快突破AI性能阈值,达到更好的效果。
总结来看,在当前通用模型突破和算力、数据的支撑下,AI对于真实世界规律的总结和归纳或将越来越到位,从虚拟走向真实世界,未来的AI也将为人类生产生活带来深刻影响。
当前AI找到了展现出通用模型潜力的架构,以及规模定律所指出的提高模型表现的方式,随着收集、清洗得到越来越多高质量的多模态数据,用通用模型加以训练,可以深入挖掘到越来越多的真实世界规律,并在跨模态的数据中完成对真实世界各个维度的刻画,从而逼近真实世界的客观规律。如此发展之下,数字智能和具身智能系统结合,在越来越融入到人类社会的同时,影响人类的生活习惯、思维方式甚至认知,我们认为一场智能浪潮正在酝酿,AI也将更加深刻、更加显著地对人类社会产生变革性的影响。
新一轮的AI发展已初步展露出通用目的技术应用
普遍
、催生创新、可改进的三大特征。从市场需求预期和企业盈利能力来看,当前AI技术发展或已跨过S型曲线的第一拐点,“研发-应用”的迭代循环正在形成,在规模定律和新摩尔定律的支撑、以及市场竞争和任务驱动的激励下,将迎来智能模拟快速进步和应用的时期。通用模型的突破和规模定律,正在推动智能水平提升、成本下降,这将在生产端推动人类与AI的再分工,进而促进生产效率提升和劳动力的部门间转移,并在消费端激发大量智能需求,智能融合浪潮正加速袭来。
进入通用模型时代,AI有逐步演化为一项通用目的技术的趋势,产业融合潜力得以挖掘。就像历史上的蒸汽、电力和IT技术,通用目的技术在广泛融合产业的过程中表现出三个特征[48]:一是应用具有普遍性,使用范围并非局限于单个产品或行业;二是催生次级创新,为各行业相对成熟的现有技术提供新的活力;三是技术上持续改进,随着成本下降或性能提升适用于越来越多的场景。从三个特征来看,通用模型时代的AI与产业融合的能力可能更强。
应用范围方面,智能模拟的通用性使本轮AI技术具有更高的产业兼容性,使融合更为普遍和均匀。
本轮AI能够理解指令并自主学习,倾向于对人而非特定机器的替代。各行业几乎都有人的参与,需要完成的任务都与人的智能相关,这使本轮AI技术相较其他技术具有更高的兼容性。随着AI模拟智能场景的扩张,AI与人可以完成任务的重叠度增加,且逐步覆盖更高认知能力要求的复杂任务集[49]。生成式AI在各行业均出现了加速部署趋势[50];百度“文心一言”大语言模型由于具备信息处理和解决问题的通用智能,对外发布一周内就有互联网、传媒、金融、汽车、医疗、教育、房地产等多个领域的数百家企业宣布加入生态[51],体现出行业应用的普遍性。对比来看,电力和IT技术的采用是分部门次序进行的,率先采用电力的部门是此前严重依赖蒸汽动力的印刷业、电机和交通业,而木材、食品制造等部门的电气化进程则滞后了近20年才开始[52];而此次AI技术提供的通用智能在一开始就被众多行业积极采用,行业间开始采用的时间差距并没有那么大,因此整体上对经济社会的影响也可能更深远。
创新催生方面,本轮AI已促进各领域发生次级创新,尤其是在研发端开启了科学研究的新范式。
就像蒸汽和电力等通用动力设备的嵌入推动了各类机械制造工艺的创新,AI技术也与各行业相对成熟的现有技术结合(图表1.8a),产生了自动驾驶汽车、医疗影像分析系统和个性化推荐商业软件等次级创新。不仅如此,与电力和IT技术促进创新时人类处于操控和主导地位不同,AI还可以直接参与到研发端的科学发现过程中,以相对更高的自主性和创造性与人类进行更深入的协作,通过改进搜寻和推理过程来赋能科学研究的各个阶段,从而完善了大尺度、高精度、高成本的研究范式[53],加速了各个领域的创新发现。澳大利亚学术机构CSIRO称,截至2023年,超过99%的研究领域曾发表过涉及AI的学术论文;《自然》杂志发现,各学科论文发表中与AI相关的比例加速提升,2023年在标题或摘要中提及AI或AI相关关键词的论文比例为8%,而十年前为2%[54]。各领域与AI结合的授权专利数量也从2015年前的年增量不足1万快速上升至超过3万[55]。
技术改进方面,本轮AI技术随着时间表现出持续的性能提升和模态拓展,推动可融合的应用场景快速增加。
AI模型自身能够通过用户反馈等方式,在不断的推理中积累经验并自我迭代,以提高未来回答相似问题的准确性。同时,规模定律为本轮AI的智能提升提供了相对确定的基准线,模型正朝着增加算力、数据和参数量的方向快速演进,在语义分析、数理逻辑、编程等方面的测试得分逐步提升[56];通过允许更长的上下文窗口和集成外部搜索引擎等方式,AI打破了数据时间、容量和内容的限制,从而越来越精准地理解用户意图,进一步增强了通用智能水平。不仅如此,从GPT-4到GPT-4o,AI模型还通过将输入和输出的数据形式拓展至文本以外的图像、音频、视频等模态,贴近人类感知世界的方式,从更为丰富的角度交叉验证、全面理解高维现实世界,进一步显著提高了能力[57]。由此,新AI正在跨过越来越多应用场景的智能门槛,从最初的基础翻译和预设问答,到更复杂的程序编码、实验操作、金融分析,再到更开放的艺术设计、影视创作,产业适用性随着技术改进不断提升。
综合应用范围、创新催生和技术改进三方面,通用模型时代的AI有潜力成为一项具有更强产业融合潜力的通用目的技术。
值得注意的是,通用目的技术是一个后验的概念,各行各业的采用、次级创新的催生、技术的迭代改进都需要时间的沉淀和检验。技术路径的不确定性、市场的理解和接受程度、配套的基础设施和知识库等都会影响一项技术能否扩散、需要花多长时间完成扩散。那么,本轮AI技术发展到了什么阶段,又将带来多大程度的社会经济影响呢?
技术发展通常要经历三个阶段,生命周期遵循“S型曲线”(图表1.7)。
S型曲线刻画了技术的累计采用率——在初始阶段扩散较为缓慢,随后进入加速期,最终放缓并达到饱和。从经济学角度看,扩散速度的变化主要受到创新成本和收益的影响。在早期阶段,新技术本身由于尚不成熟面临着很多未知因素,需要投入大量的研发费用进行试错,并配套开发专门的材料、工艺和基础设施,创新成本非常高昂;而消费者可能尚不了解新技术的价值,或不愿为之支付高价,导致需求不确定性大、收益有限。此时,研发者处于入不敷出的“烧钱”状态,由于缺乏相对确定的盈利能力和应用前景,也难以吸引充足的资金、人才等外部资源投入,技术发展和市场扩散速度较慢。随着技术改进和市场磨合,实现同等性能的技术应用成本不断下降,同时市场需求逐步增长,研发者最终将越过创新的盈亏平衡点开始盈利。自此,盈利的再投资,叠加外部资源看到潜在机会后的进入,将加速技术改进和市场扩张的过程,这又将进一步增加盈利并吸引新进入者,从而实现“研发更先进的技术—获取市场利润—支撑进一步研发”正向循环下的持续迭代。最后,当大多数市场用户采用了该技术,且技术逐渐成熟时,盈利模式由抢占新市场转为存量竞争、盈利增速放缓,同时由于边际改进成本增加,技术进步的速度将开始减缓,导致技术扩散速度再次变慢。
图表1.7:到达S型曲线的第一拐点后,“研发-应用”正向循环下进入技术迭代和扩散的加速期
基于上述分析,判断一项新技术行至S型曲线何处,主要在于其是否具有较为确定的市场需求(即盈利预期),或研发者是否已经开始盈利以及潜在进入者是否大量投入资源。由此,我们判断
本轮AI技术发展可能已经跨过S型曲线的第一个拐点:
本轮AI浪潮展现出较为确定的市场需求。
从功能性来看,AI模拟的通用智能在各行业都匹配上越来越多的落地场景(图表1.8a),如医疗保健业的疾病诊疗和新药开发、金融业的欺诈检测和辅助投资、制造业的人形机器协助搬运、零售业的个性化推荐和库存管理、交通运输业的自动驾驶等,因此潜在市场规模十分广阔。从经济性来看,AI技术的应用成本正在快速下降,产品定价(如大语言模型)一旦降至经济性区间,消费者接受程度高,普及速度非常快。以ChatGPT为例,其全球用户数在产品推出五天内破百万、不到三个月破亿[58]。对于尚未推出商业化产品或定价还相对较高的AI技术,市场需求的预期可能已经形成,如特斯拉CEO埃隆·马斯克认为人形机器人的市场需求将达到每年约10亿台[59],大量资源在技术尚未成熟和盈利时就进入,以等待产品孵化并抢占市场先机,这有助于加速技术的改进和拐点的到来。
AI相关企业的盈利能力显著提升,吸引潜在进入者入局加码。
OpenAI营收高增,由2022年的2亿美元提升至2023年的20亿美元[60]。众多产品也在集成AI后开始商业创收,以AI PC为例,微软在2024年5月宣布将AI助手Copilot全面融入Windows系统,并与合作伙伴戴尔、惠普、联想和三星等推出一系列搭载高性能AI处理器的PC设备[61],这些产品已面向消费者发售,据IDC预计,全球AI PC出货量将从2024年的近5000万台增长至2027年的1.67亿台,届时可能占到所有PC出货量的近60%[62]。越来越多的投资者和企业看到AI技术的商用价值后进入该行业,AI领域自2021年起出现了私人投资额和新成立公司数的加速增长(图表1.8b),其中生成式AI领域2023年吸引了252亿美元的私人投资,接近2022年的9倍,占当年全部AI私人投资的四分之一以上[63]。这些AI企业的盈利和投资将用于进一步研发、建设数据中心或购买高性能算力资源、聘请顶尖科学家等,并使市场竞争更为激烈,进而推动企业进行“任务驱动(mission-driven)”的技术迭代,间隔较短时间就推出一个更新版本,形成更为陡峭增长的S型曲线。
图表1.8:本轮AI技术发展可能已经跨过S型曲线的第一个拐点
资料来源:a. Our World in Data,b. Stanford AI index(2024),中金研究院
跨过S型曲线的第一拐点预示着“研发-应用”正向循环的开启,智能融合蓄势待发。
除了上述应用层面的市场需求和盈利能力,研发层面的规模定律和新摩尔定律也将支撑本轮AI技术经历一段快速进步和融合的时期。在新摩尔定律的支持下,可用的计算资源随时间递增,每隔数年(有学者测算为5-10年[64])将出现一个数量级的改进。随着算力的持续增长,人工智能的能力将遵循以规模定律为支撑的相对确定的基准线持续提升,这种情形下相当长一段时间内AI技术将会不断迭代向前。
至于本轮AI技术何时迎来第二拐点,目前还较难判断,但可能尚有较长一段时间。
从通用目的技术扩散的历史经验来看,若以“获取电力服务”和“拥有个人电脑”的累计家庭比例来衡量电力和IT技术的采用情况,则通用目的技术出现的第35年左右,需求端采用率达到约70%时,技术越过S型曲线第二拐点[65]。然而,
如果遇到高质量数据短缺、能源等瓶颈,AI技术的发展速度或将受到拖累,甚至提前跨过第二个拐点,进入平缓期。
AI新变革的核心是智能成本的快速下降。这不仅表现为人类智能由AI完成时成本大幅下降,AI本身模拟智能的成本也将持续下降。
从完成不同智能任务对应的成本来看,AI目前在一些数理逻辑、自然辨识和语言智能任务中已达到人类平均表现且智能成本下降至低于人类劳动者(图表1.9)。如一名平面设计师创建一个动漫角色大约需要一小时,其时薪超过100美元,而人工智能完成相同的任务只需要0.01美分和1秒[66]。从部署AI以获得智能的成本拆分开来,性能要求决定的训练成本、任务量决定的执行成本、配置和维护的工程师成本三个部分都在随时间快速下降[67]。训练成本主要取决于算力成本和数据成本,在给定性能要求、即参数量和数据量确定的条件下,据中金公司研究部估测,硬件、软件、算法和计算架构的进步将共同导致单位计算成本持续下降超过100倍[68],收集或合成数据的成本在长期也将随着数据的开放与共享以及数字技术的进步而下降。以前沿的AI基础模型为例,GPT-3水平的生成式模型的训练成本从2020年的460万美元下降至2022年的45万美元,年降幅约为70%[69]。给定任务量的条件下,执行成本未来也将进一步随着算力成本不断下降,如OpenAI对GPT-3和GPT-4的API推理定价正在加速下降[70];又如人形机器人的成本也从2023年的每台5-25万美元(低端至最先进版本)下降近40%至2024年的3-15万美元[71],马斯克还表示特斯拉Optimus人形机器人的最终成本将降至约2-2.5万美元[72]。工程师成本是雇佣工程师以配置和维护AI产品所支付的工资,随着大模型厂商针对客户需求推出轻量级、低延迟的版本(如Gemini 1.5 Flash)并侧重改善不同任务或语言下的模型性能,基础模型的场景贴合度提升,垂类模型的接入和微调仅需要小型工程师团队,有助于降低工程师成本。相较人类接受教育和技能培训的学习训练过程,AI智能的迁移成本(即边际智能成本)非常低,在少量微调即可复用模型的相似场景间甚至趋近于0。
图表1.9:AI已在一些智能任务中达到人类平均表现且成本降至低于人类劳动者
资料来源: NTU(2024),Google(2023),Martin Casado(2024)[73],中金研究院
智能成本的快速下降可能带来社会、经济和文化的深远影响。
通用目的技术的融合往往带来经济生产效率的提升、生产方式的颠覆和新兴产业的出现,以及社会结构的重塑和生活方式的演变。历史上,蒸汽和电力技术提供了稳定可靠的动力来源,通过机械化和电气化实现集中和规模化的工厂系统,从而大幅降低了生产和交运成本;IT革命创造了互联网、计算机等各类电子系统,通过数字化和自动化实现敏捷灵活的互联互通,从而大幅降低了信息传播和计算成本。
在电力和IT技术越过S型曲线第一拐点后,均出现了生产率增长和劳动力市场结构性调整。
如20世纪初美国电气化加速期间,出现了全要素生产率和劳动生产率的加速增长[74],同时农业从业人员占比下降15.4%、制造业和商贸业从业人员占比提升7.1%和5.5%[75];类似的,20世纪末美国IT技术的加速普及,推动劳动生产率增速由1974-1995年的年均1.4%提升至1995-2006年的年均2.9%[76],同时在一定程度上对常规性工作形成取代并加剧了技能极化趋势[77]。那么,本轮AI变革又将带来何种根本性变化?
生产端看,智能成本的下降将人类从常规智能任务中部分解放出来,人类与AI的再分工有助于缓解劳动力相对不足或增速放缓的限制。
正如此前自动化机器人对常规体力劳动的取代,我们认为本轮模拟通用智能的AI理论上或在成本降至人类劳动者以下后发生类似的取代。目前AI智能尚未全面达到人类水平,这种取代可能不是完全的,主要限于部分重复性和规则化的智能任务。同时,AI还将创造大量新的就业岗位,并辅助人类进行复杂问题的决策,提高人类的学习效率和认知效率。以斯坦福大学教授李飞飞为代表的一派观点认为[78],人类将随着AI智能的演进动态更新和精进能力,并借助AI跃迁到更高的智能水平,期间可能由于AI发展速度快于人类技能调整速度而出现结构性失业,但最终将适应AI技术并用其赋能持续提高劳动生产率,在生产分工中朝着高智能要求、高附加值的职能聚集,更多地发挥创造力、批判性思维、情感沟通和团队合作等能力。长期来看,人类和AI的再分工在一定程度上缓解了劳动者相对不足或增速放缓的问题,符合劳动者随着平均收入和受教育水平的提高向更高生产率岗位转移的社会发展趋势。关于再分工的最终界限,目前尚有较大争议,也有以OpenAI联合创始人Sam Altman为代表的一派观点认为[79],AI模拟的通用智能将在一些部门超过并几乎完全取代人类劳动者,进而导致经济表现出“鲍莫尔病”,即人类越来越多地集中于AI相对不擅长且效率相对较低的部门,最终AI全面达到人类智能水平时,人类或将不再需要工作。无论是何种结局,AI作为一项通用目的技术具有推动经济增长和调整就业结构的巨大潜力。
消费端看,智能成本的下降将激发大量智能需求,进而造成深远的社会经济影响。
IT革命时期信息传播成本和计算成本快速降低,涌现出电子商务、社交媒体、流媒体服务等大量数字内容分发和计算需求。类似的,在AI智能的进步和演化过程中,已有的智能需求将随之调整和扩张,如精准推荐和定制的个性化需求相对标准化需求可能提升,同时出现各类意想不到的新智能需求,如虚拟数字人的情感互动等。除了经济角度的需求扩张和结构调整,这还将产生复杂的社会影响,比如个性化的推荐内容有助于提高客户满意度,但也可能加剧“信息茧房”和社会矛盾[80],虚拟数字人可能缓解孤独、抑郁等心理问题并满足日益增长的情感需求,但也可能被用于诈骗等非法活动,或导致人机伦理问题[81]。这些新的智能需求需要相应的法律法规和伦理规范来加以约束和引导,帮助人们正确认识和使用AI。
此外,智能变革将伴随着国家竞争。
电力革命之前,英国作为“日不落帝国”曾享受国际领导者带来的政治经济溢价,但随着电力革命在美国的扩散,英国被美国赶超,这些溢价也随之消失。技术变革为各国打开新的竞争窗口——领先者希望在技术变革中维持领先地位,后发者希望通过技术变革得以追赶,技术变革是各国竞争的重要阵地。本轮AI变革也是如此。那么,各国AI发展水平如何,谁会引领这场智能浪潮?