未来的大模型如何发展?这是今天每一个人工智能研究者都要认真思考的问题。如上文所言,以自回归为基础的大模型的研究取得了许多非常振奋人心的成果,存在技术改进的可能性空间和广阔的开拓潜力,特别是在学习效率的提高、思维链的增强与合成数据的深度、精度和广度等方面大有可为。此外,把大模型与其他的功能调用(functional call)的业务工作流相结合,把语言作为工作流的驱动机制,可以灵活地组织各种功能,形成一个大商业语言模型(Large Business Language Model)。这也是大模型算法研究上一个非常有前景的方向。这里我想谈一下对生成式人工智能算法的一些根本性问题。
基于自回归的生成模型的局限性。
基于自回归的生成模型的基本思路是线性地依顺序重构输入空间,所以,让模型具有补全一句话、填满一张图的能力是有效的学习方法,目的都是使模型具有生成力。但是,这样的模型也有其内在缺陷。
从学习的角度而言,以重构世界为目标的学习并不等同于可以理解世界。正如你学会了重新拼装一架飞机,并不等于你理解飞行的原理,也不一定确保你能够重新设计出一架新的飞机。所以,重构只是学习的第一步,理解所构造的世界才是关键而艰难的下一步。这个挑战在目前的视频生成研究中已经显示得很清楚了。我们可以把视频生成和语言生成等同起来,把视频看成是图像的序列语言,基于同样的自回归方法让机器来重构,从大量的视频数据中学会图像序列的生成。这就要求在一个连续的时间序列中准确地生成每一幅图像上的各种细节,并在这个时间段中保持每一幅图像的一致性(如不变的建筑背景、符合运动规律的车流等),这是非常困难的,因为重构一个动态连续变化的场景的复杂程度要比重构一段静态的文字表达高得多。因此笔者认为,用自回归的方法生成视频,生成内容细节有限的动画是比较现实的,但对于高清的、有真实场景细节的视频生成,它可能不是一条有效的途径。
从“搜索范式”到“价值范式”。
如何把握大模型未来的发展方向?关于这个命题有许多讨论,例如从技术、哲学、认知科学等角度。下面,笔者将从大模型使用模式的角度来谈谈这个问题。
今天,大模型支持人类和机器的“人问机答”交流模式,这样的交流是简单的,我们可以把它看成是搜索的一个高级版,生成的答案可以视为检索内容的一个总结。所以,今天大模型的学习和推理支持的是“搜索范式”。
事实上,我们使用的大模型搜索范式并不是唯一的方式。毋宁视其为一种初级的生成能力,因为它只是在词语相关性的指导下,对学过的语言进行合乎统计规律的重构。这样的自回归方法还不具有人类语言中的类比、联想、层次推理等各种能力。在未来大模型的研究中,我们要超越自回归的思想,创造出更高级的语言能力,这将极大地丰富大模型的应用方式,同时这也将是大模型算法研究中一个有意义的方向。
从“人问机答”的搜索范式出发,对大模型的下一个要求就是,不仅能回答问题,而且要有讨论和争辩的能力。在人工智能领域,对于思辩(argumentation)的研究一直是一个重要的领域,如何让机器模型具有思辨的能力,可以与人进行讨论,即不仅能回答问题,还能提出问题,并对人的回答作出判断、评价和回应。这样的思辨能力的实现要求模型的思维不仅有演绎的能力,而且要有一个内在的“世界模型”,从而能够对“回答”进行判断和论证,这将使模型从“搜索范式”进化到一个以阐述观点为目标的“价值范式”。这样的世界模型的建立对于算法来说,要求其不仅具有学习和推理的能力,更需要有记忆、行为目标的建立,价值的衡量与判断以及行为控制的能力。在这样的范式下,学习的方式和推理的模式也会发生重大的改变,将不再可以被归结为“预测下一个有可能的数据元”这么简单的学习和生成模式了。实际上,这样的向“价值范式”的进化,也是实现我们今天常讲的“具身智能”的基础。具身智能强调智能体通过与环境的交互获取信息、理解问题、作出决策并实现行动,从而产生智能行为和适应性。有了支持“价值范式”的大模型,我们才可以有效地实现对环境的理解并通过其基于世界模型的价值衡量来作出决策、实现行动。
研究“创造范式”,使机器具有人类灵性。
大模型的发展是从数据学习模型、模型生成数据的循环往复中,不断从一个层次迈向更高的层次。不管是注入情感,还是融入思辨,每一层的循环都是在语言模型中添加人性的理解,使我们在语言模型的建立上不断地逼近人类的语言和思维,让机器的语言模式逐渐与人类相一致。早在2013年,本轮人工智能浪潮来临前夕,美国上映了一部讲述在不远的未来人与人工智能机器相爱的科幻爱情电影《她》(Her)。主人公西奥多是一位信件撰写人,能写出感人肺腑的信件。他刚结束与妻子的婚姻,还没走出痛苦的阴影。一次偶然的机会让他接触到最新的人工智能系统OS1,它的化身萨曼莎拥有迷人的声线,温柔体贴而又幽默风趣。西奥多与萨曼莎很快发现他们是如此投缘,而且存在对彼此的需求与欲望,人机友谊最终发展为一段奇异爱情。这个科幻片生动地展示了人类和一个有语言能力的机器之间的关系,也对后图灵时代语言模型的发展作了一个形象的描述:机器的语言模型会与人无缝交流,会理解我们的语言、感情和语境,其与我们的交流也会越来越有“人性”。赋予机器模型以人性的光辉,就是研究大模型的终极目标。众所周知,人性最精彩的部分是创造力。因此,我们应该研究大模型的“创造范式”,让机器也具有人类的灵性。
2022年由AI生成的画作——《空间歌剧院》(Théâtre D'opéra Spatial)在美国科罗拉多州博览会的“数字艺术”类别美术比赛中获得第一名。该画作的创作者是39岁的美国游戏设计师杰森·艾伦(Jason Allen),他使用文本生成图像程序Midjourney,经过近千次调整、耗费近三百个小时进行修改完善,绘成了这个作品。Midjourney根据用户的文字描述生成逼真的图像,每次创作耗时约一分钟。在创作者给定一个对歌剧院和天堂的描述之后,机器凭借自己对天堂的理解生成了一幅作品。在这个作品中,我们看到了机器与人类对天堂幻想的共同之处,但同时机器又赋予它独特的想象力,画出了超越习惯性思维的天堂。对于机器的这种能力,我们通常称之为“幻思”(hallucinations)。