“可写阐释”,就是将算法作为对象,对算法参与下的文学阐释活动的一种命名。这种阐释何以可能?回答此问题前,需要对“AI生成”算法做一个背景性的说明。
(一)首先,我们需要理解以ChatGPT为代表的算法“生成”与“转换”问题
“GPT”的全称是“生成式预训练转换模型”(Generative Pre-trained Transformer Model)。这里的“G”(生成)、“P”(预训练)和“T”(转换)成为理解基于大语言模型的“AI生成”特点的关键词。具体来说,ChatGPT的生成过程分为无监督学习、监督学习和强化学习三个阶段。在无监督学习阶段,程序员利用转换器(transformer)建立大语言模型。这个模型最初只是一个未经训练的数据结构模型。之后,程序员将收集到的所有相关文本信息全部“投喂”给此模型,同时只输入一些最基本的规则,让该模型自己对信息进行处理和学习。继而再由人来对数据模型中所包含的词进行向量分布,确定词与词之间的关系,形成“词向量空间”。这一词向量空间所形成的结构性关系,可以被理解为是宇宙中的繁星所构成的天蝎座、仙女座等星丛与星丛之间的关系。其次,是监督学习阶段。在这一阶段,工作人员给模型提供任务并判断模型的任务完成度。根据评估结果,人工对相关参数进行修正,从而调整词向量空间的关系。最后是强化学习阶段。在这一阶段,模型会被提供更多新的任务,并通过人工方式对其完成度进行评分。接着,ChatGPT会根据分数高低自动调整其人工标注。经过以上三个阶段的训练后,对ChatGPT的训练即基本完成。此后,ChatGPT采用一套被称为“基于自注意力机制的神经网络架构”加以运行。通俗来讲,这一运行过程可以被视为用词语接龙的方式完成对于下一个词语的预测。
不难发现,ChatGPT并没有所谓的“文本数据库”或“知识库”。它仅包含一个数据模型,其中又包含着已经被训练完成的词向量空间。这个数据模型的生成终止于其结束训练的时刻,如GPT-3.5的所有数据仅限于2021年。不过,到了GPT-4,该模型已具备联网能力,能够实现实时的数据库挖掘和反馈,其演化速度也会飞速增加,不确定性也将更大。这也是为什么马斯克等人对未来的GPT-5持担忧态度的原因。因为在人类还没有打开算法黑箱的情况下就贸然让它快速成长,将面临人类无法驾驭人工智能的危险。
Transformer大语言模型是一种经典的生成结构,已被广泛地用于大语言模型的执行过程。这一执行过程可被简单地视为包含一个编码输入和解码输出的过程。在此过程中,ChatGPT通过算法实现了对指令的有效回复。该模型通过输入嵌入层对输入信息进行编码,并将其嵌入位置信息。进而,模型通过多头注意机制和前馈,也即预训练系统所积累的“经验”,使用一套基于自注意机制的算法来反馈并确定其有效性,并根据反馈赋予其不同的权重。在对所有信息反馈进行加权求和后,最终导出的标准性结果即为所输出的内容。举例来说,假设在模型中输入“你吃”两个词,系统会调用现有的文本数据集,提取可能的后续词汇,如“饭”“菜”等。接着,模型通过编码的位置信息,即上下文语境,计算出每个词出现的概率,从而选择概率最大的词作为输出对象。
(二)将算法引入文论,需要有一个从理论想象到理论实现的过程
事实上,在20 世纪西方文论中,已有大量理解与人工智能算法相似或相关的某些理论思维。罗兰·巴特在《S/Z》中提出“可写性文本”这一概念,意为 “无小说的故事性,无诗歌的诗意,无论述的随笔,无风格的写作,无产品的生产,无结构的结构化”。它指的是一种被打散的结构,一种能以任何方式被重新解构的、具有可生成性潜质的文本。在传统的纸质书籍中,文本在被印刷出来时就已经被确定了。而罗兰·巴特尝试将文本从作品中解放出来——只有解放文本,它才能够被拆散和重组。在纸质的书写文学的时代,“可写性文本”可能难以理解,但在今天的数字时代,它就是现实。在罗兰·巴特发表了《S/Z》的前3年,卡尔维诺(Italo Calvino)发表了《控制论与幽灵(关于作为组合式过程的叙事文学的笔记)》,开始思考未来的以电脑作为工具的文学创作。他构想了一种新的文本,也即由香农、维纳的信息论、控制论所创造出的“文学机器”:“今天,我们倾向于将它视为一系列断续的状态,或者数量有限(一套巨大但有限的数字)的传感器和控制机构上面的脉冲的组合。电脑还远远不能行使人脑的所有功能,却已经能够为我们的记忆、思想上的关联、我们的想象,还有我们意识中最复杂的过程,提供一个令人信服的理论模式。……没有任何东西禁止我们想象出这样的一台文学机器:从某个时刻开始,它不再满足于自身的传统主义,于是提出对于写作的一些新的理解,并且彻底打乱自身的所有规则”。卡尔维诺认为,“那才是能够与假设的理论完全相符的文学,也就是终于成为文学。”值得注意的是,卡尔维诺写出这篇文章前后,法国的结构主义正达到顶峰,后结构主义正在兴起。在法国的文化理论从结构主义向后结构主义的转向过程中,克里斯蒂娃也提出了著名的互文性理论。卡尔维诺所探讨的“文学机器”观念与它们构成了共鸣、呼应与同构的关系。
结构主义与信息论、控制论的某些思想所具有的这种同构性并非只是个案。早在法国结构主义运动之前,普罗普的故事形态学研究已出现了类似的理论思维。除了耳熟能详的对“功能”和“角色”的区分外,普罗普对民间故事中“功能”与“功能”的衔接、“角色”与“角色”之间的转换以及“主题”及其意义在海量“功能”与“角色”中的不断生成和发展的描述,极其类似人工智能算法的“映射”和“迭代”。《故事形态学》的分析模式也与现在人工智能信息迭代的模式相似:所有的信息在不断迭代的过程中确定下一个向量的特征,然后实现意义的生成输出。结构主义的分析方法也为我们将语言理解为一种不断生成的过程提供了想象空间。在索绪尔结构语言学提供的能指和所指的结构基础上,罗兰·巴特增加了二级符号系统——“神话”。按照罗兰·巴特的理解,这种“神话”不是一次性完成的,不仅仅有二级符号系统,还可以有三级、四级以至于无穷的符号系统。这正是对符号及其意指实践的“生成性”的完美诠释。类似的理论在受结构主义影响下的经典叙事学研究中也能找到典型案例。当我们论及叙事学,通常会提及热奈特、托多罗夫,或者格雷马斯,但很少关注布雷蒙。在布雷蒙设计的“简单序列”模型中,所有的叙事都从基本的动力“可能性”开始。接着可分出可能性“变为现实/没有变成现实”,“目的达到/目的没有达到”的路径。值得注意的是,布雷蒙叙事理论中的“可能性”也与信息论中对未来的“预期”存在相同之处。所谓信息论中的不确定性,也即可能性的问题——当可能性大时,确定性也就越高;当可能性小时,不确定性也就越高。因此,将布雷蒙的可能性叙事结构理论转化为信息学或许是一个最为简单的途径。基于“简单序列”,布雷蒙进一步总结出了各种“复合序列”及其更为复杂的组合模式;他还为叙事循环设置了改善和恶化两个路径,等等。所有这些对叙事序列的描述都具有被置换为0和1的编程语言的可能。
进入20世纪70年代,随着大规模和超大规模集成电路被应用于计算机的制造,人类进入微型计算机的新时代。计算机的应用场景也从科学计算、事务管理和过程控制逐步进入人们的日常生活,甚至走进家庭,人们也开始尝试用计算机来从事文学艺术的创作。由此出现的新媒体艺术便具有了真正的“以算法为对象”的艺术活动的特征。在这一时期,斯图尔特·霍尔的“编码/解码”理论也成为理解文学意义生成过程的非常有效的理论模型。德勒兹的“块茎”思想如果仅仅被用于理解文学自身时会显得有些迂回,但若将其运用于理解新媒体艺术、数字艺术以及这个时代的发展,则显现出高度的契合性。围绕新媒体时代艺术的发展,也开始出现直接以算法为对象的文学研究,例如阿尔瑟斯(Espen Aarseth)的遍历文学研究和玛丽-劳尔·瑞安(Marie-Laure Ryan)的数字叙事研究。阿尔瑟斯用“ergodic”(遍历)来描述一种随机、自动、非简单重复的生成性文学特征。它不仅包括“基于文本的冒险游戏和自动生成故事和诗歌的程序”,而且还可能包含“其自己的机器来操纵它自己(例如计算机程序)”的情况。不同于阿尔瑟斯对遍历文学文本的完成性和封闭性的分析,玛丽-劳尔·瑞安认为应该“把叙事学看作一项未完成的项目。倘若说经典叙事学未能通过互动文本性的检验,那也并非意味着互动文本性也未能通过叙事性的检验”,因此,她主张拓展叙事研究的领域,将“数字叙事”“计算机叙事”纳入研究范围。为此,玛丽-劳尔·瑞安列举了出现在新媒体艺术中的各种模式组合的文本——讲述式、表征式、回顾式、脚本式、接受式、自主式、确定式、字面式等。她虽然描写并命名了不同的类型,但其实并没有提供一个统一的分类标准,有的只是根据不同的文本形态进行的命名。因此,玛丽-劳尔·瑞安的新媒体艺术的叙事分析虽然很专业,但并不很深刻。不过,瑞安确实已经将数字时代的叙事学理论往前推进了一大步,尤其是她在《故事的变身》中提出的互动性类型分析框架,将用户的参与纳入到叙事分析中,为互动叙事这一重要问题提供了基础。除此之外,列夫·马诺维奇的新媒体艺术研究也值得特别关注。在《新媒体的语言》中,马诺维奇提出了一个有趣的观点:数据库与叙述是相互对立的,但二者开启了交互性叙述的可能性。无论是玛丽-劳尔·瑞安还是列夫·马诺维奇,都向我们指出了从交互性理解人工智能艺术及数字叙事(更准确的说是“赛博叙事”)的重要性。
(三)在上述基础上,人工智能时代出现基于算法的“人-机互动”“可写阐释”现象
在人工智能时代的文学阐释中,人-机互动是最为核心的问题。我们不应将文学阐释简单地理解为文本性阐释,即从作家创作、作品完成,再到读者解读的过程。人工智能对文学的影响包括文学活动的作者、读者、文本、世界四个方面,同时也涉及文学创作和文学批评这两个层面。而人-机互动是最有助于我们理解AI 时代的文学阐释、文学算法问题的结构化因素。我们可以区分出四种人-机互动关系。第一,“人[生]-机[用]”,即人类创作,AI 评论。第二,“人-机[互生互用]”,即人提出指令,AI 执行。简言之,即是将人工智能理解为人类的一个智能助理。第三,“机-人[互生互用]”,即AI 自主生成,人成为被动参与。第四,“机[生]-人[用]”,即AI 写作,人类阅读、评论。到了这个阶段,就形成了无须指令的AI自主写作。我们尚不能确定最后两种关系是否在未来会真的实现,但至少从理论模型上可以推导出这两种可能性。
依托这个分析框架可以进一步探讨ChatGPT的文本生成属于何种人-机互动模式。在这个问题上,玛丽-劳尔·瑞安的《故事的变身》提供了一个新的解释方案,她将人-机互动的关系从两个维度分成了四种类型。一方面,瑞安区分了“外在视角”和“内在视角”。“外在视角”可以被视为“上帝视角”,即处于虚拟世界外部,而“内在视角”指的是以化身的视角处于虚拟世界内部。例如,在我们使用电脑时,我们外在地操作电脑系统,从而是一种外在视角。而当我们玩一个电脑游戏时,我们通过选择扮演某一游戏角色,以化身身份进入游戏的虚拟世界,从而处在内在视角。不过,目前的化身形式仅限于角色扮演的初级阶段。在新的阶段,如《头号玩家》、“元宇宙”的化身阶段,我们才能够真正实现内在视角,不过现在尚未实现。另一方面,瑞安又区分了“探索互动性”和“本体互动性”。“探索互动性”指的是用户只使用虚拟世界的视角,而不改变虚拟世界本身。“本体互动性”指的则是用户不仅使用,而且改变了虚拟世界的历史分岔。瑞安这一分析框架最大的贡献是将用户的参与纳入叙事分析。用户不再是一个被动的接受者(读者),而是能够去参与、改变、创造新的叙事的可能性的主体。但用户也并非凭空创造,而只能改变既有的文本,为其提供呈现的可能性。这就是一种互动的过程——这是此前所有的叙事文本理论都没有触及的新问题。
在这一“内生/外生”、“探索/互动”的分析框架下,我们可以初步做出以下判断:当前的人机对话是人类作为用户,以外在的方式探索ChatGPT,且由于人类并不改变ChatGPT,其生成的内容也不会进行自我保存,因而目前的人-机互动模式可能基本还处于外在-探索互动型阶段。不过,当GPT-4可以联网,可以自我更新迭代之后,用瑞安的理论,它就可能由外在-探索互动型演变为外在-本体互动型。当然,在 ChatGPT自身内部存在一个生成性的过程,我们可以称之为内生性过程。这一过程也包含探索性、本体性、外在性等方面。那么,我们可以进一步提问:未来的ChatGPT是否能够被塑形?也就是说,未来我们是否能够将ChatGPT装在一个机器人脑中,赋予它某种自主意识,让它能够自主控制机器身体,使其成为一个具有自主行动能力的主体?当下,这个问题尚待验证,目前人们只能尝试去推演它的存在过程。在这一推演过程中,玛丽-劳尔·瑞安探索新媒体叙事学的理论框架可能对理解人工智能人机互动的关系提供启示。
综合以上对ChatGPT算法的理解以及西方文论所提供的各种理论资源的调用,我们可以试图对ChatGPT算法的进行一种理论性的描述了。这一描述可以围绕三个关键词展开:转换器(transformer)、预训练(pre-trained)、生成的/有生产力的(generative)。
A. 转换器(transformer)。Transformer是一种大型语言模型,这与索绪尔所描述的基于规则的语法结构具有一定的对应性。Transformer模型通过词向量空间实现人机之间的互动过程,实际上就类似于通过问答实现言语交谈,而这两种语言生成过程都在一定的规则体系下实现。ChatGPT-3.5及之前的机器算法和编程语言是模式化、结构化的,这意味着这些机器语言的规则无法实时改变。但是到了GPT-4之后,这一语法结构具有了改变的可能性,具有更强的不稳定性,也就越来越像人类不断自我更新创造的自然语言。
B. 预训练(pre-trained)。预训练可被视为一种语言习得的过程。无论是监督还是无监督的预训练,实际上都参照了人类的语言习得过程。在这一过程中,我们将人类的各种日常语言、经验、先验知识、常识、前见、成规,以及语言使用和意义识别方式都灌注给了这个大语言模型。因此,大语言模型所有词向量中的标记其实都包含了人类的经验。因此,ChatGPT的预训练实质上是一个优化过程。正如艺术的熏陶是一种学习和成长过程,ChatGPT的预训练也是如此。一个可能性的结果是,ChatGPT在经过预训练之后能够完成对艺术、语言、审美、价值、意义、情感等因素的表达。但是颇为吊诡的是,ChatGPT没有情感、记忆和对自我行为的理解,那么,我们该如何认识ChatGPT的这种文学性表达?
C. 生成的/有生产力的(generative)。当我们持续输入和输出,ChatGPT会不断生成新的内容。这些内容是ChatGPT所征引的人类已有的知识,还是它创造的全新的知识?在此,我们可以暂时不去考虑基于传统的书面印刷文字而形成的属于知识产权范围的著作权概念。因为这一概念本身已受到了严重的挑战。我们仅仅从“创造”“创新”“创意”的可能性角度来思考:基于GPT所创造出来的文本、图像、音频、视频是否不仅仅是“前未有过”的,而且还是“颇有新意”的?
综合以上观点,一个可能的结论是:以算法为对象的文学阐释,是以经过优化的完成预训练的大型语言模型为语法,以“输入-编码”和“输出-解码”的问答式交互所生成的体现意图、创意和差异化的具有结构性和可写阐释性的文本为言语的文学阐释。借用罗兰·巴特“可写性文本”的概念,以算法为对象的文学阐释可以被命名为“可写阐释”。