1953年,罗尔德·达尔(Roald Dahl)发表了短篇小说《伟大的自动语法生成器》(The Great Automatic Grammatizator),讲述了一位电气工程师暗自渴望成为作家的故事。某天,在建成了世界上最快的计算机后,这位工程师意识到“英语语法受到几乎像数学一样严谨的规则的支配”。他发明了一台小说写作机器,这台机器可以在三十秒内生成一篇五千字的短篇小说、在十五分钟内生成一部长篇小说,操作者需要操纵手柄和脚踏板来调节幽默和悲伤的程度,就像开车或演奏管风琴一样。结果,这些小说大受欢迎,一年之内,英语出版的小说中有一半都出自这位工程师的发明。
艺术有什么特别之处,能让它不像达尔想象的那样,通过按下一个按钮就能创造吗?目前,像ChatGPT这样的大语言模型生成的小说还很糟糕,但我们可以想象未来这些程序可能会有所改进。它们能变得有多好?它们能否像计算器在加减法上比人类更胜一筹那样,在写小说、绘画或制作电影方面比人类更出色?
罗尔德·达尔《伟大的自动语法生成器》1997年版封面。
众所周知,艺术的定义、好艺术与坏艺术之间的区别难以界定。但让我提出一个概括性的观点:
艺术是众多选择的结果。
如果我们以小说创作为例可能最容易解释这一点。当你写小说时,无论你有没有意识到,你几乎在你输入的每一个词上做选择。
简单来说,我们可以想象一篇一万字的短篇小说需要大约一万个选择。但当你给生成式人工智能程序提示词时,你做的选择非常少。如果你提供一百字的提示词,你只做了大约一百个选择。
如果人工智能根据你的提示生成了一篇一万字的小说,它必须弥补你没有做出的所有选择。它可以通过多种方式做到这一点。一种是将例如网络文章当中其他作者已经做出的选择平均化。这种平均差不多是所有可能的选择中最无趣的一种,这就是为什么人工智能生成的文本通常非常平淡。另一种是让程序进行风格模仿,去模仿某一个特定作家的选择,这会产生高度雷同的故事。在这两种情况下,它都没有创作出有趣的艺术。
我认为尽管画家所做的选择更难量化,但同样的基本原则也适用于视觉艺术。真正的画作承载着大量决策的痕迹。相比之下,使用像DALL-E[1]这样“文本-图像”生成程序的人只是输入提示词,比如“一个穿着盔甲的骑士与一条喷火的龙战斗”,然后让程序完成剩下的工作。(最新版本的DALL-E最多接受四千个字符也就是大概几百个单词的提示词,这并不足以描述场景的每一个细节。)生成图像中的大多数选择必须借鉴网络上已有的类似画作。图像可能会得到精细的渲染,但这并不能归功于输入提示词的人。
DALL-E生成的非洲大草原场景。
一些评论家认为,图像生成器将对视觉文化产生与摄影术问世一样重大的影响。尽管这表面上看起来很合理,但将摄影与生成式人工智能相提并论的想法值得更仔细的审视。摄影术诞生之初,或许并不被视为一种艺术媒介,因为人们似乎并不能对它做出多少选择,只需架好相机并开始曝光。但随着时间的推移,人们意识到可以用相机做很多事情,而艺术性也就潜藏于摄影师所做的众多选择之中。或许很难说清这些选择都是什么,但当你将业余摄影师的作品与专业摄影师的进行比较时,你就可以看出区别。那么问题就变成了:使用“文本-图像”生成器时是否有类似的机会做出大量选择?我认为答案是否定的。无论是数字绘画还是传统绘画的艺术家,他们在创作过程中暗中做出的决策都比几百字的文本提示词所能涵盖的决策多得多。
我们可以想象一个“文本-图像”生成器,经过多次会话之后,它允许你在其文本框中输入数万字,以实现对生成图像极其精细的控制,这将类似于具有纯文本界面的Photoshop。我认为,使用这种程序的人仍然可以被称为艺术家。电影导演贝尼特·米勒(Bennett Miller)曾使用DALL-E 2生成了一些非常引人注目的图像,并在高古轩画廊[2](Gagosian Gallery)展出。为了创作这些图像,他精心制作了详细的文本提示,然后指示DALL-E一遍又一遍地修改和调整生成的图像。他生成了超过十万张图像,最终选出其中的二十张展览。但他表示,在DALL-E的后续版本中,他无法获得类似的结果。我怀疑这可能是因为米勒将DALL-E用于它设计用途以外的事情。就好比他黑进了Microsoft Paint使其像Photoshop一样工作,但一旦新版本的Microsoft Paint发布,他的黑科技就失效了。OpenAI可能并不打算开发产品为米勒这样的用户服务,因为一个需要用户花费数月时间才能生成图像的产品对普罗大众没有吸引力。该公司希望提供一种毫不费力就能生成图像的产品。
贝尼特·米勒生成图像1,无题,2024
很难想象一个程序经过多次会话能帮助你写出一部好的小说。这个假想中的写作程序可能要求你输入十万字的提示词,以便它生成完全不同的十万字来构成你所想象的小说。我不清楚这样的程序会是什么样子。理论上,如果这样的程序存在,用户或许可以被称为作者。但同样,我认为OpenAI这样的公司并不希望创建这样的ChatGPT版本,让他们的用户像从零开始写小说一样费力。
生成式人工智能的卖点在于输出内容远远多于输入内容,而这正是它们无法成为艺术家有效工具的原因。
推广生成式人工智能程序的公司声称它们将激发创造力。本质上而言,他们是在说艺术可以全是灵感,没有汗水——但这两者不能轻易分开。
我并不是说艺术必须涉及繁琐的工作。我的意思是,艺术需要在每一个尺度上做出选择。对最终作品而言,在创作过程中做出的无数小选择与在构思过程中做出的少数大决策同样重要。在艺术创作中,将“大”与“重要”等同起来是错误的,大尺度与小尺度之间的相互关系才是艺术性所在。
我怀疑相信“灵感胜过一切”的人并不熟悉艺术创作的工具。我认为,即使一个人的目标是制作娱乐内容而不是创作高雅艺术,这一点也同样适用。人们常常低估制作娱乐内容所需的努力。一部惊悚小说可能做不到卡夫卡所说的那样,成为“一把劈开我们心中冰封海洋的斧头”,但它仍然可以像瑞士手表一样被精心创造。只有基础设定和情节构不成一部恐怖生动的惊悚小说。我认为你无法用语义相同的句子替换惊悚小说中的每一句话,并使生成的小说同样有趣。这说明惊悚小说中的句子以及它们所代表的小尺度选择有助于决定惊悚小说的效果。
贝尼特·米勒生成图像2,无题,2024
许多小说家都有过这样的经历:有人找到他们,确信自己有一个伟大的小说创意,并愿意分享这个创意以换取一半的收益。这样的人无意中透露出,他们认为构思句子是麻烦的琐事,而不是故事写作的基础。生成式人工智能吸引的是那些认为自己可以不实际运用某个媒介工具就能表达自己的人。但传统小说、绘画和电影的创作者之所以被这些艺术形式吸引,是因为他们看到了每种媒介所具有的独特表达潜力。正是想要充分利用这种潜力的渴望使他们的作品无论是作为娱乐产品还是艺术品都令人满意。
当然,大多数写作,无论是文章、报告还是电子邮件,都不需要数千次的选择。在这种情况下,自动化任务处理有什么害处吗?让我提出另一个概括性的观点:只有作者付出努力的写作才值得读者关注。写作过程中的努力并不能保证最终作品值得一读,但没有努力就无法创作出有价值的作品。你在阅读个人电子邮件时投入的注意力与阅读商业报告时不同,但在两种情况下,只有当作者将他的想法注入其中时,读者的注意力才是值得的。
最近,谷歌在巴黎奥运会期间播放了一则其产品Gemini的广告,这款产品被谷歌用来与OpenAI的GPT-4竞争。广告展示了一位父亲使用Gemini撰写一封粉丝信,他的女儿将把封信寄给一位激励她的奥运选手。谷歌在观众广泛反对后撤下了这则广告。一位媒体教授称其为“我见过的最令人不安的广告之一”。值得注意的是,尽管(在这则广告当中)被AI取代的并非艺术创造力,但人们还是做出了这样的反应。没有人期望一个孩子写给运动员的粉丝信会与众不同,如果这个小女孩自己写了这封信,它很可能与其他无数信件无异。但无论是对于写信的孩子还是收到信的运动员而言,一个孩子的粉丝信的意义在于发自内心,而非辞藻华丽。
上图来自谷歌广告《亲爱的西尼》
我们中的许多人都曾寄过在商店购买的贺卡,知道收件人会清楚地看出这不是我们自己写的。我们不会把从贺曼(Hallmark)公司[3]购买的贺卡上的内容再手抄一遍,因为那会让人觉得不诚实。程序员西蒙·威利森(Simon Willison)将大语言模型的训练描述为“受版权保护的数据的洗钱”,我发现这是一种思考生成式人工智能程序吸引力的有效方式:它们让你参与类似抄袭的行为,但不会给你带来与之相关的愧疚感,因为甚至连你自己也不清楚你在抄袭。
有些人声称,大语言模型并不是在漂洗训练它们的文本,而是在从中学习,就像人类作家从他们读过的书中学习一样。但大语言模型不是作家,甚至算不上是语言的使用者。语言,顾名思义,是一种交流系统,它需要交流的意愿。你手机的自动补全功能可能会提供好的建议或坏的建议,但在任何情况下,它都不是试图对你或者是对你正在发短信的人说什么。ChatGPT可以生成连贯的语句,这让我们不禁想象它能以某种手机自动补全功能做不到的方式理解语言,但实际上它并没有更多的交流意图。
让ChatGPT发出一系列诸如“我很高兴见到你”的词语非常容易。关于大语言模型的工作原理,我们有很多不了解的地方,但我们可以确定的一件事是,ChatGPT并不高兴见到你。一只狗可以表达它很高兴见到你,一个前语言阶段的孩子也可以,尽管两者都缺乏使用词语的能力。ChatGPT没有任何感觉或欲望,这种目的的缺位就是ChatGPT实际上并没有使用语言的原因。使“我很高兴见到你”这句话成为语言话语(linguistic utterance)的,并不是语序通顺的遣词造句,而是交流的意愿。
因为语言对我们来说如此容易,我们很容易忘记它建立在主观感受和交流意愿之上。当大语言模型生成连贯的句子时,我们很容易将这些体验投射到它身上,但这样做实际上只是被它的模仿所迷惑了。这就像当蝴蝶进化出翅膀上的大黑点时,它可以欺骗鸟类,让鸟以为它们是有着大眼睛的捕食者。在某些情况下,黑点就足够了,鸟不太可能捕食这些有黑点的蝴蝶,而蝴蝶并不真正关心它为什么不被捕食,只要它能活下去即可。但蝴蝶与对鸟类构成威胁的捕食者之间有很大的区别。
使用生成式人工智能帮助他们写作的人可能会声称,大语言模型是从训练它的文本中汲取灵感,但我再次强调,这与我们通常所说的一个作家从另一个作家那里汲取灵感并不相同。我们可以想象一个大学生提交了一篇论文,这篇论文完全由一本书中的五页引文组成,她声称这段引文准确地传达了她想说的内容,并且比她自己表达得更好。即使学生完全诚实地告诉导师她做了什么,这也不能说成是她从她引用的书中汲取灵感。大语言模型可以重新组织引文,使其来源无法识别,但这并没有改变事情的本质。
正如语言学家艾米丽·M·本德(Emily M.Bender)所指出的,老师让学生写论文并不是因为世界需要更多的学生论文。写论文的目的是强化学生的批判性思维能力。就像举重训练对任何运动项目的运动员来说都很有用一样,写论文培养了大学生无论最终从事什么工作都必需的技能。使用ChatGPT完成作业就像把叉车开进健身房,那样你永远不会提高你的认知能力。
并非所有的写作都需要有创造性、发自内心,或者精彩绝伦,有时只是不得不写。这样的写作可能服务于其他目的,比如为广告吸引点击量或满足官僚机构的需要。当人们被要求写作这类文本时,我们很难责怪他们使用任何可用的工具来加速写作进程。但世界会因为有了更多几乎无需费力的文件而变得更好吗?如果我们拒绝使用大语言模型,那么对低质量文本的需求就会消失,这种说法是不现实的。然而,我认为不可避免的是,我们越是使用大语言模型来满足这些需求,这些需求最终会变得越多。我们正在进入一个时代,在这个时代,人们可能会使用大语言模型从项目列表中生成一个文档,并将其发送给他人,接收者再使用大语言模型将该文档压缩成项目列表。谁能认真地说这是一种进步呢?
大型语言模型(LLM)之一, OpenAI 的 ChatGPT。
在OpenAI 发布 ChatGPT 前两周,Meta 发布Galactica 试用版模型,不久因生成文本的幻觉水平较高被下架。