专栏名称: 混沌巡洋舰
混沌巡洋舰, 给您洞穿未来的视力。我们以跨界为特色, 用理工科大牛的科学思维帮你梳理世界的脉络。
目录
相关文章推荐
昌吉日报  ·  视觉·昌吉|昌吉体育馆,明日精彩继续! ·  2 天前  
昌吉日报  ·  视觉·昌吉|昌吉体育馆,明日精彩继续! ·  2 天前  
FM107太原交通广播  ·  火力全开!山西男篮赛季三杀广东男篮! ·  2 天前  
FM107太原交通广播  ·  火力全开!山西男篮赛季三杀广东男篮! ·  2 天前  
苏群  ·  这场加时,是詹姆斯“抢”来的 ·  3 天前  
野球帝  ·  自家球袜,33元3双! ·  3 天前  
51好读  ›  专栏  ›  混沌巡洋舰

1.5万字长文:PNAS 综述-用于社会科学的生成式AI

混沌巡洋舰  · 公众号  ·  · 2024-07-09 00:00

正文

导读:生成式人工智能,一种能够生成逼真文本、图像等类似人类输出的技术,正在改变众多行业。但其对社会科学研究的影响尚不明确。近日 PNAS 的综述论文,探讨了该技术如何有希望提升调查研究、在线实验、自动化内容分析以及基于主体的模型等研究人类行为的方法。文章探讨生成式人工智能的局限性,包括训练数据偏见如何影响社会科学研究,以及伦理、可复制性、环境影响和低质量研究扩散等挑战。最后,该文认为社会科学家可以通过建立开源研究基础设施来应对这些挑战,这不仅有助于广泛获取高质量研究工具,也是深入理解指导人类行为的社会力量的关键。


https://www.pnas.org/doi/10.1073/pnas.2314021121

1 )摘要:

生成式人工智能( Generative AI)——一种能够产生逼真文本、图像、音乐和其他创意形式的技术——继续吸引着大量关注。许多人推测这种技术将影响一系列行业和科学领域——从创意和法律写作到计算生物学。然而,社会学家、政治学家、经济学家和其他社会科学家才刚刚开始探索生成式人工智能将如何转变他们的研究。生成式人工智能 可能会推进社会科学研究的规模、范围和速度——并且可能使新的科学探究形式成为可能 。使用生成式人工智能模型可模拟动态人类行为的研究。这些包括人类受访者与生成式人工智能互动的实验,或研究人员提示模型相互互动以研究新兴群体行为的模拟。 我认为这样的研究可能有助于社会科学家开始逆向工程人类的“社会感”——或我们在不同社会环境中如何创造关于可接受行为的共同理解。 生成式人工智能有潜力非常快速地分析许多不同语言的大量文档,我建议它们可能显著扩大社会科学家可以研究的研究问题范围。

围绕生成式人工智能的公共讨论大多集中在“奇点”的可能性上,即人工智能模型超越人类智能并威胁我们的福祉。许多学者认为,这样的担忧忽视了已经发生的短期内的社会危害(1)。这些包括生成式人工智能强烈偏见受污名化群体、传播错误信息,以及可能加剧社会不平等或气候变化等负面结果。这些问题可能对社会科学研究的质量、效率、可解释性和可复制性产生负面影响——并产生关于伦理和人类受试者保护的新问题。生成式人工智能还可能生成和传播“垃圾科学”,这可能会阻碍未来多年的科学探究。而 减轻这些风险是具有挑战性的,因为用于训练生成式人工智能的过程在很大程度上是不透明的——而且准确检测人工智能生成内容的工具还未能大规模有效。

文章的最后部分指出社会科学家可以通过创建我们自己的开源基础设施( 2)来应对许多生成式人工智能研究的挑战。通过开发我们自己的生成式人工智能模型,社会科学家可以更有效地诊断模型训练过程如何影响人类行为的科学分析,并确保这些新工具按照科学的利益而不是目前生产许多最受欢迎模型的公司的利益发展。最重要的是, 源基础设施可以创建一个学者社区,他们致力于确定使用生成式人工智能进行研究的最佳实践,防止这些工具复制学术等级制度,并允许社会科学家开发未来挑战的解决方案,并防止这些工具被恶意利用。

2 )什么是生成式人工智能

生成式人工智能( Generative AI)是指一组由统计学、计算机科学和工程学研究人员开发的广泛工具,有时被称为“基础模型”。在较高层次上,这个术语标志着机器学习技术使用的转变,从模式识别——创建工具以识别文本、图像或其他非结构化数据集中的潜在模式——转向通过在大量数据集上训练的算法生成自由形式的文本、图像和视频,这些数据集通常来自在线来源。大语言模型(LLMs)如ChatGPT吞噬了大量的基于文本的数据,并确定了一个词(或一组词)在给定文本段落中存在其他语言模式时的出现概率。随着技术的发展,允许人工智能研究人员在越来越多的文本上训练这些模型,并且有了transformer架构,像GPT-3在预测最可能跟随不同“提示”的语言方面变得更加熟练——“提示词”是设计来塑造LLM输出的短文本片段,如一个问题。因此,LLMs类似于过去十年在搜索引擎、应用程序和其他数字空间变得普遍的“自动完成”技术,但具有更大的规模和更复杂的训练过程,下面将详细描述。尽管学者们辩论LLMs是否“理解”它们产生的输出,但许多人对其在对话环境中的模仿人类、综合不同来源的信息和进行基本推理的能力印象深刻(4–6)。

1 这是一个关于生成式代理约翰 · 林的一天早晨的故事。约翰在早上 6 点左右醒来,开始了他的日常早晨活动:刷牙、洗澡,然后享用早餐。在与妻子梅和儿子埃迪简短交流之后,他准备出门开始一天的工作。 来自 6

2 生成式代理架构设计:代理能够感知周围环境,并且所有感知信息都被保存在一个称为 记忆流 的全面记录中。根据感知信息,架构会检索相关的记忆,并利用这些记忆来确定下一步的行动。此外,这些记忆还被用来制定长期计划,进行高层次思考,这些内容也会被记录在记忆流中,以供未来参考。来自 6

3 )生成式 AI 为社会科学带来的机会

尽管生成式人工智能模型存在重大缺陷,但它们似乎能够在某些环境中模仿人类。计算机科学家艾伦·图灵是最早提出通过确定人类是否能够区分由人还是人工智能产生的内容来评估人工智能的人之一。使用GPT-2,这是ChatGPT的前身,产生质量较低的文本,Kreps等人研究了参与者是否能够区分这个LLM和美国外交政策声明的人类受访者生成的简短声明(7)。 他们发现 GPT-2能够成功地模仿人类,甚至可以写出关于国际事务的长篇新闻故事,这些故事被认为与真正的记者撰写的新闻故事一样可信。 在最近的一项研究中, Jakesch等人检查了人类调查受访者是否能够辨别关于工作招聘和在线约会个人资料文本是由人类还是LLMs创建的(5)。他们显示,在一系列实验中, 人类在很大程度上无法确定这些文本是由人类还是 LLMs撰写的 。最后, Zhou等人表明,GPT-3可以轻松地产生关于COVID-19的错误信息,这些信息可以逃避大多数社交媒体平台的检测(8)。更近的研究表明, AI生成的内容可以影响人类的态度,即使它是虚假或误导性的 9, 10)。

有证据表明生成式人工智能在模仿更复杂的人类行为方面表现良好。例如, Argyle等人指出, GPT-3能够准确地模仿具有不同人口统计背景的全国代表性公众意见调查的受访者 11)。例如,向此类工具提供关于受访者的特征细节,会使它们在回答公众意见调查时,以与具有相同属性的真实受访者非常相似的方式作出回应。一些人认为,这些“硅样本”可以用来产生比许多大学研究人员使用的方便样本更多样化的样本,并且还可能允许研究人员使用更长的调查工具,因为大型语言模型(LLM)具有潜在的无限注意力跨度(12)。

同时,最近的研究表明, GPT 3.5 turbo 能够准确估计一个群体内态度的平均值,但低估了变异性——夸大了极端态度 13)。另一项研究显示,LLM 在是/否问题中表现出肯定的偏见(14)。研究还表明,LLM 在代表某些人口亚群体方面比其他方面更准确(13, 15)。然而,这些研究并未使用最新模型,并且仅关注一个国家:美国。了解大型语言模型(LLM)和人类对调查问卷的反应差异可能非常重要,因为这些工具正在被恶意行为者训练来模仿受访者,以操纵调查行业(16)。尽管硅样本不会很快取代人类受访者的调查研究,但它们仍然可以非常有用,用于在将调查问卷发送给大量人类受访者之前进行预测试(需要相当大的成本),或者用于插补缺失数据(11, 17)。一些人认为生成式人工智能也是创建调查问题或设计多项目标度以衡量抽象社会概念的有用工具(18)。

3:使用大模型模拟问卷调查的研究 框架的概述。来自 17

还有证据表明,生成式人工智能可以用来复制实验。例如, Horton 等人认为,使用 GPT-3 创建的合成研究受访者可以用来复制行为经济学中的几个经典研究(19)。 同样, Aher 等人表明,GPT-3 也可以复制经典的社会心理学实验——包括臭名昭著的米尔格兰姆实验——尽管他们认为它无法复制“群体智慧”现象 20)。其他研究还表明,LLM 可以复制认知科学和道德研究的经典实验,并在囚徒困境和其他行为游戏中复制人类行为(21–24)。Ashokkumar 等人发现,GPT-4 生成的响应与 482 项研究中观察到的治疗效果之间的相关性为 0.86。他们还发现,这种相关性适用于已发表和未发表的研究,以及人口亚群体(25)。 生成式人工智能模仿人类的能力可能随着模型规模的增加而提高,并且随着研究人员使用更丰富的数据形式(例如深入的定性访谈或详细的生活史)来提示 LLM 而提高

4 将最后通牒博弈( Ultimatum Game TE)模拟与人类受试者研究进行比较:接受报价的比例与10美元的报价金额。展示的模拟响应曲线是针对使用LM-1和LM-5模型的10,000个名称对的所有模拟的平均值。在人类研究中发现的稳健结果也被标记出来,以供比较。(b)为了测试模型是否对报价的变化敏感,通过考察代理是否接受特定水平的报价。LM-5在报价1至4美元之间和报价6至9美元之间的名称对之间显示出强烈的皮尔逊相关性(> 0.9)。高正相关表明代理对不同报价敏感,并且这种敏感性是一致的,而不是随机的。 来自 20
5 :在 米尔格兰姆实验实验中。 300伏特(第20次电击)时,受害者开始拒绝参与实验,通过敲打墙壁和不选择答案,实验者告诉受试者电击受害者。在米尔格拉姆(1963年)实验1中,40名参与者中有26人遵循实验者的指示直到电击系列的结束。在米尔格拉姆电击的AI代理模拟中,100名模拟参与者中有75人遵循实验者的指示直到结束。

一个粗略测试生成式人工智能在社交环境中生成可信的人类行为的手段是多人在线游戏。虽然这些游戏当然无法模拟社会科学家感兴趣的人类行为的全部范围,但它们可能为评估这些工具在更复杂环境中的表现提供一个有用的基准。在生成式人工智能出现之前,视频游戏中的可信角色是通过简单的规则,或者通过“强化学习”创建的,其中AI角色根据与人类玩家的过去经验调整其行为。这些行为的关键在于一个系统,其中AI代理可以回忆先前的事件——或者表现出工作记忆。这种AI在视频游戏中已经很常见,AI系统甚至在许多更简单的游戏(如国际象棋、围棋和AlphaGo)中超过了人类玩家的能力已有多年。然而,最近的研究表明, LLM也可以学习在需要复杂推理和高层次策略才能击败人类玩家的游戏中使用自然语言,如Diplomacy 26, 27)。

6 Diplomacy中的外交合同(来自27)
另一项研究考察了 AI代理在多人游戏中的引入如何影响与他们一起游戏的玩家的行为。Dell’Aqua、Kogut和Perkowski研究了一个协作游戏超级马里奥,其中AI的表现被认为超过了人类玩家(28)。当AI代理在团队环境中引入时,研究人员发现当AI在他们的团队中时,人类代理的表现比全人类团队更差。作者认为AI代理的引入使人类玩家的协调变得更加困难——并且也减少了团队成员之间的信任。相反,Traeger等人发现,被训练在协作任务中表现不佳的自动化代理实际上可以改善人类团队成员的行为(29)。 可能 AI在完成任务时比人类更有技巧会导致挫败感和内斗,而AI表现出较少的技能则鼓励人类的同情和合作来克服糟糕的团队表现。

如果一群自动化代理能够以统一的方式派遣并在网上空间中创造可信的群体行为,这可能会启用新的研究形式。许多社会科学理论描述了塑造个体行为的群体层面过程。但是,招募大量人进行互动通常在逻辑上不可能,在财务上不可行——或者两者都是。虽然生成式AI可能永远不会复制人类群体的自发行为,研究人员仍然可能能够派遣一群机器人在在线空间中模拟这种行为。Allamong等人提供了一个这样的研究的概念证明(30)。这些研究人员对研究社交媒体用户在周围都是不持有他们政治观点的人时的行为感兴趣。但是,招募具有异质性信念的社交媒体用户进行互动是非常困难的(31)。相反,Allamong等人建立了一个社交媒体研究平台,其中受访者被招募与大型语言模型(LLM)互动,这些LLM被提示模仿反对党成员十分钟。虽然受访者被告知在研究的知情同意对话期间他们可能与自动化账户互动,但大多数参与者对是否与人类或机器人互动表示不确定。由于样本量较小,这些发现是初步的,但研究设计表明, LLM可能对研究群体层面过程有用,前提是研究人员在实时监控人类-AI互动时仔细注意幻觉或滥用

4 )大模型能否助力基于主体的研究

最近的研究表明,生成式人工智能工具也可能用于模拟大量人类人口本身。这可能丰富了“基于主体的建模”(ABM)范式,在该范式中,研究人员创建模拟社会来研究社会过程(32–34)。基于主体的建模要求研究人员使用计算机代码创建社会环境(如社交网络、邻里或市场)的复制品。研究人员还创建了根据人类行为理论规定的规则相互交互的代理。例如,一个研究人员可能将一个代理分配为两个身份群体之一的一员,然后模拟他们之间对领土控制的竞争。此类模型中的代理可以被分配诸如最大化自身利益(或他们所属群体的利益)的行为,并且这些参数可以系统地变化,以识别在更广泛的社会环境中可能出现的各种结果。

基于主体的建模的一个关键优势是,它允许研究人员探索假设的情景,并识别可以在宏观层面上产生模式(例如,住宅隔离)的个体级模式(如内群偏见) 。早期的 ABM使用了遵循简单规则的代理,例如,如果来自外群的成员搬进他们的社区,他们就搬到新的社区(34)。最近的工作使用了更多复杂的代理,它们可以具有许多特征——并且可以遵循使用类似人类决策过程的多个规则(例如,有界理性)(32, 36, 37)。然而, ABM 经常因为未能捕捉到人类行为的完整范围而受到批评 。例如, ABM 中的常规代理不使用语言,不解释社会环境,也不与彼此进行对话(39)。

最近的研究表明,大语言模型可能被用于解决基于模拟的研究的一些局限性。 Park 等人创建了一个模拟环境[6],其中数十个代理——由多个 GPT 3.5-turbo 实例独立驱动——在虚构的小镇环境中相互交互。研究人员为代理赋予了性格和特征(例如,“一个外向的药剂师”),并开发了一个软件基础设施,允许代理具有能够总结与其他代理过去交互的记忆。这些代理不仅发展了随着模拟进展的日常例行活动(例如,起床和吃早餐),还展示了涌现的群体属性。例如,一个代理宣布她要举办一个派对,其他代理开始讨论他们是否会参加。其中一个代理甚至邀请另一个代理参加这个活动,其他人则参与了关于这个新兴浪漫关系的闲谈。虽然这项研究创建了一个相对简单的小规模社会环境,但它提供了 生成式人工智能有潜力推进社会模拟研究的概念证明。

更近的研究表明, LLM 可以集成到基于主体的模型(ABM)中,以开发或测试更复杂的人类行为理论 。例如, Törnberg 等人创建了一个模拟的社交媒体平台,其中有五百个代理,其行为是通过美国国家选举研究(ANES)[39]的数据进行校准的。代理被提示阅读新闻故事并发表帖子——或喜欢内容——根据 ANES 受访者的社交媒体习惯和政治观点的信息。这项研究不仅复制了社交媒体平台上的已知动态,还模拟了如果它们使用旨在优化共识而不是用户参与的替代新闻源算法会发生什么[40]。另一项研究人使用真实世界的社交媒体数据校准了一个模型,他们声称该模型成功预测了关于性别歧视和核能的信息和情感的传播。该研究显示, LLM 可以复制社交媒体上的社会运动动态[ 41]。

7 :基于大模型模拟社交网络动态的流程图,来自 40

8 :通过大模型模拟社交网络互动对观点演化的流程图,来自 41

由于大多数 LLM可能是在大量社交媒体数据上进行训练的,因此复制此类平台内已知的人类动态可能代表了评估这些工具改进ABM更广泛前景的下限。然而,一些最近的研究表明,LLM可以在模拟的经济和劳动力市场(42, 43)、组织内部的信息传播和决策制定以及危机应对(41, 44, 45)中重现竞争动态。最后, 已经有一些最近的努力来生成用于基于代理的建模的软件框架,这可能会降低希望进一步扩展这一研究设计的社科研究者的入门成本 46, 47)。

9 Meta-agent ,用以模拟劳动力市场的框架,不同的求职者代理有预设的技能集。来自 43

10 :用以研究社会中文化习俗产生和传播的生成式主体建模的流程,来自 44

同时,将 LLM集成到ABM中可能会重新激发关于ABM的已有争议。学者们经常争论,如果可以用简约模型创建感兴趣的涌现群体动力学,那么增加代理的复杂性是否可取(33)。同样不清楚LLM在ABM中的表现应该如何评估。LLM在ABMS中复制已知群体动力学是否足够?或者,它们是否应该根据它们预测真实世界结果的能力来评估(37)?如果多个模型能够证实LLM生成的结果,我们是否会对LLM的结果更有信心(48)?如果是这样,LLM的概率性质可能会使学者难以复制彼此的研究成果,我在下文讨论的更详细。 未来研究也需要确定 LLM是否使ABM对随机性更敏感——或者它们是否提供了更多现实的人类行为不可预测性的表示。

如果这些问题可以得到解决,将 LLM与ABM集成可能会开辟新的研究方向。 这种方法可以用来研究在现实生活中非常难以考察的主题(例如,社交媒体上的暴力极端主义),或者研究非常难以接触的群体(例如,暴力极端主义者) 12)。模拟研究也可能影响我们对这些主题的少量观察研究——并且也可以使用这些观察数据进行校准。通过模拟研究识别出的新兴群体行为可能会进一步指导对观察数据收集的反向——或者,可能——设计旨在防止此类行为的社会干预。需要进行大量研究来确定基于LLM的模拟是否足够真实,以便在这样的事业中使用——特别是因为许多难以研究的群体可能没有很好地代表在创建生成式AI的训练数据中

5 )用于文本分析的大模型

无论生成式人工智能是否能够有效地模拟人类行为,它也可能帮助社会科学家完成其他常见的科研任务,如文本数据的内容分析。 Wu 等人展示了 GPT-3.5 可以通过分析他们的公开声明来准确分类美国选举官员的意识形态 49)。他们向模型提供了随机选举官员对的名字,并要求它确定哪两个人中“更保守”或“更自由”。结果与使用投票记录来衡量选举官员意识形态的流行 DW-Nominate 方法非常接近,但也识别了通常投票反对他们党派极端翼的中间派内的更多细微差别。同样,Yang 和 Menczer 认为 GPT-3.5 可以准确分类媒体来源的可信度 50)。Gilardi 等人认为 GPT 3.5-turbo 可以准确衡量推文的主题、作者的态度或观点以及用于以叙事方式组织信息的“框架”(51)。除了向 GPT 3.5-turbo 提供推文的完整文本外,这些研究人员还向模型提供了通常分配给人类分类员的分类指令作为提示。他们发现这个模型比在亚马逊 Mechanical Turk 上使用此类材料训练的人类工作者表现更好——尽管这些分类员被认为不如直接在小团队环境中由研究人员培训的分类员准确。然而,Mellon 等人比较了几个著名 LLM 对英国选举声明的分类性能与高度训练的分类员(52)。他们发现 LLM 大约 95% 的时间产生了相同的分类。Argyle 等人还展示了 LLM 在使用移动聊天平台的多人非结构化对话中分类主题方面具有相当大的潜力 53)。

11 使用大模型及专业人士对用户多人对话中的用户观点,谈话质量进行判别来自 53

Ziems 等人提供了对 LLM 进行文本分类能力的最系统分析(54)。他们使用社会学、政治学、心理学以及历史、文学和语言学等非社会科学领域专家分类的数据集,比较了 LLM 再现人类专家注释者工作的能力。总体上,他们发现 LLM 表现良好——尤其是在分类政治学家和社会学家创建的数据方面。不出所料,他们发现最新模型表现最佳。然而,LLM 在某些主题上的分类似乎比其他主题更准确,这可能是它们训练方式的结果。这些模型在没有特定训练的情况下能够复制人类的分类决策是令人鼓舞的,但 Ziems 等人认为使用 LLM 仍需要一定程度的人类监督,以及对特定任务提示工程的熟悉。有用的,这些作者还提供了一个可复制的数据分析管道,用于持续评估未来的模型和其他数据集。社会科学家也开始确定使用 LLM 进行分类任务的最佳实践。例如,Törnberg 提供了一个实用的指南,说明了如何使用 API 设置分类工作流程,并提供了一些关于如何为社会科学分类任务编写提示的详细建议(55)。

上述研究表明,文本分析可能是生成式人工智能改进社会科学研究最有希望的方式之一。 LLM 目前无法与专家人类分类器的准确性相匹配,这意味着它们不会很快取代传统的文本分析。但是,人类分类也容易犯各种已知的错误,这些错误从主观偏见到不一致和缺乏注意——特别是在研究人员组织小团队以协调方式分类文档时。LLM 也可能存在偏见和一致性问题,我将在下文进一步讨论。但 LLM 可能使社会科学家能够以前所未有的速度和规模检查语料库 。例如, 社会科学家现在有能力在短时间内分类整个语料库,而不仅仅是随机抽取文档 LLM 还似乎能够用世界上许多最主要的语言执行分类任务,以及其他通常分配给人类研究助理的初级任务,如数据分类或数据输入(详见附录)(56)。需要进行更多的研究来评估 LLM 对文本分析的前景——以及评估在附录中讨论的可能的隐私问题。但目前看来,它们似乎准备对社会科学研究可以提出的基于文本数据的问题范围产生重大影响。能够将图像内容转换为文本的多模态模型表明,这些分类能力可能很快也适用于其他媒介。

6 )局限和可能的问题

生成式人工智能展示出人类偏见。

大多数人工智能工具使用由人类创建的数据进行训练,因此通常会表现出广泛的偏见和认知错误( 1, 57–60)。生成式人工智能加剧了对偏见的担忧,因为这些工具在互联网上由人类创建的大量数据上进行训练——其中群体偏见普遍存在。评估生成式人工智能偏见程度和方向的一种方法是让LLM完成公共意见调查。Santurkar等人要求OpenAI和A121 Labs训练的一系列LLM对美国大量调查中的问题做出回应(15)。他们比较了这些模型对堕胎、枪支控制和其他话题的回答。他们发现大多数 LLM的回答比一般人口更偏向自由主义,反映了年轻人和受过更多教育的人的观点 LLM特别不可能执行六十岁以上的人、寡妇或摩门教徒的回答。其他研究人员已经表明,LLM倾向于对妇女和种族少数群体表现出偏见(59, 61)。LLM还似乎具有独特的个性特征——具体来说,它们比神经质的人更外向、更讨人喜欢。这可能是由于许多LLM是为客户服务应用程序而创建的。

Santurkar等人表明,LLM中的偏见可以通过提示工程部分解决——例如,要求模型扮演特定群体的角色(例如,德克萨斯州的富有的共和党人)(15)。这反映了早期研究,该研究认为从人工智能工具中去除偏见可能比从人类群体中去除偏见更容易(63)。然而,此类策略严重依赖于研究人员能够首先识别偏见的能力。当最流行的生成式人工智能模型(如GPT-4)的训练过程几乎不为人知时,这并非易事。没有访问这些模型接收的训练数据类型,研究人员只能检查“已知的未知数”。如果农村地区的贫困老年人无法集体表达对生成式人工智能如何代表他们的关切,例如,研究人员可能不太可能识别出这种偏见。

对社会科学家来说,生成式人工智能的偏见是一个关键问题:“生成式人工智能的偏见是一个‘缺陷’还是一个‘特性’?”我们经常设计实验来研究偏见对态度或行为的影响。如果可以谨慎控制生成式人工智能工具中的偏见——这是一个主要假设——它可能会使研究人员能够在实证环境中研究其影响(例如,一个调查受访者评估一个假设的求职者)。此外,生成式人工智能可能在“逆向工程”某些类型的偏见方面有用。例如,在广泛提示下运行实验,观察产生的代词,有可能发现新的性别歧视类型——特别是在生成式人工智能工具的训练数据产生的在线环境中(61)。另一方面, 生成式人工智能工具无法准确代表边缘化群体的能力可能会阻碍社会科学研究 。希望 LLM能够帮助研究人员评估干预措施对更多样化人口影响的那些人可能会因为此类模仿的质量不足而感到失望,因为训练数据不足。

但还有一个挑战:训练生成式人工智能模型的最重要阶段之一是开发者通过“微调”或“使用人类反馈的强化学习”向其提供反馈。AI公司通常试图训练他们的模型避免发表种族主义言论,例如。这一过程通常在封闭的门后通过“红队”攻击来完成,旨在诱使模型产生带有偏见、危险或非法内容。然后,开发人员创建工作流程以防止模型讨论此类内容。尽管这些安全措施可能提高了生成式人工智能工具对公众使用的安全性,但它们可能会阻碍社会科学家利用偏见进行研究的能力(12)。例如,研究人员如果想要使用LLM来模仿有偏见的群体,可能会发现这些工具不愿意执行这些角色,因为它们已经被根据高度受过教育的自由派的标准偏好进行了微调,这些自由派可能对保护边缘化群体的关切比对其他人的关切更多(12, 64)。由于大多数私有LLM都被训练成有用的聊天助手,它们可能在其他难以察觉的方式上与典型的人类人口不同。例如,一项研究表明, LLM表现出比人类更理性的行为 65)。但也有证据表明,相反的问题可能存在: 为了通过图灵测试,微调 LLM可能会使它们更可能分享不准确的信息 66)。

生成式人工智能是否会创造 垃圾科学

恶意行为者使用生成式人工智能在短期内传播错误信息的潜力非常令人担忧,因为像大型语言模型( LLM)这样的工具在规模上模仿人类的能力如此高超。但生成式人工智能产生不准确信息的自信能力也可能在长期内产生微妙的难题。 随着互联网上充斥着由 AI生成的带有偏见或不准确的文本和图像,未来模型如何防止自己被这些有缺陷的数据训练? 一个最近关于此类情景如何展开的例子是 Stack Overflow,一个流行的“问答”网站,软件开发人员用它来互相帮助编写代码。当人们对生成式人工智能编写代码的能力的热情达到顶峰时,一些用户创建了机器人,自动将人们关于软件的问题传递给LLM。尽管LLM产生的许多答案质量很高,但其他一些答案是完全错误的。该网站迅速宣布了一项新政策,禁止LLM,以防止用户难以区分好信息和坏信息的情况。

依赖于 LLM进行文献综述、生成新研究问题或总结他们无法阅读的大量语料库的研究人员可能会面临类似的问题。 期刊和资助机构可能会发现自己被 LLM创造的低质量“垃圾科学”所淹没。 计算机科学家已经开始创建数字“水印”,以标记AI生成的内容。水印已经在生成图像的AI模型中使用,但在LLM中实施起来稍微困难一些。一个提议是给LLM创建一个“口音”——给他们一个在可能的情况下应使用的单词列表——以便人们可以事后识别不是由人类生成的内容。但即使是这个提议在规模上也难以实施。每个开发LLM的实体不仅需要同意使用水印,还需要与其他实体协调。大型公司可能会通过政府监管受到鼓励这样做。但这种协调无法检测到由个人开发的小型模型。

使用生成式人工智能进行研究是否符合伦理?

对于社会科学家来说,最紧迫的问题之一是使用生成式人工智能进行研究是否符合伦理( 69)。这个问题尤为重要, 因为许多生成式人工智能工具表现出偏见,不仅令人反感(例如,种族主义或厌女症),还可能产生不准确的信息,这些信息可能会被研究参与者分享到社交媒体平台或其他地方 。尽管这些问题对于在社会科学家谨慎监督下使用生成式人工智能的研究可能不那么重要——例如,使用DALL-E生成可能用于调查实验的图片——但在人类研究参与者可能与LLM进行未经监督的对话的情况下,这些问题变得更加重要。另一方面,要求人类相互互动的研究也存在暴露研究参与者接触冒犯性语言、错误信息或虐待的风险。实际上,人们可能会认为,在现实人类群体中发生此类行为的危险可能比在交互式环境中使用精心提示的生成式人工智能进行研究更大。

另一个重要的问题是, 研究人员是否必须始终在将研究参与者暴露给生成式人工智能之前获得知情同意 。这种做法对于任何可能使受访者接触到由 LLM生成的错误信息或虐待性语言的研究似乎至关重要。然而,披露生成式人工智能在研究中的作用也会降低其在模拟人类行为方面的科学效用。这是因为披露生成式人工智能在研究环境中的存在会使研究人员难以确定研究参与者的态度和行为是否受到与合成代理互动的经验的影响,还是更广泛地对人工智能的态度(5)。

解决这个问题的一个可能方案是设计研究,使研究参与者被告知他们可能在研究中与 AI互动,但在交互式环境中使用人类和AI代理的混合。即使这种策略,也存在AI代理可能鼓励人类参与者之间发生冲突的风险。这些风险可以通过目前对某些LLM可用的内容审查过滤器来部分缓解——以及在研究环境中指导LLM的提示进行严格测试。然而,鉴于这些模型的概率性质——以及虐待和骚扰在在线环境中可能发生的方式不断变化——这些策略需要特别小心。

另一个策略可能是设计研究,其中生成式人工智能在人类参与者之间起中介作用。例如, Argyle等人招募了一大批对枪支管制持不同看法的美国人在一个在线论坛上进行一对一会话(53)。在实验条件下,每一对中的一个人被展示了由GPT-3重新措辞的他们即将发送给伴侣的消息。这些重新措辞采用了社会科学中基于证据的见解,以使关于有争议问题的对话不那么两极分化(例如,积极倾听)。研究人员发现,这种干预使关于枪支控制的对话更加有效,对使用GPT-3建议的合作伙伴来说压力更小。这种干预不需要欺骗,因为不需要人类模仿来评估研究问题。此外,研究人员并没有强迫人类参与者接受GPT-3提出的重新措辞;相反,他们可以从中选择几个,编辑原始消息,或者拒绝所有。

最后一个策略可能是使用生成式人工智能来尝试诊断可能的伦理问题。我之前提到过,研究人员证明 GPT-3可以模拟参与臭名昭著的米尔格拉姆实验的参与者的反应。在这个研究中,研究参与者被要求向另一个他们看不到的参与者施加致命电击。米尔格拉姆表明,许多受访者愿意这样做,只是因为对权威的尊重,但该研究因给参与者造成创伤而受到广泛批评。如果今天尝试一个关于尚未广泛被视为不道德的问题的类似实验,GPT-3能否在启动人类参与者研究之前模拟结果?如果可以,这样的模拟是否可以帮助研究人员在事后评估伦理问题的可能性? 由于 LLM使用回顾性数据进行训练,它们在预测即将到来的伦理问题方面的效用可能有限,但它们仍然可以帮助研究人员从彼此的错误中学习。 同样,这些工具也可能有助于检测剽窃或数据伪造。

虽然生成式人工智能可能会帮助我们解决一些伦理问题——例如,使用模拟来研究危险的社会干预——但它也引发了对隐私和保密的新担忧。如果研究人员使用GPT-4对一系列关于敏感主题的深入访谈进行分类,例如亲密伴侣暴力,这些访谈的全文可能会记录在不受保护人类受试者相同标准约束的私人公司内部。更糟糕的是,这样的数据可能会被出售给其他公司。






请到「今天看啥」查看全文