专栏名称: 计量经济圈
记录一个我们生活在其中的时代社会,囊括的主题如下:经济、社会、世界和计量工具。
目录
相关文章推荐
计量经济圈  ·  TOP前沿: 生成式AI最新进展概述, ... ·  2 天前  
东方财富证券  ·  假期重磅!这些方向有望“飙升”! ·  5 天前  
东方财富证券  ·  假期重磅!这些方向有望“飙升”! ·  5 天前  
计量经济圈  ·  社科会失业? ... ·  1 周前  
智谷趋势  ·  大事发生,央国企正加速合并,什么信号? ·  1 周前  
华尔街见闻  ·  05后股民,第一次尝到了股市的甜 ·  1 周前  
51好读  ›  专栏  ›  计量经济圈

社科会失业? 现使用LLM可自动化社科研究的整个过程, 从数据生成到因果假设的检验等

计量经济圈  · 公众号  · 财经  · 2024-10-06 00:01

正文

凡是搞计量经济的,都关注这个号了

邮箱:[email protected]

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

接着“逆天! AI可帮你搜工具变量IV, 回归和DID中控制变量, RDD中的驱动变量, 效率高准确性好强悍!,以为上面这个功能就很逆天了,直到看到这个(文后有原文):作者使用LLM自动化社会科学研究的整个过程,包括从数据生成到因果假设的检验。

相关参考1.前沿: 财务报表分析师和机器学习那套可能会失业, GPT大语言模型极具优势,2.最新: 学或做量化金融和量化交易的人员估计得失业! ChatGPT文本基础上的策略完胜!
大概是啥呢?大概就是LLM确实会加速社会科学的研究过程,同时会取代一部分社科学者的工作。

本文开发了一种计算方法,能够自动生成并验证社会科学领域的假设。这一创新得益于最新大型语言模型(LLM)的技术进步,但其核心在于应用结构性因果模型。这种模型不仅提供了一种表述假设的方式,还为基于LLM的代理构建、实验设计和数据分析规划提供了框架。这些构建好的结构性因果模型,可以用于预测或规划未来的实验。

其次,本文通过多个场景来展示这种方法的有效性,包括谈判、保释听证、工作面试和拍卖。在这些案例中,系统不仅提出了因果关系假设,还进行了测试。

本文提供的证据表明,通过模拟社会互动获得的洞察,不能仅仅通过直接询问LLM来获得。当LLM被赋予每个场景的结构性因果模型时,它能够准确预测估计效果的方向,虽然预测这些估计的具体数值的能力还有待增强。

特别是在拍卖实验中,本文的计算模拟结果与拍卖理论的预测非常接近,而LLM提供的清算价格预测则不够准确。不过,如果LLM能够依赖于这些拟合的结构性因果模型,其预测的准确性将显著提高。

总结来说,LLM所掌握的知识比它能够直接表达的要多。

简要介绍:

在计量经济学领域,对于预测人类行为的模型研究颇多,但相比之下,关于如何有效构建和验证这些模型的研究则显得不足。过去,构建此类模型和提出待验证的假设,完全依赖于人工操作。但随着机器学习技术的发展,研究人员开始尝试自动化地生成假设,这一趋势正在逐渐改变现状。尽管如此,即使有了机器生成的假设,验证这些假设的有效性仍然是一个挑战。

一个可能的解决方案是利用模拟技术。一些研究已经表明,大型语言模型(LLM)能够以惊人的真实性模拟人类行为,作为实验对象。只要这些模拟结果能够转化为对真实人类行为的预测,它们就为我们提供了一种新的验证方法。

本文将这些思路结合起来,即自动化假设生成和自动化的计算机内假设验证,通过使用LLM同时实现这两个目标。文章展示了这种自动化过程的可行性,并通过将模拟结果与现实世界中的已知预测进行比较,来评估这种方法的有效性。此外,文章还探讨了LLM是否能够生成出那些无法通过直接询问得到的信息。

本文的创新之处在于运用结构性因果模型来指导整个研究流程。结构性因果模型是一种数学表达方式,用于描述因果关系,它为我们构建假设提供了一种语言工具。本文的独到之处在于将这些模型作为构建代理和设计实验的框架。简而言之,每个解释变量都代表一个人或情境中的特定特征,这些特征的变化是识别效果的关键。因此,系统能够“理解”它需要在这些维度上生成变化的代理或情境,实现了从理论陈述到实验设计和数据生成的直接转换。此外,结构性因果模型还为估计提供了一种预设的方案,使得研究过程更加系统化和高效。

为了实现这种基于结构性因果模型的方法,本文构建了一个开源计算系统。该系统能够自动生成假设、设计实验、在独立的LLM驱动代理上执行这些实验并分析结果。本文利用该系统探索了几个社会情境:(1)两个人就一个杯子进行讨价还价;(2)一次关于税务欺诈的保释听证;(3)一位律师面试工作;(4)一场艺术品的开放式升价拍卖,其中艺术品具有私人价值。在前两个情境中,本文赋予了系统自主提出假设的能力,并允许它在无人干预的情况下运行实验模拟。至于第三个和第四个情境,本文展示了系统能够随时接受人类输入的灵活性。作者亲自选择并编辑了一些代理的假设,但在其他情况下,则允许系统自主进行操作。

尽管该系统尚未专门针对生成创新假设进行优化,但它已经成功地制定并测试了多个可验证的假设,并且取得了一些有价值的发现。例如,随着卖方对杯子的情感依赖减少,达成交易的可能性也随之增加。这表明买卖双方的保留价格对交易结果都有显著影响。在保释听证会的情境中,如果被告表现出懊悔,他可能会获得较低的保释金。然而,如果他有较长的犯罪记录,情况则不那么乐观。有趣的是,法官在听证会前处理的案件数量——原本我们假设这会对结果产生影响——实际上并没有影响最终的保释金额。在律师面试工作的场景中,候选人是否通过律师资格考试是她获得工作的唯一重要因素。而候选人的身高和面试官的友好程度对结果并无显著影响。

拍卖场景特别引人注目。竞标者的保留价格越高,成交价格也随之上升,而且成交价格总是接近竞标者中第二高的保留价格。这些模拟结果与理论和实证观察高度一致。

系统实验的发现没有出现任何“反直觉”的结果,但需要强调的是,这些发现是基于实际经验得出的,而不仅仅是模型的自我反省。然而,这也引发了一个问题:这些模拟是否真的必要?LLM是否可以通过进行“思想实验”来获得相同的见解,而无需实际进行计算机实验?

为了验证这个想法,本文详细描述了即将进行的模拟实验,并要求LLM预测实验结果,包括路径估计和点预测。路径估计指的是线性结构因果模型中的系数。具体来说,假设本文构建了一个简单的线性模型 () 来描述某个特定情景,并通过实验来估计。本文将情景和实验的描述提供给LLM,并要求它预测在给定特定 (X_i) 的情况下的 (y_i)(称之为“预测 (y_i)”任务)。此外,本文还要求LLM预测(称之为“预测”任务)。然后,本文检验LLM在“预测 (y_i)”任务中的表现,以判断它是否能够访问并拟合结构性因果模型(即)。

在“预测 (y_i)”任务中,本文指导LLM根据拍卖实验中所有可能的 (X_i) 组合来预测结果 (y_i)。然而,对于拍卖实验中 (y_i) 的直接预测,LLM的表现并不准确。这些预测与理论预期相比,甚至比实际的实证结果还要偏离得更远。

在“预测”任务中,LLM需要预测拟合结构性因果模型的路径估计,并为此提供了每个情景的详细上下文信息。平均来看,LLM预测的路径估计值比实际实验结果高出13.2倍。在12条路径中,LLM有10条路径的预测值偏高,尽管预测的方向大体正确。

为了提升预测的精确度,本文再次进行了预测 (y_i) 的任务,但这次为大型语言模型(LLM)提供了实验的路径估计值。具体来说,对于每个 (X_i),本文利用除了第 (i) 个观察值之外的所有数据来拟合结构性因果模型,然后要求LLM基于 (X_i) 以及这个拟合好的模型来预测 (y_i)。在这个“预测”的任务中,LLM的表现显著优于没有提供拟合模型的“预测 (y_i)”任务。均方误差降低了六倍,预测结果更加接近理论预期,尽管与模拟结果相比仍有差距。

本文介绍了一种自动化社会科学研究的新方法,该方法利用大型语言模型(LLM)中蕴含的关于人类行为的潜在信息,进行系统性的探索和挖掘。这些模型通过预测大规模人类语言资料库中文本序列的下一个标记来训练,虽然训练目标看似简单,但模型却因此发展出了一种相当复杂的世界观,至少在文本层面上是这样。尽管LLM在很多情况下并非人类行为的完美代表,但越来越多的研究表明,使用LLM作为实验对象的实验能够预测人类在未接触过的任务中的行为。快速且自动化地探索这些模型的行为,可能成为生成关于人类行为新见解的有效工具。本文的贡献在于展示了这样一个工具的创建:一个能够模拟整个社会科学研究过程而无需任何人类输入的系统。这个系统不仅能够自主提出假设,还能设计实验、收集数据,并进行分析,从而为社会科学研究提供了一种全新的自动化方法。

该文大概的结构是这样的:第二部分详细介绍了一个全自动社科研究系统的设计和实现。第三部分展示了使用本文系统生成的一些初步结果。第四部分探讨了LLM预测第三部分结果的能力。第五部分讨论了在社会互动模拟中使用结构性因果模型(SCMs)相较于其他方法研究因果关系的优势。

2 一个全自动社科研究系统的概述

为了实现自动化社会科学研究,本文设计并构建了一个系统,该系统模拟了实验社会科学的整个流程。具体步骤如下:

  1. 社会科学家首先确定一个研究主题或领域,例如错误信息传播、拍卖机制、讨价还价等。
  2. 在选定的领域内,他们识别出感兴趣的现象及其可能的原因,这些变量和它们之间的假设关系构成了研究假设。
  3. 接着,他们设计实验,通过控制变量的变化来测试这些假设,并观察结果。
  4. 实验设计完成后,社会科学家确定数据分析的预分析计划。
  5. 然后,他们招募参与者,实施实验,并收集相关数据。
  6. 最后,根据预分析计划对数据进行分析,以估计假设中提出的原因和结果之间的关系。

虽然不同的社会科学家可能不会严格遵循这一流程,但无论采用何种方法,前两个步骤:确定研究主题和构建假设,都应始终指导后续步骤,即实验设计和数据分析。当然,许多社会科学家在无法进行控制实验的情况下,可能会跳过步骤3至5,但他们通常仍会构想出理想的实验方案。

为了构建本文介绍的系统,本文将其对应于上述步骤的流程进行了形式化,并设计了一系列自动化步骤。这个系统能够独立完成这些步骤。由于系统使用的是人工智能代理而非真实的人类参与者,因此它能够设计和执行实验。结构性因果模型(SCM)在系统设计中起到了核心作用,因为它们能够明确地表达因果关系,使得估计和实验设计变得清晰明确。算法可以精确地确定需要外生操控哪些变量以识别某一原因的效果。如果社会科学研究的前两个步骤是构建SCM,那么后四个步骤可以直接依据SCM来确定。这种精确性是实现自动化的关键,因为系统仅依赖于几个关键的早期决策。否则,后续步骤的选择空间将会急剧增加,使得自动化变得不切实际。

该系统采用Python语言开发,并使用GPT-4处理所有的大型语言模型(LLM)查询。系统的每个步骤都是可配置的。本节提供了系统的高层概述,而附录A则包含了更多具体的设计选择和编程细节。对于大多数读者而言,这一概述足以理解系统的工作流程、第3节中展示的结果,以及第4节和第5节中的附加分析。

系统接受一系列社会科学研究中常见的场景作为输入,例如谈判、保释决定、工作面试、拍卖等。基于这些输入,系统将依次执行以下步骤:

  1. 生成感兴趣的结果及其潜在原因:系统首先确定研究的目标结果和可能影响这些结果的因素。
  2. 创建在这些原因的外生维度上变化的代理:接着,系统构建能够在这些因素的外生维度上变化的代理。
  3. 设计实验:系统设计实验,以测试这些因素对结果的影响。
  4. 利用模拟人类的LLM驱动代理执行实验:通过大型语言模型(LLM)模拟人类行为,系统驱动代理执行实验。
  5. 对代理进行调查以测量结果:系统通过调查代理来收集实验结果数据。
  6. 分析实验结果以评估假设:最后,系统分析实验结果,以评估提出的假设,并为规划后续实验提供依据。

图1展示了这些步骤的流程图,本文将对每一步进行简要的深入探讨。

第一步是生成作为结构性因果模型(SCM)的假设,这些假设基于社会场景生成,而场景是系统所需的唯一输入。这一步骤通过查询大型语言模型(LLM)获取相关代理,然后生成有趣的结果、其潜在原因,以及操作化和测量这两者的方法来完成。本文使用Typewriter文本来展示系统的示例输出。假设社会场景是“两个人就一个杯子进行讨价还价”。LLM可能会生成杯子交易是否发生作为结果,并将其操作化为一个二元变量,交易发生时为“1”,未发生时为“0”。接着,它生成潜在的外生原因及其操作化:例如,买家的预算,操作化为买家愿意支付的金额。系统对每个变量进行处理,构建SCM(见图1的第二步),并存储与每个变量相关的操作化信息。从这一点开始,SCM成为其余过程的蓝图,具体指导自动化代理的实例化、它们的互动以及线性路径的估计。

第二步是构建相关的代理,如图1所示的买方和卖方。在这里,“构建”指的是系统引导独立的大型语言模型(LLM)来扮演具有特定属性的角色。这些属性是结构性因果模型(SCM)中的外生变量,它们在每次模拟中都会发生变化,从而形成不同的实验条件。以当前场景为例,买方会被赋予一个预算,可能的取值包括{$5, $10, $20, $40}。通过模拟这些在SCM外生维度上变化的代理之间的互动,生成的数据可以用来拟合SCM。

接下来,系统会自动生成调查问卷,以便在每次模拟完成后收集关于代理结果的数据。大型语言模型(LLM)能够轻松地生成这些问题,只需提供结构性因果模型(SCM)中变量的相关信息即可(例如,询问买方:“交易是否成功?”)。在本文的系统中,所有由LLM驱动的代理都具备“记忆”功能。它们会以文本形式记录模拟过程中发生的事件,这使得询问它们有关发生了什么变得轻而易举。

第四步,系统确定代理之间的互动方式。大型语言模型(LLM)被设计为按顺序生成文本。由于每个代理由独立的LLM驱动,一个代理必须在另一个代理开始发言之前完成其发言。这就需要一个轮流发言的机制来模拟对话。本文提供了六种不同的排序协议供选择,并询问LLM哪种协议最适合特定场景。每种协议的详细描述见附录A,图A.2展示了这些协议。但在本文中,当涉及到两个代理的讨价还价场景时,代理之间的发言顺序只有两种可能性。在这种情况下,系统选择了以下发言顺序:首先是买方,然后是卖方(参见图1的第四步)。在更复杂的模拟场景中,如拍卖或保释听证会,发言顺序可以更加灵活。这种灵活的互动机制,不仅能够模拟真实的社交互动,还能够适应不同场景的需求,为研究提供丰富的实验数据。

接下来,系统将进行实验。在条件并行模拟中(参见图1的第五步),每个条件下的结构性因果模型(SCM)的外生维度将取不同的值——例如,买方的可能预算。

系统还需要确定何时终止模拟。对话何时结束并没有明确的规则可循。这类似于计算机科学中的停机问题——无法编写一个通用算法来确定给定程序是否会停止。因此,不存在一个统一的对话结束规则。为此,我们为模拟设定了两个终止条件:一是在每次模拟中,每当一个代理发言完毕,外部的大型语言模型(LLM)会被提示查看对话记录,并询问是否应该继续对话;如果得到肯定回答,则下一位代理继续发言;否则,模拟结束。二是我们限制代理发言的总数不超过20次。未来可以设想在社交互动和停止条件方面进行更复杂的处理,这也是未来可能进行实验的一个领域,因为社交互动的结构可能会影响各种感兴趣的结果。

最终,系统将收集数据以进行分析。通过向代理提出调查问题(如图1的第6步)来测量结果,这些问题在实验开始前就已经确定。随后,这些数据被用于估计线性结构性因果模型(SCM)。以我们的谈判实验为例,这将是一个简单的线性模型,包含一个路径估计(即线性系数),用于表示买方预算对交易概率的影响——这是图1的最后一步。值得注意的是,SCM预先规定了实验后要进行的确切统计分析,类似于预分析计划。因此,系统过程的这一步骤是机械性的。

如上所述,系统从开始到结束是完全自动化的——SCM及其相关元数据作为其余过程的蓝图。一旦有了拟合的SCM,这一过程就可以重复。虽然我们尚未自动化从一个实验到下一个实验的过渡,但系统可以生成新的因果变量,诱导变化,并根据第一个实验的结果运行另一个实验。

Reference: Manning, B. S., K. Zhu, and J. J. Horton (2024): “Automated social science: Lan-guage models as scientist and subjects,” National Bureau of Economic Research.


*群友可直接在社群下载全文PDF。

关于GPT,参看1.前沿: 财务报表分析师和机器学习那套可能会失业, GPT大语言模型极具优势,2.突发: Stata最为激烈的自救行动! 在大语言模型GPT等攻势下不得不为之!3.必备神器: 各专业领域代表性大语言模型GPT与数据资源!4.最新: 学或做量化金融和量化交易的人员估计得失业! ChatGPT文本基础上的策略完胜!5.GPT在文本分析中的应用, 一个基于Stata 的集成命令用法介绍,6.综述: ChatGPT, 金融学研究, ChatGPT, 金融学研究!7.美国经济学会首次就GPT大模型对经济学研究影响发文, 应用案例与研究者使用指南!8.前沿: 以ChatGPT打开了经济学和其他社会科学研究范式的巨大新空间,9.ChatGPT数据分析和可视化新功能, 算是彻底革了实证研究者的命了!10.GPT前沿: 图神经网络GNN在经济金融领域中的研究应用进展!11.阿里达摩院前沿研究: GPT-4已能取代搞纯数据定量分析的研究人员! 关键成本极低!12.最新: ChatGPT大模型对经济学研究的影响,13.ChatGPT为主题的经济金融等等社科领域的最新论文!14.聊天绘图ChatGPT诞生! 各种技术图形都不再是学术难题!15.太强悍了!英文文献阅读版ChatGPT,一站式文献阅读神器!

7年,计量经济圈近2000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验
计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。