专栏名称: 计量经济圈
记录一个我们生活在其中的时代社会,囊括的主题如下:经济、社会、世界和计量工具。
目录
相关文章推荐
第一财经  ·  刚刚!北交所出手! ·  18 小时前  
第一财经YiMagazine  ·  75年,57个改变我们生活的事物 ·  4 天前  
51好读  ›  专栏  ›  计量经济圈

TOP前沿: 生成式AI最新进展概述, 大型语言模型LLMs在经济学研究中的最新应用案例!

计量经济圈  · 公众号  · 财经  · 2024-10-11 00:00

正文

凡是搞计量经济的,都关注这个号了

邮箱:[email protected]

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

接着“美国经济学会首次就GPT大模型对经济学研究影响发文, 应用案例与研究者使用指南! 作者在2024年6月对本文进行了大幅扩充,增加了38页内容,并拟定了一个有趣的标题:“LLM的进化:更好、更快、更便宜”。在这些新增页面中,作者概述了生成式AI,尤其是大型语言模型(LLMs)的最新进展,并展示了它们在经济学研究中的一系列最新应用案例。

关于机器学习:1.机器学习之KNN分类算法介绍: Stata和R同步实现(附数据和代码),2.机器学习对经济学研究的影响研究进展综述,3.回顾与展望经济学研究中的机器学习,4.最新: 运用机器学习和合成控制法研究武汉封城对空气污染和健康的影响! 5.Top, 机器学习是一种应用的计量经济学方法, 不懂将来面临淘汰危险!6.Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了!7.前沿: 机器学习在金融和能源经济领域的应用分类总结,8.机器学习方法出现在AER, JPE, QJE等顶刊上了!9.机器学习第一书, 数据挖掘, 推理和预测,10.从线性回归到机器学习, 一张图帮你文献综述,11.11种与机器学习相关的多元变量分析方法汇总,12.机器学习和大数据计量经济学, 你必须阅读一下这篇,13.机器学习与Econometrics的书籍推荐, 值得拥有的经典,14.机器学习在微观计量的应用最新趋势: 大数据和因果推断,15.R语言函数最全总结, 机器学习从这里出发,16.机器学习在微观计量的应用最新趋势: 回归模型,17.机器学习对计量经济学的影响, AEA年会独家报道,18.回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现),19.关于机器学习的领悟与反思,20.机器学习,可异于数理统计,21.前沿: 比特币, 多少罪恶假汝之手? 机器学习测算加密货币资助的非法活动金额! 22.利用机器学习进行实证资产定价, 金融投资的前沿科学技术! 23.全面比较和概述运用机器学习模型进行时间序列预测的方法优劣!24.用合成控制法, 机器学习和面板数据模型开展政策评估的论文!25.更精确的因果效应识别: 基于机器学习的视角,26.一本最新因果推断书籍, 包括了机器学习因果推断方法, 学习主流和前沿方法,27.如何用机器学习在中国股市赚钱呢? 顶刊文章告诉你方法!28.机器学习和经济学, 技术革命正在改变经济社会和学术研究,29.世界计量经济学院士新作“大数据和机器学习对计量建模与统计推断的挑战与机遇”,30.机器学习已经与政策评估方法, 例如事件研究法结合起来识别政策因果效应了!31.重磅! 汉森教授又修订了风靡世界的“计量经济学”教材, 为博士生们增加了DID, RDD, 机器学习等全新内容!32.几张有趣的图片, 各种类型的经济学, 机器学习, 科学论文像什么样子?33.机器学习已经用于微观数据调查和构建指标了, 比较前沿!34.两诺奖得主谈计量经济学发展进化, 机器学习的影响, 如何合作推动新想法!35.前沿, 双重机器学习方法DML用于因果推断, 实现它的code是什么?

生成式AI在经济学研究中的应用
自从本文最初版本在JEL上发表(美国经济学会首次就GPT大模型对经济学研究影响发文, 应用案例与研究者使用指南!)以来,生成式人工智能(AI)技术已经取得了迅猛的发展。本节将对主要的最新进展进行概述,并展示先进的大语言模型(LLMs)在经济学研究中的最新应用案例。这些案例将按照原文提到的六个领域进行分类:构思与反馈、写作、背景研究、编程、数据分析和数学推导。在每个领域,本文将提供一般性的描述和一些具体的应用实例,以展示如何有效利用LLMs的能力。同时,也将展示LLMs在撰写过程中的优势和局限性,以提供一个关于LLMs实用性的全面视角。

最新进展概述

近年来,大语言模型(LLM)的发展突飞猛进,主要表现在以下几个方面:性能的显著提升、更大的上下文窗口(使得LLM能够一次性处理更多的数据)、更出色的记忆能力、更迅速的处理速度,以及成本的降低。这些进步对于经济学家来说无疑是极大的利好消息。自2023年12月本文首次发表以来,三家领先的AI实验室各自推出了重要的LLM更新,其中包括视觉识别能力和实时声音处理等创新特性。

截至2024年5月,OpenAI的GPT-4o是功能最强大的公开可用LLM,也是作者使用最频繁的模型。OpenAI还在其ChatGPT应用中推出了GPT商店,提供各种有用的定制版本。此外,作者还定期使用Anthropic于2024年3月发布的Claude 3,它因其卓越的写作能力而备受推崇。谷歌DeepMind在2024年1月发布的Gemini Pro 1.5提供了最大的上下文窗口,其公开版本能够同时处理多达100万个标记(约合1500页文本)。而其姊妹模型Gemini Ultra 1.0是谷歌DeepMind目前最强大的模型,但尚未对公众开放(不曾想已经获得诺贝尔化学奖了)。

三大AI实验室推出的前沿模型在性能上都表现出色(尽管OpenAI略占优势)。这些尖端模型均为专有技术,仅通过互联网提供服务。与此同时,越来越多的小型模型(尽管功能相对较弱)已经以开源形式发布,使用户能够在自己的服务器上部署这些模型,以满足对安全性或隐私有较高要求的应用场景。其中一些模型的体积小到足以在笔记本电脑甚至手机上运行。

除了在第3.1节中介绍这些最新进展外,还在后续的小节中展示了几个新的示例和LLM的应用案例,包括:

  • 自动生成查询提示
  • 通过语音聊天提供研究反馈
  • 将手写方程式转换为LaTeX格式
  • 生成演示文稿幻灯片
  • 总结视频内容
  • 为编码项目制定计划
  • 查找数据源

在经济学界,美国经济学会(AEA)旗下的多数期刊很快将要求作者明确声明他们在研究中是否使用了大型语言模型(LLM),以及具体的使用方式。毫无疑问,作者需对提交的内容负全部责任。

数据保密性

一个重要的议题是,研究人员如何确保输入到LLM中的数据的保密性。OpenAI在其ChatGPT应用中提供了“临时聊天”选项,以及用户设置中的隐私选项,允许用户选择不将其输入用于未来LLM的训练。此外,OpenAI承诺不会将通过其应用程序编程接口(API)接收的用户数据用于训练目的。

Anthropic同样采取了保护措施,除非用户明确选择加入,或在极少数情况下被标记为安全审查,否则不会将用户数据用于未来的模型训练。而谷歌则建议用户不要在其Gemini应用中输入任何机密信息,因为这些输入的数据可能会被用于模型的后续训练。

3.1 先进大语言模型(LLM)概览

表1提供了截至2024年5月的常用大语言模型(LLM)的概览,包括它们的关键特性和局限性,如发布日期、上下文窗口大小和训练数据截止日期。上下文窗口大小反映了模型能够处理的最大标记数量,这通常限制了用户输入提示和模型生成输出的总和。一般而言,四个标记大致对应于英文文本中的三个单词。训练数据截止日期则显示了LLM预训练数据的新旧程度。模型通常无法知晓该日期之后发生的事件,除非它们具备访问互联网的能力。

表1中列出的LLM可以通过以下四种不同的方式进行访问:

  • 网页版聊天机器人:表1中提到的模型都可以作为聊天机器人在最后一列提供的URL链接下进行访问。这些聊天界面允许用户像与助手或导师对话一样与模型互动。本文中记录的大多数示例都展示了这种交互方式。需要注意的是,大多数聊天机器人在回应时会引入一定程度的随机性,因此聊天界面中的结果可能无法完全复制。这些聊天机器人的免费版本通常有使用次数的限制,或者仅提供访问能力较弱的模型版本。在我看来,支付每月20美元的订阅费用以访问三大主流模型之一(例如ChatGPT 4o、Claude 3 Opus或Gemini Advanced)是值得的,这样可以避免使用过程中的不便,并在日常工作中实现显著的生产力提升。
  • 实时语音助手:OpenAI推出了一款互动语音助手,使用户能够与其最新的模型GPT-4o进行自然语言对话。这款助手支持语音输入、摄像头和屏幕截图功能,并通过ChatGPT手机应用在iOS设备上提供服务。一些用户反馈,他们在工作中会将ChatGPT应用保持在手机语音模式下,甚至全天使用,以便随时便捷地调用数字助手的协助。谷歌也已发布其Project Astra(高级视觉和语音响应代理)助手的演示版,该助手具备类似的功能,并计划在2024年晚些时候向公众开放。
  • 基于网页的实验平台:各大主要的大型语言模型(LLM)提供商还提供了基于网页的用户界面,这些界面相较于聊天机器人,提供了更多的功能和灵活性,而且操作起来不需要编程知识。这些平台,例如OpenAI Playground(https://playground.openai.com)、Anthropic Console(https://console.anthropic.com)和Google AI Studio(https://aistudio.google.com),让用户能够尝试不同的模型配置,比如调整“温度”参数和进行top-p抽样,并提供比聊天机器人更高级的输入输出格式控制。这类实验平台特别适合用来探索LLM的潜力、测试不同的提示语以及为特定任务对模型进行微调。
  • API:为了实现高度的定制化和集成,表中列出的模型还可以通过应用程序编程接口(API)进行访问。这使得程序员能够将LLM无缝集成到他们自己的软件应用中。利用API,可以支持更广泛的高级定制场景,例如自动化重复性任务或利用自然语言处理技术分析大型数据集。与前面提到的两种方式相比,API提供了更大的灵活性和控制能力,但同时也需要用户具备较高的技术专业知识。通过API访问LLM通常包括注册模型提供商的API密钥、在所选择的编程语言中安装客户端库,以及编写代码与API端点进行交互。虽然这一过程可能比使用聊天机器人更为复杂,但对于具备必要编程技能的用户来说,它能够充分释放LLM的强大功能。本文的复现代码包展示了如何使用API来自动查询LLM。

表1中列出的模型涵盖了不同规模的版本,每种模型在性能、响应速度和成本之间都存在不同的权衡。通常来说,规模较大的模型更为“智能”,在性能和功能上更为强大,但它们需要更多的计算资源,处理请求的时间也相对较长,因此成本也相对较高。相比之下,规模较小的模型在处理速度上更快,且具有更高的成本效益,但在输出质量上可能不如大型模型。这让用户在选择适合自己应用需求的模型规模时,可以根据自己的具体需求和预算进行考量。

3.1.2 主要的专有模型

表中列出的前三个模型均为专有产品,意味着它们归属于各自的开发实验室,其源代码、架构和模型权重并未公开,因此用户无法自由地使用、修改或分发这些模型。用户只能在实验室提供的服务器上访问这些模型,并且必须遵守实验室设定的条件和限制。所有这些主要模型都融合了语言处理和视觉信息处理的能力,因此它们也被称为视觉语言模型(VLMs)。这使得用户能够通过聊天界面或API上传图像,并基于这些图像请求相应的反馈,后续的小节将探讨一些具体的应用实例。尽管如此,我们通常还是将它们称为大型语言模型(LLMs),以符合通用术语。

OpenAI于2023年3月首次推出了GPT-4,它迅速成为同类产品中的佼佼者,并广受用户欢迎,成为目前最受欢迎的大型语言模型(LLM)。2024年5月,OpenAI发布了GPT-4的最新版本——GPT-4o。这里的后缀“o”代表“全能”,意味着该模型能够同时处理文本、图像和声音,提供实时的数字助手服务。GPT-4o还能够访问多种扩展功能,以增强模型的能力,包括数据分析、网页浏览以及下文将提到的GPT商店。GPT-4o可以免费使用,但在ChatGPT中,其使用量受到限制,具体取决于用户需求。付费用户则可以享受更稳定的访问服务。

GPT-3.5 Turbo是GPT-4的简化版本,同样可以通过ChatGPT的免费版本获得。此外,OpenAI的所有模型还可通过基于网页的OpenAI Playground以及API进行访问。

ChatGPT 4o的一个特别适用于经济学家的功能是其内置的高级数据分析工具。这一工具允许用户在ChatGPT界面内的沙箱环境中编写和执行Python代码,并展示执行结果,便于进行构建和迭代。高级数据分析功能使用户能够上传文件并执行数据处理任务,涵盖从文件转换到复杂分析(例如回归分析)等操作。在本文后续部分,我们将介绍这些功能的具体用途,如索洛模型模拟。

OpenAI的GPT商店是一个集成在ChatGPT界面中的数字市场,用户可以在其中浏览、安装和使用由第三方开发的各种扩展和应用。这些“定制GPT”通过增加专业知识、交互工具和根据用户需求量身定制的体验,扩展了GPT-4o的功能,应用范围从写作到经济分析工具等。(它们取代了2024年3月之前可用的ChatGPT插件。)要使用定制GPT,用户可以在ChatGPT界面左侧的菜单栏中点击“探索GPT”进行搜索。一些对经济学家可能有用的定制GPT包括:

  • 数据分析师:这是由OpenAI开发的定制GPT工具,用户可以上传电子表格,并利用它来分析或可视化其中的数据。
  • Wolfram:提供计算、数学、统计知识和实时数据的访问,这些服务由Wolfram Alpha(Mathematica软件的开发商)提供。
  • Consensus:这是一个基于人工智能的研究助手,能够搜索超过2亿篇学术论文,为用户提供有引用支持的科学答案。

使用过定制GPT后,用户可以通过在ChatGPT对话中使用“@”符号来快速调用它,例如输入“@Wolfram”。此外,用户还可以通过点击“探索GPT”选项并选择“创建”按钮,来逐步创建属于自己的定制GPT。创建的定制GPT可以私人使用,也可以选择公开分享。

微软的Copilot(之前称为Bing Chat)是基于OpenAI的GPT-3.5/4系列模型开发的聊天引擎。微软已经将Copilot集成到了其所有办公产品中。Copilot具备浏览网页的能力,能够为用户提供基于互联网上最新信息的答案。用户可以根据需要选择三种不同的模式:精确、平衡或创意。

Anthropic公司在2024年3月推出的Claude 3一度是最佳的公开可用大型语言模型(LLM),尽管现在已被GPT-4o超越。Claude以有用、诚实、无害为自我定位,采用一种名为“宪法AI”的流程进行训练,遵循一套高标准的伦理准则。Claude 3系列包含三个版本:Claude 3 Opus作为系列中最强大的模型,我经常用它来写作,因为欣赏它的写作风格;Claude 3 Sonnet在速度和性能之间取得了平衡;Claude 3 Haiku则是最小且响应最快的模型,适合那些不需要过于复杂模型的批量研究应用。Claude 3的上下文窗口可支持20万标记,能够一次性处理约150,000个单词,例如,用户可以在Claude的聊天界面上传并同时处理多篇学术论文。此外,该模型也可以通过Anthropic的网页控制台Anthropic Console和API进行访问,API甚至允许用户让语言模型调用外部工具。

谷歌DeepMind的Gemini系列大型语言模型(LLM)自2023年12月首次发布以来,可以通过同名的聊天机器人进行访问。这款聊天机器人还能够访问互联网,将实时信息整合到其回复中,并允许用户对结果进行核实并追溯信息来源。Gemini系列模型提供四种不同规模的版本。Gemini Ultra 1.0是该系列中最强大的模型,但目前并未对公众开放。2024年2月发布的Gemini Pro 1.5,其公开版本具有100万标记的上下文窗口——这是所有公开可用的大型语言模型中最大的。这为新的应用场景提供了可能性,例如,它允许研究人员一次性上传大量资料并基于此进行查询。2024年5月发布的Gemini Flash 1.5则提供了更快的处理速度和更低的成本,尽管其性能略低于Pro版本。Pro 1.5和Flash 1.5都可以通过基于网页的Google AI Studio平台以及API进行访问。此外,Gemini Nano 1.0的体积小到甚至可以在手机上运行。

3.1.3 主要开源模型

表1中所列出的最后两个大型语言模型(LLM)是开源的,这意味着它们可以被自由地使用、修改和分发。这对经济学研究领域带来了诸多好处。首先,开源模型的透明性让研究人员能够深入了解其底层架构,从而更准确地理解模型的工作原理并评估其生成的输出结果。其次,开源项目鼓励协作创新,这可能会加速针对特定需求(例如经济研究)的LLM开发进程。研究人员不仅可以贡献自己的专业知识,提出改进意见,还可以根据自己的具体需求调整模型。第三,如果研究人员能够获取到低成本的计算资源,他们就可以免费使用这些开源模型进行研究工作。最后,开源模型支持更高的可重复性,这有助于确保经济研究的科学诚信度,因为它允许其他研究人员验证已有结果,并在此基础上进行更深入的研究。这些优势使得开源语言模型成为经济研究者希望在工作中利用自然语言处理能力的理想选择。

从经济学角度来看,开源模型具有显著的益处,因为它们自由地分配了由LLM创造的经济社会盈余,并激发了创新。然而,随着开源LLM能力的增强,它们也带来了日益增长的安全风险。例如,LlaMA已经使得研究人员能够构建出能够绕过所有上述LLM安全限制的对抗性攻击。Seger等(2023)探讨了开源LLM的利弊,并讨论了随着这些模型能力的提升,可能需要采取的中间解决方案来应对日益增长的安全风险。

Mistral的Mixtral 8x22b模型是领先的开源模型之一,于2024年4月发布。Mistral是一家总部位于巴黎的初创公司,由前Google DeepMind和Meta的员工创立。该模型的名称既与公司名称有关,也与模型的底层专家混合(MoE)架构相关,该架构整合了八个专门的子模型(称为专家),以高效地解决复杂任务。Mistral还提供了一系列专有模型和较小的开源模型,以及聊天界面、基于网络的平台和API访问。

Meta推出的LlaMA 3系列包括了8B、70B和400B三种不同参数规模的模型,其中8B和70B参数的模型已于2024年4月发布。预计最大参数规模的400B模型也将很快推出。Meta已经免费公开了这些模型的底层代码和训练时使用的权重数据,但保留了用于训练模型的原始数据集。特别是70B参数版本的模型,在性能上已经超越了GPT-3.5,并在包括Microsoft Azure、AWS和Hugging Face在内的各大主流云计算平台上提供服务。

本地运行的LLM

开源模型的推出为研究人员提供了在本地计算机上运行大型语言模型(LLM)的能力,带来了数据隐私保护、成本效益、个性化定制和离线访问等优势。然而,受限于计算资源,目前只有较小规模的模型才能在大多数桌面计算机上以合理的速度运行。随着计算能力的提升和LLM效率的快速增长,本地部署小型模型变得越来越可行。目前有两种解决方案可以方便地在本地部署LLM:

  • LM Studio:这是一款允许用户在个人计算机或服务器上下载和运行多种开源LLM的工具,包括视觉语言模型(VLMs)。
  • llamafile:这款工具使用户能够将LLM下载为单个文件,并在不同的计算机系统上运行。

特别地,开源LLM Gemma 2b由Google DeepMind开发,专为在手机上部署而设计。同样,微软的phi-3-mini 3.8b模型也经过优化,适合在本地机器上使用。

LLM互动与实验的集中化中心

如果你希望轻松访问各大领先的大型语言模型(LLM),可以尝试访问一些提供用户友好聊天界面的在线平台。例如,一个非常有用的网站允许用户不时地使用所有顶尖的LLM,其网址是 https://poe.com。同样,另一个网站提供了一个基于网页的实验平台,让用户能够接触和使用各种不同的模型,其网址是 https://nat.dev/。

提示指南

尽管通过个人的实验和实践与LLM互动是积累经验的好方法,但目前大多数顶尖的模型提供商也提供了公共文档,它们描述了如何有效地向LLM发出提示的策略。以下是这些指南的列表:

  • https://docs.anthropic.com/claude/docs/intro-to-prompting 以及相关的提示库 https://docs.anthropic.com/en/prompt-library/library
  • https://platform.openai.com/docs/guides/prompt-engineering
  • https://ai.google.dev/docs/prompt_intro
  • https://llama.meta.com/get-started/#prompting
Anthropic还提供了一个名为“提示生成器”的工具,旨在帮助用户优化他们对大语言模型(LLM)的查询提示。用户可以通过Anthropic Console的仪表盘访问该工具(点击“生成提示”按钮)。这个工具将用户初步的书面指令转化为更加复杂和具体的一系列指令,目的是引导LLM产生更高质量的输出。当然,用户可以在实际使用前编辑和调整这些生成的指令,以确保它们尽可能准确地反映用户的意图。以下是一个示例。在本节的剩余部分,作者将以带框的形式展示所有由LLM生成的示例,其中框的标题为提示,框内的内容为LLM生成的响应。

文章比较长,但后面关于使用示例的内容非常实用,建议长按下方二维码下载全文PDF阅读。

LLMs Level Up—Better, Faster, Cheaper: June 2024 Update to Section 3 of "Generative AI for Economic Research: Use Cases and Implications for Economists," Published in the Journal of Economic Literature 61(4)

*群友可直接在社群下载原文PDF。

关于Melissa Dell,1.20年小诺贝尔奖得主Melissa的经济学家编程课, 课件尽快下载学习!2.2020年小诺奖得主Dell关于如何做研究, 对年轻经济学家的建议!3.Mita, 2020小诺奖RDD女王最具影响力的成名作, 附数据和计量程序,4.“RDD女王”获2020年小诺奖!她的RD数据, 程序, GIS和博士论文可下载!关于她学术研究过程的最全采访!,5.世界计量经济学会宣布2020年新当选院士和新主席, 国人当选情况在情理之中但意料之外!6.AER上用断点回归设计RDD的实证文章有哪些?含程序和code, 不看至少需要收藏一下!7.如何做量化研究的文献评述, 基于政权变更, 集体行动和经济发展,8.TOP5的JPE新任主编和编辑介绍, 提前了解其研究方法和擅长领域! 9.TOP5上天才般神作, 没有足够的洞察, 很难想出这样的实证策略10.她极度近视, 却凭该TOP5文掌控着关于殖民制度长期影响研究的话语权!

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

7年,计量经济圈近2000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验
计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。