专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

NeurIPS 2024 | 浸大、CMU提出全新框架COAT，用LLM探寻隐秘的因果世界

PaperWeekly · 公众号 · 科研 · 2024-11-12 13:01

正文

请到「今天看啥」查看全文

©PaperWeekly 原创 · 作者 | Chenxi Liu, Yongqiang Chen

单位 | 香港浸会大学、CMU、MBZUAI

研究方向 | 因果关系、基础模型

因果发现的现实挑战：稀缺的高级变量

寻找并分析因果关系是科学研究中的重要一环，而现有的因果发现算法依赖由专家预先定义的高级变量。现实场景中的原始数据往往是图片、文本等高维非结构化数据，结构化的高级变量是十分稀缺的，导致现有的因果发现和学习算法难以用于至更广泛的数据。

因此，香港浸会大学与 MBZUAI、卡内基梅隆大学、香港中文大学、悉尼大学以及墨尔本大学合作发表论文《Discovery of the Hidden World with Large Language Models》，提出了一个名为 COAT 的新型框架，旨在利用大型语言模型和因果发现方法的优势，突破传统因果发现方法的局限性，更有效地在现实世界中定义高级变量、理解因果关系。

论文已在 NeurIPS 2024 发表：

论文标题：

Discovery of the Hidden World with Large Language Models

项目地址：

https://causalcoat.github.io/

项目代码：

https://github.com/tmlr-group/CausalCOAT

引言

科学的发展离不开对重要变量的识别和它们之间的因果关系的揭示 [1,2] 。现有的因果发现方法（Causal Discovery methods, CDs）主要依赖于由人类专家提供的高质量测量变量 [3,4,5] 。

然而，在更广泛的实际的应用中，它们往往是稀缺的。例如，想要分析用户评分相关因素的亚马逊卖家，只能拥有原始的用户评论，这些评论是根据用户对某些产品特征的潜在偏好撰写的。因此，缺乏高质量的高级变量一直是 CDs 或受因果关系启发的方法在更广泛实际应用中的长期障碍 [6] 。

大型语言模型（Large Language Models, LLMs） [7,8,9,10] 通过学习来自真实世界的大量文本数据，在理解非结构化输入方面展现了惊人的能力，并利用所学到的丰富知识解决各种通用任务 [11,12] 。

一系列早期的测试表明，LLMs 能够有效地利用所学知识回答常见的因果问题 [11,13,14] 。尽管如此，现有的方法主要集中于将 LLMs 作为一种应用于给定的因果变量的 直接推理器 。由于 LLMs 的一系列缺陷 [18,19,20] ，这种直接推理器的可靠性仍然存在争议 [13,15,16,17] 。

更关键的是，经典的因果发现方法 [3,4,5] 强调识别因果结构的理论保证，而现有的 LLMs 和因果发现结合的方法仍然没能给出充分的讨论或分析。因此，本文聚焦在一个具有挑战性的研究问题： LLMs 如何可靠地帮助揭示现实世界背后的因果机制？

LLM作为表征助理用于因果发现

本文的研究目标是利用大语言模型的优势为非结构化数据设计并提供结构化的表征。该表征应当由一系列的高级变量（factors）组成，捕捉用户感兴趣的信息，并具备一定的可解释性。

为了实现这样的目标，我们提出了一套简单而有效的框架算法：Causal representatiOn AssistanT（COAT）。用户只需提供一个感兴趣的目标变量，COAT 将迭代地找寻一组高级变量，构成目标变量的马尔可夫毯（Markov Blanket）。在此基础上，任何合适的因果发现算法均可用于进一步的因果结构识别，加深对目标变量的理解。

3.1 数据

假设有一个用户感兴趣的 目标变量 ，比如消费者对商品的评分，或是患者肿瘤的类型。我们将 Y 视为一个标量随机变量。
待分析的 非结构化数据 记做 , 比如消费者附在评分后面的文本评论，或是患者肿瘤对应的医学图像。
数据集由从的分布中独立抽取的对样本组成。

注：我们对和之间的因果关系不做特定的假设。

3.2 目标

我们寻求一个映射，使得结构化表示满足。换言之，充当了关于的马尔可夫毯（Markov Blanket）。

基于此，可以对应用下游方法。特别地，我们关注它们之间的因果结构，这些结构将揭示关于目标变量 Y 的有意义的见解 [21,22] 。例如，符合哪类特征的产品会受消费者欢迎。

3.3 大语言模型用作表征助理

为了充分发挥 LLMs 从原始观察（即非结构化输入）中提取相关信息的能力，我们将映射分解为一组高级变量，每个高级变量将原始观察映射到一个预定义的值空间。

也就是说，这些高级变量定义了的表征：

。我们使用符号来强调高级变量本身，如苹果的甜度、大小或气味，而来强调将原始观察映射到预定义值空间的函数。

3.4 高级变量的可解释性

值得注意的是，上文中的每个高级变量均是由 LLMs 通过自然语言定义的。将数据和对应的描述输入大模型即可得到对应的值。这种定义高级变量的方法让其可解释性显示地可得。比如，令值空间为，那么可以被定义为：

甜度：

1：此消费者对苹果甜度感到满意；-1：此消费者对苹果甜度感到失望；0：没有提及 / 无法判断；

这样，中的每一个值就有了明确的物理含义。

COAT: Causal representatiOn AssistanT 框架

▲ 图1. COAT 框架示例

COAT 的框架如图 1 所示，COAT 被用来分析消费者对苹果的文本评论数据。这里用户感兴趣的目标变量是消费者对苹果的评分。

在我们提出的 COAT 框架中，每一轮迭代将依次经过以下几个步骤。

4.1 变量提出

此环节的目的是将 LLMs 对数据的理解转换为一系列的可能的高级变量。我们采样一小部分的数据，通过 prompt 让一个 LLM 提出一些可能的高级变量。

▲ 图2. COAT 在变量提出环节的 prompt 示意

图 2 展示了一个具体的例子。prompt 包含了三个部分：样本、指示信息、格式控制。为了帮助 LLMs 更好的注意到与目标变量相关的信息，样本被依据其对应的的取值分组。

接下来，指示信息要求 LLM 定义具体的高级变量，包括变量的含义、每个变量对应的取值准则。如果有额外的背景信息或先验知识，也可一并加在这里。这里 prompt 的设计模仿了人类专家选取和定义高级变量的过程 [23] 。

此环节的形式化描述：在第次的 COAT 迭代中，选用样本，prompt ，令 LLM 给出一组高级变量的集合。此前所有提出过的高级变量的集合为。

4.2 取值解析

此环节的目的是为先前提出的高级变量解析对应全样本的非结构化数据上对应的取值。在传统的因果发现流程中，这一步是由人类专家收集的 [3] 。在 COAT 中，我们使用 LLM 依据高级变量的定义和其对非结构化数据的理解来给出取值。

此环节的形式化描述：在第次的 COAT 迭代中，在全样本上通过相应的 prompt ，令 LLM 给出一组高级变量对应的取值。此前所有高级变量的取值为

。

若 LLM 不具备解析高级变量的取值所需要的能力，比如，对外部环境作出干预，可以将额外的过程拓展至此框架中 [24,25] 。比如，针对疾病的研究可能需要从病例中标柱相关的症状，也可能需要做额外的医学检查 [26] 。在后续的实证研究中，COAT 在这两类情形下均有良好的表现。

4.3 因果发现

获得高级变量对应的结构化数据后，便可选用合适的因果发现算法（如 FCI）分析上的因果关系。

此环节的形式化描述：在第次的 COAT 迭代中，通过因果发现算法得到因果图。

一般来说，因果结构的可识别性依赖于算法所做的假设，因此需要根据情况选取合适的算法。此外，在取值解析的过程中有可能会引入噪声，在具体实现时需要额外考虑。为了验证 COAT 的概念，本文选用基于条件独立性检验的 FCI 算法，实际中可根据需要自行调整。

4.4 利用反馈进一步寻找高级变量

LLM 需要合适的 prompt 才能发挥作用，很难让其一次给出足够的高级变量。此环节的目的是基于因果发现的结果，通过反馈设计，寻找合适的信息，为下一轮迭代准备合适的输入，让 LLM 进一步给出合适的高级变量。

形式化描述为：在第次的 COAT 迭代中，通过因果图 , 从全样本重新抽样

。

整体框架总结如下：

▲ 图3. COAT 框架总结

反馈构建

如前文所述，在第轮的 COAT 迭代中，我们需要构建合适的反馈来进一步寻找高级变量。

设为关于的任何一组马尔可夫毯。若它不是关于的马尔可夫毯，即，那么应该存在一个待发现的高级变量满足：

其中表示条件熵。因此，对于下一轮迭代，我们期待的新变量在上的条件熵应该满足

▲ 图4. 待发现的高级变量的不同情形

如图 4 所示, 对于的马尔可夫毯中的变量可分为四种情况，其中为已经找出的变量。在关于的条件分布上，与的相关性将得到增强，这启示我们寻找哪些较难被现有变量解释的样本。因此，对于下一轮迭代，我们希望选取的样本应该满足

为了简化计算，我们将样本依通过 K-means 算法聚为类，选取条件熵最大的一组样本。读者可根据情况选择不同的方式。

理论分析

本文定义了两个与 LLM 提出高级变量的能力相关的指标：

感知分数（Perception Score）：LLM 提出符合上文描述的新的高级变量的概率。*（可以简写为）*
能力分数（Capacity Score）：LLM 提出符合上文描述的新的高级变量，对条件互信息的贡献：

若这两个分数均为正值，且上文关于条件熵的不等式能够被验证，那么对任意，为标准高斯分布的 -分位数，

经过轮的 COAT 迭代后：

这表明 COAT 可以逐步识别一组的马尔可夫毯，也展示了反馈构造的有效性。此外，上的因果结构的可识别性取决于因果发现算法的假设是否满足。即使算法的假设不满足，马尔可夫毯的可识别性仍有可能被保证。比如上文关于条件熵的不等式条件的可以通过条件独立性检验测试，主要要求忠实性假设和马尔可夫性假设。而一些因果发现算法可能会有额外的假设。

🍎 AppleGastronome实验

▲ 图5. AppleGastronome 数据样例

7.1 数据集构造

我们考虑目标变量为美食家对苹果的评分。每个苹果都有自己的属性，包括大小、气味和味道。每位美食家会关注这三个偏好的一个子集，根据苹果的表现来评分并撰写评论。我们使用 GPT-4 来模拟评论撰写的过程，生成了 200 个样本供 LLMs 分析，图 5 是一些例子。

如图 6（a）所示，数据集共涉及 6 个高级变量，包括 3 个的父节点，还有 2 个节点属于马尔可夫毯，一个节点是与有相关性但应当排除的干扰节点。一个理想的方法应当找出 5 个马尔可夫毯中的节点，并排除干扰节点。

7.1.1 基线方法

我们比较 3 个基线方法。 META 为 LLM 使用背景知识直接给出高级变量； DATA 为没有反馈机制的单轮 COAT 方法。 DATA+CoT 是将 DATA 方法中取值解析换为 CoT 分析。关于用 LLMs 识别因果关系的基准，我们采用让 LLMs 为每一对变量作出方向判断 [11] 的方法。

7.1.2 评价指标

我们用三种指标衡量方法识别高级变量的能力：

MB

：马尔可夫毯中的高级变量（语义等价即可，下同），最大值为 5；

NMB

：不在马尔可夫毯中，但属于 6 个变量之一，最大值为 1；

OT

：其他变量。实验也同时计算了相对于马尔可夫毯的 recall，precision，和 F1 分数。

7.2 结果分析

▲ 图7. AppleGastronome 实验结果（完整版见论文附录E.4）

从实验结果上看：

通过 CoT 提示，LLM 可以更好的分析并识别出与相关联的高级变量，但没能有效区分出马尔可夫毯。
利用对高级变量的取值解析，COAT 可以有效区分出应当排除的节点，因此有更低的 NMB 指标。
COAT 与 DATA 方法的比较，支持了前文的反馈设计能有效促进变量的识别。

▲ 图8. LLMs 相关能力的实验评估

7.2.1 LLMs 能否有效识别高级变量？

在先前的理论分析中，我们定义了两个关键的指标来衡量 LLMs 的高级变量识别能力：感知分数（）和能力分数（）。

我们在 AppleGastronome 数据集中对这两个指标做了粗略的估计，将不同 LLMs 依照它们的分数绘制在图 8（c）中。从这一经验上的结果，我们认为现有的 LLMs 已经初步具备了提取高级变量的能力。

7.2.2 LLMs 能否有效解析高级变量的取值？

我们将 LLMs 解析出的取值与高级变量真实取值相比较。图 8（a）中要求 LLMs 识别苹果的客观属性，图 8（b）考虑了一种变体，要求 LLMs 判断苹果的属性是否匹配美食家的偏好，即识别主观属性。结果表明，LLMs 虽然在主观属性表现稍弱，但仍可以较好的执行此类任务。

▲ 图9. LLMs 标柱噪声的独立性检验

LLMs 的取值解析过程可能会引入额外的噪声，甚至额外的混杂因素。因此，我们也对标注噪声和特征之间进行了独立性测试。如图 9 所示，在较先进的 LLMs，例如 GPT-4-Turbo 的帮助下，依赖关系可以控制在可接受的水平。

7.2.3 COAT 能否可靠地辅助还原因果结构？

在本文所考虑的（即便是非结构化的）样本可得的场景下，相比于使用 LLMs 利用变量名称直接推断因果结构，COAT 可以得到更接近实际分布的因果结构。事实上，COAT 的因果反馈机制最大限度的利用了 LLMs 丰富的先验知识，且减少了因果发现过程对 LLMs 推理能力的依赖。图 6（b-d）给出了直观展示。图 10 给出定量结果。

▲ 图10. AppleGastronome 数据集上 COAT 因果结构识别评估

🩺 Neuropathic实验

▲ 图11. Neuropathic 数据样例，个人信息均为虚构

8.1 数据集构造

这里的实验目的是为了利用 Neuropathic benchmark 模拟真实世界的诊断过程：当提出高级变量后，在取值解析阶段，使用外部过程来获得诊断结果。在原始数据集 [26] 中，存在三个层次的因果变量，包括症状层、神经根病变层和病理生理学层。

在本项目中，我们主要考虑右侧肩峰下撞击（right shoulder impingement）的目标变量。在利用 GPT-4 生成临床诊断笔记时，我们将避免提及除症状之外的其他变量，以检验 COAT 找出其他层级的高级变量的能力。图 11 为样本示例。

8.2 实验结果

▲ 图12. Neuropathic 相关因果图

这里采用与前文类似的评估方法。由于原数据集不完全满足忠实性假设，这里定性地比较 COAT 生成的因果图和由 FCI 通过原数据生成的结果。如图 12 所示，直接使用 LLMs 做推理不会察觉出特定数据集本身的性质或问题。

▲ 图13. Neuropathic 实验结果

关于高级变量识别的定量分析如图13所示，其中

PA

、

AN

和

OT

分别代表父母节点、祖先节点和其他应当排除的节点。准确性和 F1 测量祖先节点的恢复情况。类似的，COAT 相比基线方法有显著的效果。特别是，由于 COAT 并不重点依赖 LLMs 的推理能力，在较弱的 Llama-2-7b 中也有不错的表现。相反，CoT 在这里并没能保持其在 AppleGastronome 上表现。

🌊 厄尔尼诺现象：案例分析

ENSO（厄尔尼诺-南方涛动）是发生在太平洋地区的一种重要气候现象，其主要特征是赤道太平洋海表温度的周期性波动，即厄尔尼诺现象和拉尼娜现象。这些波动会对全球气候产生重大影响，包括降水、风暴发展和温度异常。因此，预测 ENSO 事件涉及海洋和大气系统的复杂相互作用，因此仍然是一个开放的问题。

为了理解其机制，我们使用 NOAA（美国国家海洋和大气管理局）的 20 世纪再分析 V3 数据集 [39] 进行分析。它包含了关于地球大气的高维信息，时间跨度从 19 世纪到 21 世纪初，空间覆盖范围精细，包括 360×181个网格。我们使用这个数据集的月度数据。

▲ 图14. COAT 探究 ENSO 因果机制

如图 14 所示，COAT 识别出 13 个影响因素，它们的瞬时因果关系在图 7 中进行了可视化展示。目标变量是尼诺 3 区未来月平均海表温度（SST）的变化，这是 ENSO 事件的重要指标。每个因素都是关于特定区域某一气候测量的时间序列，该测量是在特定水平上的平均值。

关于海平面气压、动量通量和云量的路径与现有文献的理解相吻合 [40,41,42,43] 。同时，它还提出了几个在文献中较少探讨的假设路径，例如南美洲沿海地区土壤温度的路径。详细内容请参见论文附录 K。

结语

在本文中，我们提出了一种新的框架算法 COAT，旨在将 LLMs 丰富的知识融入因果发现的 pipeline 中。我们的实验结果表明，COAT 有效地扩展了因果发现的范围，使其能够处理非结构化数据，并通过从原始观测中识别出有用的高级变量，为因果发现方法提供了支持。COAT 为构建用于发现的因果基础模型开辟了新的路径。关于未来研究方向的更详细讨论，请参见论文附录B。

联系我们

欢迎查阅我们的论文以获取研究工作的更多细节。如有任何疑问，请随时联系我们（https://causalcoat.github.io/）。

如果您觉得我们的论文或代码库有帮助，请考虑引用：

@inproceedings{causalcoat2024,
      title={Discovery of the Hidden World with Large Language Models}, 
      author={Chenxi Liu and Yongqiang Chen and Tongliang Liu and Mingming Gong and James Cheng and Bo Han and Kun Zhang},
      year={2024},
      booktitle={Proceedings of the Thirty-eighth Annual Conference on Neural Information Processing Systems}
    }

参考文献

[1] Norwood Russell Hanson. Patterns of discovery : an inquiry into the conceptual foundations of science. Cambridge University Press, 1958.

[2] Thomas S. Kuhn and David Hawkins. The structure of scientific revolutions. American Journal of Physics, 31:554–555, 1963.

[3] Peter Spirtes, Clark Glymour, and Richard Scheines. Causation, Prediction, and Search, Second Edition. Adaptive computation and machine learning. MIT Press, 2000.

[4] Peter Spirtes, Clark Glymour, Richard Scheines, and Robert Tillman. Automated Search for Causal Relations: Theory and Practice, 2018.

[5] Matthew J. Vowels, Necati Cihan Camgoz, and Richard Bowden. D’ya like dags? a survey on structure learning and causal discovery. ACM Computing Survey, 55(4), 2022.

[6] Bernhard Scholkopf, Francesco Locatello, Stefan Bauer, Nan Rosemary Ke, Nal Kalchbrenner, Anirudh Goyal, and Yoshua Bengio. Towards causal representation learning. arXiv preprint, arXiv:2102.11107, 2021.

[7] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. In Advances in Neural Information Processing Systems, 2020.

[8] OpenAI. Chatgpt. https://chat.openai.com/chat/, 2022.

[9] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothee Lacroix, Baptiste Rozi `ere, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample. Llama: Open and efficient foundation language models. arXiv preprint, arXiv:2302.13971, 2023.

[10] OpenAI. Gpt-4 technical report, 2023.

[11] Emre Kiciman, Robert Ness, Amit Sharma, and Chenhao Tan. Causal reasoning and large language models: Opening a new frontier for causality. arXiv preprint, arXiv:2305.00050, 2023.

[12] Sebastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, EceKamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott M. Lundberg, Harsha Nori, Hamid Palangi, Marco Tulio Ribeiro, and Yi Zhang. Sparks of artificial general intelligence: Early experiments with GPT-4. arXiv preprint, arXiv:2303.12712, 2023.

[13] Cheng Zhang, Stefan Bauer, Paul Bennett, Jiangfeng Gao, Wenbo Gong, Agrin Hilmkil, Joel Jennings, Chao Ma, Tom Minka, Nick Pawlowski, and James Vaughan. Understanding causality with large language models: Feasibility and opportunities. arXiv preprint, arXiv:2304.05524, 2023.

[14] Ahmed Abdulaal, adamos hadjivasiliou, Nina Montana-Brown, Tiantian He, Ayodeji Ijishakin, Ivana Drobnjak, Daniel C. Castro, and Daniel C. Alexander. Causal modelling agents: Causal graph discovery through synergising metadata- and data-driven reasoning. In The Twelfth International Conference on Learning Representations, 2024.

[15] Matej Zecevic, Moritz Willig, Devendra Singh Dhami, and Kristian Kersting. Causal parrots: Large language models may talk causality but are not causal. Transactions on Machine Learning Research, 2023.

[16] Zhijing Jin, Yuen Chen, Felix Leeb, Luigi Gresele, Ojasv Kamal, Zhiheng LYU, Kevin Blin, Fernando Gonzalez Adauto, Max Kleiman-Weiner, Mrinmaya Sachan, and Bernhard Sch ̈olkopf. CLadder: A benchmark to assess causal reasoning capabilities of language models. In Thirty-seventh Conference on Neural Information Processing Systems, 2023.

[17] Zhijing Jin, Jiarui Liu, Zhiheng Lyu, Spencer Poff, Mrinmaya Sachan, Rada Mihalcea, Mona T. Diab, and Bernhard Sch ̈olkopf. Can large language models infer causation from correlation? arXiv preprint, arXiv:2306.05836, 2023.

[18] Yue Zhang, Yafu Li, Leyang Cui, Deng Cai, Lemao Liu, Tingchen Fu, Xinting Huang, Enbo Zhao, Yu Zhang, Yulong Chen, Longyue Wang, Anh Tuan Luu, Wei Bi, Freda Shi, and Shuming Shi. Siren’s song in the AI ocean: A survey on hallucination in large language models. arXiv preprint, arXiv:2309.01219, 2023.

[19] Chenhang Cui, Yiyang Zhou, Xinyu Yang, Shirley Wu, Linjun Zhang, James Zou, and Huaxiu Yao. Holistic analysis of hallucination in gpt-4v(ision): Bias and interference challenges. arXiv preprint, arXiv:2311.03287, 2023.

[20] Lukas Berglund, Meg Tong, Max Kaufmann, Mikita Balesni, Asa Cooper Stickland, Tomasz Korbak, and Owain Evans. The reversal curse: Llms trained on ”a is b” fail to learn ”b is a”. arXiv preprint, arXiv:2309.12288, 2023.

[21] Constantin F. Aliferis, Alexander Statnikov, Ioannis Tsamardinos, Subramani Mani, and Xenofon D. Koutsoukos. Local causal and markov blanket induction for causal discovery and feature selection for classification part i: Algorithms and empirical evaluation. Journal of Machine Learning Research, 11(7):171–234, 2010.

[22] Shantanu Gupta, David Childers, and Zachary Chase Lipton. Local causal discovery for estimating causal effects. In Conference on Causal Learning and Reasoning, volume 213, pages 408–447, 2023.

[23] Judea Pearl and Dana Mackenzie. The Book of Why: The New Science of Cause and Effect. Basic Books, Inc., USA, 1st edition, 2018.

[24] Timo Schick, Jane Dwivedi-Yu, Roberto Dess`ı, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, and Thomas Scialom. Toolformer: Language models can teach themselves to use tools. arXiv preprint, arXiv:2302.04761, 2023.

[25] Zhiheng Xi, Wenxiang Chen, Xin Guo, Wei He, Yiwen Ding, Boyang Hong, Ming Zhang, Junzhe Wang, Senjie Jin, Enyu Zhou, Rui Zheng, Xiaoran Fan, Xiao Wang, Limao Xiong, Yuhao Zhou, Weiran Wang, Changhao Jiang, Yicheng Zou, Xiangyang Liu, Zhangyue Yin, Shihan Dou, Rongxiang Weng, Wensen Cheng, Qi Zhang, Wenjuan Qin, Yongyan Zheng, Xipeng Qiu, Xuanjing Huan, and Tao Gui. The rise and potential of large language model based agents: A survey. arXiv preprint, arXiv:2309.07864, 2023.

[26] Ruibo Tu, Kun Zhang, Bo C. Bertilson, Hedvig Kjellstrom, and Cheng Zhang. Neuropathic pain diagnosis simulator for causal discovery algorithm evaluation. In Advances in Neural Information Processing Systems, pages 12773–12784, 2019.

[39] Gilbert P Compo, Jeffrey S Whitaker, Prashant D Sardeshmukh, Nobuki Matsui, Robert J Allan, Xungang Yin, Byron E Gleason, Russell S Vose, Glenn Rutledge, Pierre Bessemoulin, et al. The twentieth century reanalysis project. Quarterly Journal of the Royal Meteorological Society, 137(654):1–28, 2011.

[40] Jakob Bjerknes. Atmospheric teleconnections from the equatorial pacific. Monthly weather review, 97(3):163–172, 1969.

[41] Chunzai Wang. Enso, atlantic climate variability, and the walker and hadley circulations. In The Hadley circulation: Present, past and future, pages 173–202. Springer, 2004.

[42] Yinge Liu, Ninglian Wang, Lingang Wang, Zhongming Guo, and Xiaobo Wu. Variation of cloud amount over china and the relationship with enso from 1951 to 2014. International Journal of Climatology, 36(8):2931–2941, 2016.

[43] Anoop Kumar Mishra. Investigating changes in cloud cover using the long-term record of precipitation extremes. Meteorological Applications, 26(1):108–116, 2019.

更多阅读

# 投稿通道 #

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？ 答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是 最新论文解读 ，也可以是 学术热点剖析 、 科研心得 或 竞赛经验讲解 等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人 原创作品 ，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供 业内具有竞争力稿酬 ，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱： [email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（ pwbot02 ）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在 「知乎」 也能找到我们了

进入知乎首页搜索 「PaperWeekly」

点击 「关注」 订阅我们的专栏吧

​NeurIPS 2024 | 浸大、CMU提出全新框架COAT，用LLM探寻隐秘的因果世界

正文

请到「今天看啥」查看全文

3.2 目标

7.1 数据集构造

7.2.2 LLMs 能否有效解析高级变量的取值？ (adsbygoogle = window.adsbygoogle || []).push({});

8.1 数据集构造

请到「今天看啥」查看全文

NeurIPS 2024 | 浸大、CMU提出全新框架COAT，用LLM探寻隐秘的因果世界

7.2.2 LLMs 能否有效解析高级变量的取值？