专栏名称: 将门创投

将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。

NeurIPS 2024 | 浸大、CMU提出全新框架COAT，用LLM探寻隐秘的因果世界

将门创投 · 公众号 · 科技创业 · 2024-11-22 08:22

正文

寻找并分析因果关系是科学研究中的重要一环，而现有的因果发现算法依赖由专家预先定义的高级变量。现实场景中的原始数据往往是图片、文本等高维非结构化数据，结构化的高级变量是十分稀缺的，导致现有的因果发现和学习算法难以用于至更广泛的数据。

因此，香港浸会大学与MBZUAI、卡内基梅隆大学、香港中文大学、悉尼大学以及墨尔本大学合作发表论文《Discovery of the Hidden World with Large Language Models》，提出了一个名为 COAT 的新型框架，旨在利用大型语言模型和因果发现方法的优势，突破传统因果发现方法的局限性，更有效地在现实世界中定义高级变量、理解因果关系。

论文标题：

Discovery of the Hidden World with Large Language Models

论文链接：

https://arxiv.org/pdf/2402.03941

项目代码：

https://github.com/tmlr-group/CausalCOAT

项目主页：

https://causalcoat.github.io/

一、引言

科学的发展离不开对重要变量的识别和它们之间的因果关系的揭示 [1,2]。现有的因果发现方法（Causal Discovery methods, CDs）主要依赖于由人类专家提供的高质量测量变量 [3,4,5]。然而，在更广泛的实际的应用中，它们往往是稀缺的。例如，想要分析用户评分相关因素的亚马逊卖家，只能拥有原始的用户评论，这些评论是根据用户对某些产品特征的潜在偏好撰写的。因此，缺乏高质量的高级变量一直是 CDs 或受因果关系启发的方法在更广泛实际应用中的长期障碍 [6]。

大型语言模型（Large Language Models, LLMs）[7,8,9,10] 通过学习来自真实世界的大量文本数据，在理解非结构化输入方面展现了惊人的能力，并利用所学到的丰富知识解决各种通用任务 [11,12]。一系列早期的测试表明，LLMs 能够有效地利用所学知识回答常见的因果问题 [11,13,14]。尽管如此，现有的方法主要集中于将 LLMs 作为一种应用于给定的因果变量的 直接推理器 。由于 LLMs 的一系列缺陷 [18,19,20]，这种直接推理器的可靠性仍然存在争议 [13,15,16,17]。

更关键的是，经典的因果发现方法 [3,4,5] 强调识别因果结构的理论保证，而现有的 LLMs 和因果发现结合的方法仍然没能给出充分的讨论或分析。因此，本文聚焦在一个具有挑战性的研究问题： LLMs如何可靠地帮助揭示现实世界背后的因果机制？

二、LLM作为表征助理用于因果发现

本文的研究目标是利用大语言模型的优势为非结构化数据设计并提供结构化的表征。该表征应当由一系列的高级变量 (factors) 组成，捕捉用户感兴趣的信息，并具备一定的可解释性。

为了实现这样的目标，我们提出了一套简单而有效的框架算法：Causal representatiOn AssistanT (COAT). 用户只需提供一个感兴趣的目标变量，COAT 将迭代地找寻一组高级变量，构成目标变量的马尔可夫毯 (Markov Blanket)。在此基础上，任何合适的因果发现算法均可用于进一步的因果结构识别，加深对目标变量的理解。

数据

假设有一个用户感兴趣的 目标变量 ，比如消费者对商品的评分，或是患者肿瘤的类型。我们将Y视为一个标量随机变量。
待分析的 非结构化数据 记做 , 比如消费者附在评分后面的文本评论，或是患者肿瘤对应的医学图像。
数据集由从的分布中独立抽取的对样本组成。

注：我们对和之间的因果关系不做特定的假设。

目标

我们寻求一个映射，使得结构化表示满足。换言之，充当了关于的马尔可夫毯（Markov Blanket）。基于此，可以对应用下游方法。特别地，我们关注它们之间的因果结构，这些结构将揭示关于目标变量的有意义的见解 [21,22]。例如，符合哪类特征的产品会受消费者欢迎。

大语言模型用作表征助理

为了充分发挥 LLMs 从原始观察（即非结构化输入）中提取相关信息的能力，我们将映射分解为一组高级变量，每个高级变量将原始观察映射到一个预定义的值空间。也就是说，这些高级变量定义了的表征：

。我们使用符号来强调高级变量本身，如苹果的甜度、大小或气味，而来强调将原始观察映射到预定义值空间的函数。

高级变量的可解释性

值得注意的是， 上文中的每个高级变量 均是由 LLMs 通过自然语言定义的 。将数据和对应的描述输入大模型即可得到对应的值。这种定义高级变量的方法让其可解释性显示地可得。比如，令值空间为 , 那么可以被定义为

甜度：

1: 此消费者对苹果甜度感到满意；-1: 此消费者对苹果甜度感到失望；0: 没有提及 / 无法判断；

这样，中的每一个值就有了明确的物理含义。

三、COAT: Causal representatiOn AssistanT 框架

图 1. COAT 框架示例

COAT的框架如图1所示，COAT被用来分析消费者对苹果的文本评论数据。这里用户感兴趣的目标变量是消费者对苹果的评分。

在我们提出的 COAT 框架中，每一轮迭代将依次经过以下几个步骤。

变量提出

此环节的目的是将 LLMs 对数据的理解转换为一系列的可能的高级变量。我们采样一小部分的数据，通过 prompt 让一个 LLM 提出一些可能的高级变量。

图 2. COAT 在变量提出环节的 prompt 示意

图2展示了一个具体的例子。prompt 包含了三个部分：样本、指示信息、格式控制。为了帮助 LLMs 更好的注意到与目标变量相关的信息，样本被依据其对应的的取值分组。接下来，指示信息要求 LLM 定义具体的高级变量，包括变量的含义、每个变量对应的取值准则。如果有额外的背景信息或先验知识，也可一并加在这里。这里 prompt 的设计模仿了人类专家选取和定义高级变量的过程 [23]。