NIH大模型临床试验TrialGPT缩短患者招募时间42.6%- Nature子刊

知识图谱科技 · 公众号 · · 2024-12-05 08:39

正文

摘要:

TrialGPT 是一个创新框架，利用大型语言模型（LLMs），显著提升了患者与临床试验的匹配效率。该框架通过高效筛选试验、准确预测患者资格并提供解释，减少了筛选时间，超越了现有方法的表现。

临床试验的患者招募具有挑战性。我们介绍了 TrialGPT，这是一个端到端框架，用于与大型语言模型进行零镜头患者与试验的匹配。TrialGPT 包括三个模块：它首先执行大规模过滤以检索候选试验（TrialGPT-Retrieval）;然后预测标准级别的患者资格（TrialGPT-Matching）;最后生成试验级分数（TrialGPT-Ranking）。我们在三个队列上评估了 TrialGPT，每组 183 名合成患者，拥有超过 75,000 个试验注释。TrialGPT-Retrieval 可以使用不到 90% 的初始集合来召回超过 6% 的相关试验。对 1015 个患者标准对的手动评估表明，TrialGPT-Matching 在忠实解释的情况下达到了 87.3% 的准确率，接近专家的表现。TrialGPT-Ranking 分数与人类判断高度相关，在排名和排除试验方面比竞争最激烈的模型高出 43.8%。此外，我们的用户研究表明，TrialGPT 可以将患者招募的筛选时间缩短 42.6%。总体而言，这些结果表明，使用 TrialGPT 进行患者与试验的匹配存在很大的机会。

核心速览

研究背景

研究问题：这篇文章要解决的问题是如何利用大型语言模型（LLMs）来匹配患者和临床试验，以解决患者招募过程中存在的挑战。
研究难点：该问题的研究难点包括：处理患者记录和临床试验标准的异质性和模糊性；缺乏大规模的配对患者-标准匹配标注数据；密集检索过程不可解释，难以调试。
相关工作：该问题的研究相关工作包括使用神经网络将患者记录和标准编码为密集嵌入，以及探索LLMs在临床试验初步检索中的应用。然而，这些方法通常需要大量数据，且难以解释。

研究方法

这篇论文提出了TrialGPT，一个用于零样本患者到试验匹配的端到端框架。具体来说，TrialGPT包括三个模块：TrialGPT-Retrieval、TrialGPT-Matching和TrialGPT-Ranking。

TrialGPT-Retrieval ：首先，该模块通过关键词生成和混合融合检索从大量初始集合中检索出数百个高度相关的候选临床试验。具体来说，LLMs生成关键词列表，然后使用混合检索器（结合BM25和MedCPT检索器）找到相关临床试验。检索结果通过互惠排名融合进行组合。
TrialGPT-Matching ：其次，该模块预测每个患者的临床试验标准级别的资格。对于每个标准，TrialGPT生成相关性解释、相关句子位置和资格分类。具体来说，LLMs生成患者和标准之间相关性的解释，并预测每个标准的资格分类（包括“包括”、“不包括”、“信息不足”、“不适用”）。
TrialGPT-Ranking ：最后，该模块聚合TrialGPT-Matching的结果，生成试验级别的分数，用于根据给定患者的资格对临床试验进行排名和排除。具体来说，通过线性聚合和LLM聚合方法计算试验级别的分数，并使用这些分数对临床试验进行排名或排除。

实验设计

为了评估TrialGPT，研究人员使用了三个公开可用的患者队列：SIGIR 2016队列、TREC 2021 CT队列和TREC 2022 CT队列。每个队列包含183名合成患者，超过75,000条试验资格注释。实验设计包括以下几个步骤：

数据收集：从SIGIR、TREC 2021 CT和TREC 2022 CT队列中收集患者摘要和临床试验数据。
样本选择：从每个队列中选择患者和标准，组成训练和测试数据集。
参数配置：设置LLMs的推理温度为0，以确保确定性输出。

结果与分析

TrialGPT-Retrieval ：在SIGIR队列中，基于GPT-4的TrialGPT-Retrieval只需选择初始文档集合的5.5%即可召回90%以上的相关临床试验。相比之下，基于GPT-3.5的TrialGPT-Retrieval需要选择7.0%。
TrialGPT-Matching ：在1015个患者-标准对上，TrialGPT-Matching的准确率达到87.3%，接近人类专家的表现。大多数解释（87.8%）是正确的，只有不到10%的解释是部分正确的。
TrialGPT-Ranking ：TrialGPT-Ranking生成的试验级别分数与专家资格注释高度相关。线性聚合和LLM聚合方法的NDCG@10分别为0.7275和0.7314，均优于其他基线方法。
用户研究：模拟实际临床试验匹配任务的用户研究表明，TrialGPT可以将筛选时间减少42.6%。

总体结论

这篇论文提出了TrialGPT，一个利用大型语言模型进行患者到试验匹配的端到端框架。实验结果表明，TrialGPT能够有效地从大规模集合中召回相关临床试验，并以高准确率预测标准级别的资格。此外，TrialGPT还可以显著减少患者招募过程中的筛选时间。总体而言，TrialGPT展示了在辅助临床试验匹配过程中的巨大潜力。

论文评价

优点与创新

零样本患者到试验匹配框架：TrialGPT提出了一个端到端的框架，利用大型语言模型（LLMs）进行患者到试验的零样本匹配。
模块化设计：TrialGPT包含三个模块：检索（TrialGPT-Retrieval）、匹配（TrialGPT-Matching）和排名（TrialGPT-Ranking），每个模块都有明确的功能。
高效检索：TrialGPT-Retrieval能够在不到6%的初始集合中召回超过90%的相关试验。
高精度匹配：TrialGPT-Matching在1015个患者-标准对上的手动评估中，准确率达到87.3%，并且能够提供忠实的解释，接近专家水平。
排名性能优越：TrialGPT-Ranking生成的试验级评分与人类判断高度相关，在排名和排除试验方面比最佳基线模型高出43.8%。
用户研究支持：用户研究表明，TrialGPT可以将筛选时间减少42.6%，显著提高了临床试验匹配的效率。
可扩展性：TrialGPT设计为可扩展的，能够在现实世界应用中处理数万项临床试验。
透明性和解释性：与其他结构化方法相比，TrialGPT利用LLMs分析患者摘要和标准，不需要标准遵循特定格式，更加灵活，并且提供了可解释性。

不足与反思

依赖特定模型：TrialGPT依赖于OpenAI的GPT-4作为骨干模型，该模型是闭源的，只能通过商业应用或API访问。未来研究应探索使用其他开源LLMs作为替代。
提示策略的多样性：尽管TrialGPT提出了新颖的患者到试验匹配框架，但每个组件的不同提示策略仍需进一步探索。
用户研究样本量有限：初步用户研究的样本量有限，尽管提供了LLMs在辅助临床试验匹配中潜在益处的见解，但仍需更大规模的前瞻性评估。
数据集局限：当前使用的数据集主要关注标准的语义，排除了地理位置和试验招募状态等因素，这些因素可以通过传统的结构化查询方法解决。
专家参与的重要性：尽管TrialGPT匹配结果仅用于辅助专家，但在医学AI部署中，专家应始终处于决策循环中。
多模态数据处理：未来的研究应考虑处理更长的上下文、结构化数据和多模态输入，这些在当前研究中未被评估。
电子健康记录（EHR）的整合：未来研究应探索如何将EHR中的多样化数据类型无缝整合到TrialGPT中，以进一步提高其在真实世界中的验证能力。

关键问题及回答

问题1：TrialGPT-Retrieval模块是如何利用大型语言模型生成关键词并进行检索的？

关键词生成：给定一个自由文本的患者摘要，TrialGPT-Retrieval首先使用大型语言模型（LLM）生成关键词列表。这些关键词旨在过滤掉大部分不相关的临床试验。LLM生成关键词的提示包括任务描述和患者摘要。
混合检索：对于每个生成的关键词，TrialGPT-Retrieval使用混合检索器（BM25和MedCPT）找到相关的临床试验。BM25用于词汇检索，而MedCPT用于语义检索。
互惠排名融合：检索结果通过互惠排名融合进行组合。具体来说，对于每个关键词，LLM分别为BM25和MedCPT检索到的临床试验生成排名，然后使用互惠排名融合算法将这些排名组合起来，得到最终的检索结果。
排序：最终，临床试验根据TrialGPT-Retrieval得分进行排序，得分最高的临床试验被视为候选临床试验。

问题2：TrialGPT-Matching模块在预测患者-试验标准对资格时，如何生成相关性解释和相关句子位置？

生成相关性解释：对于每个试验标准，TrialGPT-Matching使用LLM生成一个相关性解释。这个解释解释了患者与标准之间的关联性，帮助理解为什么患者符合或不符合该标准。
生成相关句子位置：LLM还会生成与每个试验标准相关的句子位置。这些位置信息有助于验证解释的准确性，并为后续的资格分类提供支持。
资格分类：基于生成的解释和相关句子位置，TrialGPT-Matching对每个试验标准的资格进行分类，标签包括“包括”、“不包括”、“信息不足”和“不适用”。

问题3：TrialGPT-Ranking模块如何聚合TrialGPT-Matching的结果以生成试验级别的分数？