专栏名称: DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

大语言模型如何助力药物开发? 哈佛George Church Lab最新综述

DrugAI · 公众号 · 互联网短视频科技自媒体 · 2024-09-14 00:01

主要观点总结

本文介绍了大语言模型在药物研发中的应用，包括理解疾病机制、药物发现和临床试验三个阶段。大语言模型分为科学大语言模型和一般大语言模型两类，在各个领域都有潜在的应用价值。文章还阐述了两者之间的对比和差异，以及大语言模型在各个环节中的成熟度。未来大语言模型在药物发现和开发中的应用方向集中在九个关键领域的改进上，包括整合生物学知识、解决伦理隐私和模型误用问题、关注公平性和偏见问题、解决生成虚假信息的挑战等。

关键观点总结

关键观点1: 大语言模型在药物研发中的应用

大语言模型在理解疾病机制、药物发现和临床试验三个阶段都有广泛的应用。在科学领域，它们能够帮助科研人员处理复杂的生物数据，加速药物开发过程。在临床试验阶段，大语言模型可以帮助进行病人匹配、试验设计，并预测试验结果。

关键观点2: 大语言模型的分类

大语言模型分为科学大语言模型和一般大语言模型两类。科学大语言模型涉及化学、生物学等专门领域，能够处理分子、蛋白质、基因相关任务。一般大语言模型基于更广泛的文本数据，具备理解背景知识、推理、角色扮演等能力。

关键观点3: 大语言模型的应用成熟度

大语言模型在药物研发中的应用成熟度分为新生期、进展期和成熟期。在理解疾病机制和药物发现阶段，一些应用还处于新生期，而在临床试验阶段，一些应用已经处于成熟期。

关键观点4: 未来大语言模型在药物发现和开发中的应用方向

未来大语言模型在药物发现和开发中的应用方向包括加强LLM对生物学知识的整合、解决伦理、隐私及模型误用的问题、关注公平性和偏见问题、解决生成虚假信息的挑战、提升多模态处理能力等九个关键领域的改进。

正文

DRUGAI

大语言模型因其展现出类人般的推理、工具使用和问题解决能力而备受瞩目，此外，它在化学、生物学等专业领域也展现出深厚的理解能力，进一步提升了其应用价值。本文阐述大语言模型可以在理解疾病机制、药物发现和临床试验三个药物发现的基本阶段展现出重要潜力。

首先，本文展示了过去、现在的药物研发与临床试验中的过程并展现了大语言模型（LLMs）未来在这些阶段的潜在应用。

理解疾病机制

过去：依赖手动文献和专利搜索。
现在：除了手动文献搜索，还加入了功能基因组学分析。
未来：LLMs将自动识别靶基因，发现生化和药理学原理。

药物发现：

过去：通过天然产物的发现和随机筛选进行药物研发。
现在：使用虚拟筛选和基于结构的手动药物设计。
未来：LLMs将设计新型治疗方法，自动生成药物设计，并自动进行实验。

临床试验：

过去和现在：手动匹配病人与试验、设计临床试验以及收集临床试验数据。
未来：LLMs将自动进行病人匹配、试验设计，并预测试验结果。

大语言模型的分类

本文将大语言模型分为两类: 科学大语言模型(Scientific Language Model)和一般大语言模型(General Language Model)。两者的对比和差异如下:

科学大语言模型

领域：涉及化学（分子）、生物学（蛋白质、基因）等专门领域。
训练数据：包括化学中的SMILES、IUPAC序列，蛋白质的FASTA序列，基因的FASTA序列等。
任务解决能力：能够处理分子、蛋白质、基因相关的任务，如逆合成规划、反应预测、分子设计、蛋白质结构预测、基因网络分析等。
工具型使用：作为工具，通过获取任务所需信息，生成预测结果（如蛋白质-配体结合亲和力评分）。

通用语言模型

领域：基于更广泛的文本数据，如书籍、互联网、社交媒体等。
训练数据：包括书籍、问答网站、社交媒体、百科等来源。
人类式能力：具备理解背景知识、推理、角色扮演（如化学家）、规划、使用工具和信息检索等能力。
助手型使用：可以像助手一样与用户互动，回答问题、解释复杂概念并帮助用户完成任务。

大语言模型在理解疾病机制中的作用

这张图表分为两部分，左边展示了疾病研究的关键流程，右边展示了大语言模型（LLM）在这些流程中的具体应用领域。

左侧：疾病研究流程

临床分型（Clinical Sub-typing）

通过多组学数据的收集（如基因、蛋白质、代谢组等），结合临床分析和伦理法规要求，对疾病进行分型。目的是更好地理解疾病的异质性，从而为后续的靶点发现打下基础。

靶点-疾病关联（Target-Disease Linkage）

通过基因表达谱分析、多通路分析等方法，结合实验工具（如CRISPR-Cas9、RNA干扰等），寻找并验证疾病与潜在治疗靶点的关联性。这一步对于药物开发至关重要。

靶点验证（Target Validation）

验证靶点的安全性与可行性，评估其药物开发潜力。涉及靶点安全、药物可及性（Drugability）和测试可行性。靶点的作用机制（如激动剂、拮抗剂、调节剂等）也会在这一阶段进行确认，从而选择合适的治疗方式，如蛋白质、小分子或RNA治疗。

右侧：LLM的应用领域

基因组分析（Genomics Analysis）

LLM可以帮助预测基因变异、启动子区域、转录因子结合位点等信息，从而帮助科研人员在基因组层面理解疾病机制。

转录组分析（Transcriptomics Analysis）

LLM可以处理mRNA表达分析、基因网络分析等复杂数据，辅助研究人员挖掘重要的转录组信息，了解基因的调控模式和表达差异。

蛋白质靶点分析（Protein Target Analysis）

LLM能够预测蛋白质结构、功能注释、蛋白质间相互作用以及配体结合位点等信息，帮助科研人员选择潜在的药物靶点。

疾病通路分析（Disease Pathway Analysis）

LLM在疾病通路分析中能够分析蛋白质与疾病之间的复杂相互作用，识别潜在的治疗靶点和干预途径，从而加速药物开发过程。

辅助功能（Assistance）

LLM还可以提供知识发现、信息检索等辅助功能，帮助科研人员快速获取相关信息，加快研究进程。

大语言模型在药物发现中的应用

这张图分为两部分，左边展示了药物发现的过程，右边展示了大语言模型（LLM）在药物发现各阶段的具体应用。

左侧：药物发现过程

药物类型选择

科学家可以选择不同的治疗方式，包括蛋白质、小分子药物和RNA。该图以小分子药物为例，展示了它们在药物开发中的应用。

药物发现流程

命中识别（Hit Identification）：通过筛选大量化合物，找到与靶点有初步反应的分子。
命中到先导（Hit to Lead）：进一步优化这些初步命中分子，以提高其与靶点的结合能力。
先导优化（Lead Optimization）：对先导化合物进行结构改造，增强其疗效和药物特性。
临床前研究（Pre-clinical）：在进入临床试验前，评估候选药物的安全性和有效性。
药物候选物（Drug Candidates）：通过上述流程，产生最终可供临床试验的候选药物。

右侧：LLM的应用领域

化学领域（Chemistry）

LLM可以用于化学机器人自动化合成、逆合成规划和反应预测等任务，帮助化学家加速化合物的发现。

计算机模拟（In Silico Simulation）

LLM能够进行分子生成、蛋白质生成和蛋白质-配体相互作用预测，从而加快虚拟药物筛选过程。

ADMET预测

LLM能够预测候选药物的药代动力学（Pharmacokinetics）、毒性（Toxicity）和理化性质（Physicochemical Properties），帮助评估药物在人体中的行为。

先导优化（Lead Optimization

LLM能够通过优化分子结构和蛋白质相互作用，帮助改进候选化合物的疗效和安全性。

辅助功能（Assistance）

LLM还可以提供信息检索和知识解释，帮助研究人员快速获取所需信息，提升药物开发的效率。

大语言模型在临床试验中的应用

这张图表左侧展示了临床试验的不同阶段，右侧展示了大语言模型（LLM）在这些阶段中的应用。

左侧：临床试验阶段

第一阶段（Phase 1）

主要测试药物的安全性和最佳剂量水平。通常在15到50名健康志愿者中进行。

第二阶段（Phase 2）

探索药物的有效性以及可能的副作用，参与人数通常少于100人。

第三阶段（Phase 3）

将新治疗与现有治疗进行比较，验证新药物的效果，通常有超过100人参与。

第四阶段（Phase 4）

药物获批后，评估其长期效果，通常有超过1000名参与者。

右侧：LLM的应用领域

临床实践（Clinical Practice）

ICD编码：帮助生成和优化疾病分类编码。
病人-试验匹配：通过分析患者特征，自动匹配合适的临床试验。
临床试验预测：预测临床试验的成功率和结果。
临床试验规划：协助研究人员制定有效的临床试验计划。

患者结果（Patient Results）

患者结果预测：根据现有数据预测患者治疗的效果。

辅助功能（Assistance）

文件撰写：帮助生成临床试验相关文件和报告。
信息检索：快速查找和整理与试验相关的信息。
知识解释：对复杂的医学或药物信息进行解释，方便研究人员和医生理解。

成熟度评估：大语言模型在药物研发中的应用

这张图表展示了两种类型的大语言模型的应用成熟度：科学大语言模型（Specialized LMs）和一般大语言模型（General LMs），分别在理解疾病机制、药物发现和临床试验中的应用情况。应用成熟度分为四个等级：新生期、进展期、成熟期以及不适用（N/A):

不适用（Not Applicable）

该类大语言模型（LLM）的应用不适合或与给定的下游任务无关。在这种情况下，LLM的范式不被认为是有效或相关的工具。

新生期（Nascent）

该类大语言模型的范式已被初步应用于任务，通常是在计算机模拟环境（in silico）中，但缺乏通过实际实验验证的支持。此阶段的应用更多是理论上的或初步探索，尚未经过现实场景中的测试。

进展期（Advanced）

该类大语言模型的应用已经超越了理论，经过了实际场景中的实验验证。这些实验结果表明，LLM在现实中可以在特定的任务中起到一定的作用，但可能还未广泛部署。

成熟期（Matured）

该类大语言模型的应用已被集成到实际的工作环境中，如医院或制药公司，且有明确证据表明其在这些环境中的有效性和实用性。在这个阶段，LLM已被广泛使用，并产生了显著的实际成果。

理解疾病机制（Understanding Diseases Mechanism）

基因组分析（Genomics Analysis）、转录组分析（Transcriptomics Analysis）、蛋白质靶点分析（Protein-target Analysis）、疾病通路分析（Disease-pathway Analysis）：

基因组分析（Genomics Analysis）、转录组分析（Transcriptomics Analysis）主要还处于早期
蛋白质靶点分析（Protein-target Analysis）、疾病通路分析（Disease-pathway Analysis）已经处于较为成熟的阶段

药物发现（Drug Discovery)

化学实验（Chemistry Experiment）、计算机模拟（In-silico Simulation）、ADMET预测（ADMET Prediction）、先导优化（Lead Optimization）：两种模型在药物发现的各个环节中的成熟度也大多为进展期。其中，计算机模拟和ADMET预测的进展较快，有潜力进一步推动药物开发。

临床试验（Clinical Trial）

临床试验实践（Clinical Trial Practice）、患者结果预测（Patient Outcome Prediction）
大语言模型在这些任务上都已经被实际应用。

未来方向

未来大语言模型（LLM）在药物发现和开发中的应用方向集中在九个关键领域的改进上。首先，需要加强LLM对生物学知识的整合，包括对分子生成、临床试验数据以及科学术语的准确理解和操作。其次，需要解决伦理、隐私及模型误用的问题，确保数据的安全性并防止潜在的滥用。此外，还需关注公平性和偏见问题，避免模型在不同群体中的不平等表现。

其他方面的改进包括解决LLM生成虚假信息（即“幻觉”）的挑战，提升多模态处理能力，扩展上下文窗口以应对海量生物数据，以及增强对时空数据的理解，特别是在分子动力学模拟等领域。最后，整合专业化LLM和通用LLM的能力，以实现更精确的科学任务处理与广泛的用户交互，推动药物研发的自动化与高效化。

参考资料

Zheng, Y., Koh, H.Y., Yang, M., Li, L., May, L.T., Webb, G.I., Pan, S. and Church, G., 2024. Large Language Models in Drug Discovery and Development: From Disease Mechanisms to Clinical Trials. arXiv preprint arXiv:2409.04481.