本文约4000字,建议阅读10+分钟
未来大语言模型(LLM)在药物发现和开发中的应用方向集中在九个关键领域的改进上。
作者 | 莫纳什大学郑伊圳
编辑 | ScienceAI
大语言模型因其展现出类人般的推理、工具使用和问题解决能力而备受瞩目,此外,它在化学、生物学等专业领域也展现出深厚的理解能力,进一步提升了其应用价值。
近日,哈佛大学、莫纳什大学和格里菲斯大学(Griffith University)组成的研究团队,发表最新综述《Large Language Models in Drug Discovery and Development: From Disease Mechanisms to Clinical Trials》。论文链接:https://arxiv.org/pdf/2409.04481本文阐述大语言模型可以在理解疾病机制、药物发现和临床试验三个药物发现的基本阶段展现出重要潜力。图示:大型语言模型在药物发现和开发的未来格局。(来源:论文)首先,本文展示了过去、现在的药物研发与临床试验中的过程并展现了大语言模型(LLMs)未来在这些阶段的潜在应用。过去:通过天然产物的发现和随机筛选进行药物研发。
现在:使用虚拟筛选和基于结构的手动药物设计。
- 未来:LLMs 将设计新型治疗方法,自动生成药物设计,并自动进行实验。
本文将大语言模型分为两类: 科学大语言模型(Scientific Language Model)和一般大语言模型(General Language Model)。两者的对比和差异如下:领域:涉及化学(分子)、生物学(蛋白质、基因)等专门领域。
训练数据:包括化学中的 SMILES、IUPAC 序列,蛋白质的 FASTA 序列,基因的 FASTA 序列等。
任务解决能力:能够处理分子、蛋白质、基因相关的任务,如逆合成规划、反应预测、分子设计、蛋白质结构预测、基因网络分析等。
- 工具型使用:作为工具,通过获取任务所需信息,生成预测结果(如蛋白质-配体结合亲和力评分)。
领域:基于更广泛的文本数据,如书籍、互联网、社交媒体等。
训练数据:包括书籍、问答网站、社交媒体、百科等来源。
人类式能力:具备理解背景知识、推理、角色扮演(如化学家)、规划、使用工具和信息检索等能力。
- 助手型使用:可以像助手一样与用户互动,回答问题、解释复杂概念并帮助用户完成任务。
图示:了解疾病机制。这张图表分为两部分,左边展示了疾病研究的关键流程,右边展示了大语言模型(LLM)在这些流程中的具体应用领域。(来源:论文)
疾病研究流程
1. 临床分型(Clinical Sub-typing):通过多组学数据的收集(如基因、蛋白质、代谢组等),结合临床分析和伦理法规要求,对疾病进行分型。目的是更好地理解疾病的异质性,从而为后续的靶点发现打下基础。2. 靶点-疾病关联(Target-Disease Linkage):通过基因表达谱分析、多通路分析等方法,结合实验工具(如 CRISPR-Cas9、RNA 干扰等),寻找并验证疾病与潜在治疗靶点的关联性。这一步对于药物开发至关重要。3. 靶点验证(Target Validation):验证靶点的安全性与可行性,评估其药物开发潜力。涉及靶点安全、药物可及性(Drugability)和测试可行性。靶点的作用机制(如激动剂、拮抗剂、调节剂等)也会在这一阶段进行确认,从而选择合适的治疗方式,如蛋白质、小分子或RNA治疗。LLM 的应用领域
1. 基因组分析(Genomics Analysis):LLM 可以帮助预测基因变异、启动子区域、转录因子结合位点等信息,从而帮助科研人员在基因组层面理解疾病机制。2. 转录组分析(Transcriptomics Analysis):LLM 可以处理 mRNA 表达分析、基因网络分析等复杂数据,辅助研究人员挖掘重要的转录组信息,了解基因的调控模式和表达差异。3. 蛋白质靶点分析(Protein Target Analysis):LLM 能够预测蛋白质结构、功能注释、蛋白质间相互作用以及配体结合位点等信息,帮助科研人员选择潜在的药物靶点。4. 疾病通路分析(Disease Pathway Analysis):LLM 在疾病通路分析中能够分析蛋白质与疾病之间的复杂相互作用,识别潜在的治疗靶点和干预途径,从而加速药物开发过程。LLM 还可以提供知识发现、信息检索等辅助功能,帮助科研人员快速获取相关信息,加快研究进程。图示:药物发现。这张图分为两部分,左边展示了药物发现的过程,右边展示了大语言模型(LLM)在药物发现各阶段的具体应用。(来源:论文)
药物发现过程
科学家可以选择不同的治疗方式,包括蛋白质、小分子药物和 RNA。该图以小分子药物为例,展示了它们在药物开发中的应用。命中识别(Hit Identification):通过筛选大量化合物,找到与靶点有初步反应的分子。
命中到先导(Hit to Lead):进一步优化这些初步命中分子,以提高其与靶点的结合能力。
先导优化(Lead Optimization):对先导化合物进行结构改造,增强其疗效和药物特性。
临床前研究(Pre-clinical):在进入临床试验前,评估候选药物的安全性和有效性。
- 药物候选物(Drug Candidates):通过上述流程,产生最终可供临床试验的候选药物。
LLM 的应用领域
LLM 可以用于化学机器人自动化合成、逆合成规划和反应预测等任务,帮助化学家加速化合物的发现。2. 计算机模拟(In Silico Simulation):LLM 能够进行分子生成、蛋白质生成和蛋白质-配体相互作用预测,从而加快虚拟药物筛选过程。LLM 能够预测候选药物的药代动力学(Pharmacokinetics)、毒性(Toxicity)和理化性质(Physicochemical Properties),帮助评估药物在人体中的行为。4. 先导优化(Lead Optimization):LLM 能够通过优化分子结构和蛋白质相互作用,帮助改进候选化合物的疗效和安全性。LLM 还可以提供信息检索和知识解释,帮助研究人员快速获取所需信息,提升药物开发的效率。图示:临床试验。这张图表左侧展示了临床试验的不同阶段,右侧展示了大语言模型(LLM)在这些阶段中的应用。(来源:论文)临床试验阶段
主要测试药物的安全性和最佳剂量水平。通常在 15 到 50 名健康志愿者中进行。探索药物的有效性以及可能的副作用,参与人数通常少于 100 人。将新治疗与现有治疗进行比较,验证新药物的效果,通常有超过 100 人参与。药物获批后,评估其长期效果,通常有超过 1000 名参与者。LLM 的应用领域
1. 临床实践(Clinical Practice):2. 患者结果(Patient Results):文件撰写:帮助生成临床试验相关文件和报告。
信息检索:快速查找和整理与试验相关的信息。
- 知识解释:对复杂的医学或药物信息进行解释,方便研究人员和医生理解。
图示:下游任务中的 LLM 成熟度评估。这张图表展示了两种类型的大语言模型的应用成熟度:科学大语言模型(Specialized LMs)和一般大语言模型(General LMs),分别在理解疾病机制、药物发现和临床试验中的应用情况。应用成熟度分为四个等级:新生期、进展期、成熟期以及不适用(N/A)。(来源:论文)该类大语言模型(LLM)的应用不适合或与给定的下游任务无关。在这种情况下,LLM的范式不被认为是有效或相关的工具。该类大语言模型的范式已被初步应用于任务,通常是在计算机模拟环境(in silico)中,但缺乏通过实际实验验证的支持。此阶段的应用更多是理论上的或初步探索,尚未经过现实场景中的测试。该类大语言模型的应用已经超越了理论,经过了实际场景中的实验验证。这些实验结果表明,LLM 在现实中可以在特定的任务中起到一定的作用,但可能还未广泛部署。该类大语言模型的应用已被集成到实际的工作环境中,如医院或制药公司,且有明确证据表明其在这些环境中的有效性和实用性。在这个阶段,LLM 已被广泛使用,并产生了显著的实际成果。理解疾病机制(Understanding Diseases Mechanism)
基因组分析(Genomics Analysis)、转录组分析(Transcriptomics Analysis)、蛋白质靶点分析(Protein-target Analysis)、疾病通路分析(Disease-pathway Analysis):化学实验(Chemistry Experiment)、计算机模拟(In-silico Simulation)、ADMET 预测(ADMET Prediction)、先导优化(Lead Optimization):两种模型在药物发现的各个环节中的成熟度也大多为进展期。其中,计算机模拟和ADMET预测的进展较快,有潜力进一步推动药物开发。临床试验实践(Clinical Trial Practice)、患者结果预测(Patient Outcome Prediction)未来大语言模型(LLM)在药物发现和开发中的应用方向集中在九个关键领域的改进上。首先,需要加强LLM对生物学知识的整合,包括对分子生成、临床试验数据以及科学术语的准确理解和操作。其次,需要解决伦理、隐私及模型误用的问题,确保数据的安全性并防止潜在的滥用。此外,还需关注公平性和偏见问题,避免模型在不同群体中的不平等表现。其他方面的改进包括解决 LLM 生成虚假信息(即「幻觉」)的挑战,提升多模态处理能力,扩展上下文窗口以应对海量生物数据,以及增强对时空数据的理解,特别是在分子动力学模拟等领域。最后,整合专业化 LLM 和通用 LLM 的能力,以实现更精确的科学任务处理与广泛的用户交互,推动药物研发的自动化与高效化。
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU