大语言模型
(Large Language Model,LLM)
因其展现出类人般的推理、工具使用和问题解决能力而备受瞩目,此外,它在化学、生物学等专业领域也展现出深厚的理解能力,进一步提升了其应用价值。
将大型语言模型
(LLM)
整合到药物发现和开发领域标志着一个重大范式转变,为理解疾病机制、促进药物发现和优化临床试验过程提供了新颖的方法。
近日,哈佛大学
乔治·丘奇
(George Church)
教授、格里菲斯大学
潘世瑞
教授等在预印本平台
arXiv
上发表了题为:
Large Language Models in Drug Discovery and Development: From Disease Mechanisms to Clinical Trials
(药物发现和开发中的大语言模型:从疾病机制到临床试验)
的综述论文。
该综述强调了
大语言模型
在药物开发管线的各个阶段中日益扩大的作用,阐述了大语言模型可以在
理解疾病机制
、
药物发现
和
临床试验
三个基本阶段展现出重要潜力。探讨了这些先进的计算模型如何揭示靶点-疾病关联、解释复杂的生物医学数据、增强药物分子设计、预测药物疗效和安全性特征,并促进临床试验过程。 该综述旨在为计算生物学、药理学和AI4Science领域的研究人员和从业者提供全面概述,并提供大语言模型对药物发现和开发产生潜在变革性影响的见解。
首先,该综述展示了过去、现在的药物研发与临床试验中的过程并展现了大语言模型
(LLM)
未来在这些阶段的潜在应用。
该综述将大语言模型分为两类:
科学大语言模型
(Scientific Language Model)
和
一般大语言模型
(General Language Model)
。
两者的对比和差异如下:
科学大语言模型:
-
领域:
涉及化学
(分子)
、生物学
(蛋白质、基
因)
等专门领域。
-
训练数据:
包括化学中的SMILES、IUPAC序列,蛋白质的FASTA序列,基因的FASTA序列等。
-
任务解决能力:
能够处理分子、蛋白质、基因相关的任务,如逆合成规划、反应预测、分子设计、蛋白质结构预测、基因网络分析等。
-
工具型使用:
作为工具,通过获取任务所需信息,生成预测结果
(如蛋白质-配体结合亲和力评分)
。
通用语言模型:
-
领域:
基于更广泛的文本数据,如书籍、互联网、社交媒体等。
-
训练数据:
包括书籍、问答网站、社交媒体、百科等来源。
-
人类式能力:
具备理解背景知识、推理、角色扮演
(如化学家)
、规划、使用工具和信息检索等能力。
-
助手型使用:
可以像助手一样与用户互动,回答问题、解释复杂概念并帮助用户完成任务。
这张图表分为两部分,左边展示了疾病研究的关键流程,右边展示了大语言模型
(LLM)
在这些流程中的具体应用领域。
左侧:疾病研究流程
1、临床分型
(Clinical Sub-typing)
:
2、靶点-疾病关联
(
Target-Disease Linkage)
:
3、靶点验证
(Target Validation)
:
右侧:LLM的应用领域
1、基因组分析
(Genomics Analysis)
:
2、转录组分析
(Transcriptomics Analysis)
:
3、蛋白质靶点分析
(Protein Target Analysis):
4、疾病通路分析
(
Disease Pathway Analysis)
:
5、辅助功能
(Assistance)
:
-
LLM还可以提供知识发现、信息检索等辅助功能,帮助科研人员快速获取相关信息,加快研究进程。
这张图分为两部分,左边展示了药物发现的过程,右边展示了大语言模型
(LLM)
在药物发现各阶段的具体应用。
左侧:药物发现过程
1、药物类型选择:
2、药物发现流程:
-
命中识别
(Hit Identification)
:通过筛选大量化合物,找到与靶点有初步反应的分子。
-
命中到先导
(Hit to Lead)
:进一步优化这些初步命中分子,以提高其与靶点的结合能力。
-
先导优化
(Lead Optimization)
:对先导化合物进行结构改造,增强其疗效和药物特性。
-
临床前研究
(Pre-clinical)
:在进入临床试验前,评估候选药物的安全性和有效性。
-
药物候选物
(Drug Candidates)
:通过上述流程,产生最终可供临床试验的候选药物。
右侧:LLM的应用领域
1、化学领域
(Chemistry)
:
2、计算机模拟
(In Silico Simulation)
:
3、ADMET预测
(ADMET Prediction)
:
4、先导优化
(Lead Optimization)
:
5、辅助功能
(Assistance)
:
-
LLM还可以提供信息检索和知识解释,帮助研究人员快速获取所需信息,提升药物开发的效率。
这张图表左侧展示了临床试验的不同阶段,右侧展示了大语言模型
(LLM)
在这些阶段中的应用。
左侧:临床试验阶段
1、第一阶段
(Phase 1)
:
2、第二阶段
(Phase 2)
:
3、第三阶段
(Phase 3)
:
4、第四阶段
(Phase 4)
:
右侧:LLM的应用领域
1、临床实践
(Clinical Practice)
:
2、患者结果
(Patient Results)
:
3、辅助功能
(Assistance)
:
-
文件撰写:帮助生成临床试验相关文件和报告。
-
信息检索:快速查找和整理与试验相关的信息。
-
知识解释:对复杂的医学或药物信息进行解释,方便研究人员和医生理解。
这张图表展示了两种类型的大语言模型的应用成熟度:科学大语言模型
(Specialized LMs)
和一般大语言模型
(General LMs)
,分别在理解疾病机制、药物发现和临床试验中的应用情况。应用成熟度分为四个等级:新生期、进展期、成熟期以及不适用
(N/A))
。