专栏名称: 金斯瑞生物
金斯瑞是全球生物科技领域的重要参与者与支持者,为全球100多个国家与地区的科研用户提供优质和便捷的服务。在这里,您可以获得最新企业新闻、科研热点资讯、学术访谈分享、应用干货分享及趣味科普解读。
目录
相关文章推荐
连线Insight  ·  寻找新风口的华熙生物,还有多少想象力? ·  2 天前  
连线Insight  ·  寻找新风口的华熙生物,还有多少想象力? ·  2 天前  
鹤城发布  ·  严禁下班时间开会!知名企业发文 ·  2 天前  
鹤城发布  ·  严禁下班时间开会!知名企业发文 ·  2 天前  
鄯善县市场监督管理局  ·  今日辟谣(2025年2月7日) ·  3 天前  
AIGC开放社区  ·  实体机器人Figure ... ·  3 天前  
AIGC开放社区  ·  实体机器人Figure ... ·  3 天前  
51好读  ›  专栏  ›  金斯瑞生物

乔治·丘奇等人最新综述:大语言模型如何助力药物开发?

金斯瑞生物  · 公众号  ·  · 2024-11-27 17:00

正文


文章来源:生物世界


大语言模型 (Large Language Model,LLM) 因其展现出类人般的推理、工具使用和问题解决能力而备受瞩目,此外,它在化学、生物学等专业领域也展现出深厚的理解能力,进一步提升了其应用价值。


将大型语言模型 (LLM) 整合到药物发现和开发领域标志着一个重大范式转变,为理解疾病机制、促进药物发现和优化临床试验过程提供了新颖的方法。


近日,哈佛大学 乔治·丘奇 (George Church) 教授、格里菲斯大学 潘世瑞 教授等在预印本平台 arXiv 上发表了题为: Large Language Models in Drug Discovery and Development: From Disease Mechanisms to Clinical Trials (药物发现和开发中的大语言模型:从疾病机制到临床试验) 的综述论文。


该综述强调了 大语言模型 在药物开发管线的各个阶段中日益扩大的作用,阐述了大语言模型可以在 理解疾病机制 药物发现 临床试验 三个基本阶段展现出重要潜力。探讨了这些先进的计算模型如何揭示靶点-疾病关联、解释复杂的生物医学数据、增强药物分子设计、预测药物疗效和安全性特征,并促进临床试验过程。 该综述旨在为计算生物学、药理学和AI4Science领域的研究人员和从业者提供全面概述,并提供大语言模型对药物发现和开发产生潜在变革性影响的见解。



首先,该综述展示了过去、现在的药物研发与临床试验中的过程并展现了大语言模型 (LLM) 未来在这些阶段的潜在应用。



理解疾病机制:

  • 过去:依赖手动文献和专利搜索。

  • 现在:除了手动文献搜索,还加入了功能基因组学分析。

  • 未来:LLM将自动识别靶基因,发现生化和药理学原理。


药物发现:

  • 过去:通过天然产物的发现和随机筛选进行药物研发。

  • 现在:使用虚拟筛选和基于结构的手动药物设计。

  • 未来:LLM将设计新型治疗方法,自动生成药物设计,并自动进行实验。


临床试验:

  • 过去和现在:手动匹配病人与试验、设计临床试验以及收集临床试验数据。

  • 未来:LLM将自动进行病人匹配、试验设计,并预测试验结果。


1

大语言模型的分类


该综述将大语言模型分为两类: 科学大语言模型 (Scientific Language Model) 一般大语言模型 (General Language Model)



两者的对比和差异如下:


科学大语言模型:

  • 领域: 涉及化学 (分子) 、生物学 (蛋白质、基 因) 等专门领域。

  • 训练数据: 包括化学中的SMILES、IUPAC序列,蛋白质的FASTA序列,基因的FASTA序列等。

  • 任务解决能力: 能够处理分子、蛋白质、基因相关的任务,如逆合成规划、反应预测、分子设计、蛋白质结构预测、基因网络分析等。

  • 工具型使用: 作为工具,通过获取任务所需信息,生成预测结果 (如蛋白质-配体结合亲和力评分)


通用语言模型:

  • 领域: 基于更广泛的文本数据,如书籍、互联网、社交媒体等。

  • 训练数据: 包括书籍、问答网站、社交媒体、百科等来源。

  • 人类式能力: 具备理解背景知识、推理、角色扮演 (如化学家) 、规划、使用工具和信息检索等能力。

  • 助手型使用: 可以像助手一样与用户互动,回答问题、解释复杂概念并帮助用户完成任务。


2

大语言模型在理解疾病机制中的作用


这张图表分为两部分,左边展示了疾病研究的关键流程,右边展示了大语言模型 (LLM) 在这些流程中的具体应用领域。



左侧:疾病研究流程


1、临床分型 (Clinical Sub-typing)

  • 通过多组学数据的收集 (如基因、蛋白质、代谢组等) ,结合临床分析和伦理法规要求,对疾病进行分型。目的是更好地理解疾病的异质性,从而为后续的靶点发现打下基础。


2、靶点-疾病关联 Target-Disease Linkage)

  • 通过基因表达谱分析、多通路分析等方法,结合实验工具 (如CRISPR-Cas9、RNA干扰等) ,寻找并验证疾病与潜在治疗靶点的关联性。这一步对于药物开发至关重要。


3、靶点验证 (Target Validation)

  • 验证靶点的安全性与可行性,评估其药物开发潜力。涉及靶点安全、药物可及性 (Drugability) 和测试可行性。靶点的作用机制 (如激动剂、拮抗剂、调节剂等) 也会在这一阶段进行确认,从而选择合适的治疗方式,如蛋白质、小分子或RNA治疗。


右侧:LLM的应用领域


1、基因组分析 (Genomics Analysis)

  • LLM可以帮助预测基因变异、启动子区域、转录因子结合位点等信息,从而帮助科研人员在基因组层面理解疾病机制。


2、转录组分析 (Transcriptomics Analysis)

  • LLM可以处理mRNA表达分析、基因网络分析等复杂数据,辅助研究人员挖掘重要的转录组信息,了解基因的调控模式和表达差异。


3、蛋白质靶点分析 (Protein Target Analysis):

  • LLM能够预测蛋白质结构、功能注释、蛋白质间相互作用以及配体结合位点等信息,帮助科研人员选择潜在的药物靶点。


4、疾病通路分析 Disease Pathway Analysis)

  • LLM在疾病通路分析中能够分析蛋白质与疾病之间的复杂相互作用,识别潜在的治疗靶点和干预途径,从而加速药物开发过程。


5、辅助功能 (Assistance)

  • LLM还可以提供知识发现、信息检索等辅助功能,帮助科研人员快速获取相关信息,加快研究进程。


3

大语言模型在药物发现中的作用


这张图分为两部分,左边展示了药物发现的过程,右边展示了大语言模型 (LLM) 在药物发现各阶段的具体应用。



左侧:药物发现过程


1、药物类型选择:

  • 科学家可以选择不同的治疗方式,包括蛋白质、小分子药物和RNA。该图以小分子药物为例,展示了它们在药物开发中的应用。


2、药物发现流程:

  • 命中识别 (Hit Identification) :通过筛选大量化合物,找到与靶点有初步反应的分子。

  • 命中到先导 (Hit to Lead) :进一步优化这些初步命中分子,以提高其与靶点的结合能力。

  • 先导优化 (Lead Optimization) :对先导化合物进行结构改造,增强其疗效和药物特性。

  • 临床前研究 (Pre-clinical) :在进入临床试验前,评估候选药物的安全性和有效性。

  • 药物候选物 (Drug Candidates) :通过上述流程,产生最终可供临床试验的候选药物。


右侧:LLM的应用领域


1、化学领域 (Chemistry)

  • LLM可以用于化学机器人自动化合成、逆合成规划和反应预测等任务,帮助化学家加速化合物的发现。


2、计算机模拟 (In Silico Simulation)

  • LLM能够进行分子生成、蛋白质生成和蛋白质-配体相互作用预测,从而加快虚拟药物筛选过程。


3、ADMET预测 (ADMET Prediction)

  • LLM能够预测候选药物的药代动力学 (Pharmacokinetics) 、毒性 (Toxicity) 和理化性质 (Physicochemical Properties) ,帮助评估药物在人体中的行为。


4、先导优化 (Lead Optimization)

  • LLM能够通过优化分子结构和蛋白质相互作用,帮助改进候选化合物的疗效和安全性。


5、辅助功能 (Assistance)

  • LLM还可以提供信息检索和知识解释,帮助研究人员快速获取所需信息,提升药物开发的效率。


4

大语言模型在临床试验中的作用


这张图表左侧展示了临床试验的不同阶段,右侧展示了大语言模型 (LLM) 在这些阶段中的应用。



左侧:临床试验阶段


1、第一阶段 (Phase 1)

  • 主要测试药物的安全性和最佳剂量水平。通常在15到50名健康志愿者中进行。


2、第二阶段 (Phase 2)

  • 探索药物的有效性以及可能的副作用,参与人数通常少于100人。


3、第三阶段 (Phase 3)

  • 将新治疗与现有治疗进行比较,验证新药物的效果,通常有超过100人参与。


4、第四阶段 (Phase 4)

  • 药物获批后,评估其长期效果,通常有超过1000名参与者。


右侧:LLM的应用领域


1、临床实践 (Clinical Practice)

  • ICD编码:帮助生成和优化疾病分类编码。

  • 病人-试验匹配:通过分析患者特征,自动匹配合适的临床试验。

  • 临床试验预测:预测临床试验的成功率和结果。

  • 临床试验规划:协助研究人员制定有效的临床试验计划。


2、患者结果 (Patient Results)

  • 患者结果预测:根据现有数据预测患者治疗的效果。


3、辅助功能 (Assistance)

  • 文件撰写:帮助生成临床试验相关文件和报告。

  • 信息检索:快速查找和整理与试验相关的信息。

  • 知识解释:对复杂的医学或药物信息进行解释,方便研究人员和医生理解。


5

成熟度评估:大语言模型在药物研发的应用


这张图表展示了两种类型的大语言模型的应用成熟度:科学大语言模型 (Specialized LMs) 和一般大语言模型 (General LMs) ,分别在理解疾病机制、药物发现和临床试验中的应用情况。应用成熟度分为四个等级:新生期、进展期、成熟期以及不适用 (N/A))



不适用 (Not Applicable)

  • 该类大语言模型 (LLM) 的应用不适合或与给定的下游任务无关。在这种情况下,LLM的范式不被认为是有效或相关的工具。








请到「今天看啥」查看全文


推荐文章
鹤城发布  ·  严禁下班时间开会!知名企业发文
2 天前
鹤城发布  ·  严禁下班时间开会!知名企业发文
2 天前
鄯善县市场监督管理局  ·  今日辟谣(2025年2月7日)
3 天前
墨香中华  ·  本来无一物,何处惹尘埃
7 年前