专栏名称: iNature
专注前沿科学动态,传递科普信息。
目录
相关文章推荐
可爱多手工艺术  ·  女性“最佳体重”已公布,不是100斤,而是这 ... ·  6 小时前  
可爱多手工艺术  ·  旧牛仔裤旧衣服都剪成布条这样编,抱枕,包包, ... ·  6 小时前  
51好读  ›  专栏  ›  iNature

Nature重磅!打破质疑!AIphaFold3将解决百年历史性难题!

iNature  · 公众号  ·  · 2024-08-07 09:00

正文


2024 年 5 月 8 日,谷歌 DeepMind 与 Isomorphic Labs 联合在《自然》期刊上发布蛋白质领域最新人工智能模型 AlphaFold 3!这一模型能够准确预测蛋白质、DNA、RNA 以及配体等生命分子的结构及其相互作用方式。这是继 AlphaFold 2 之后的又一重大突破

在预测类药物相互作用方面,AlphaFold 3 实现了前所未有的准确度,包括蛋白质与配体的结合以及抗体与其靶蛋白的结合。在 PoseBusters 的基准测试中, AlphaFold 3 的准确率比现有最佳传统方法高出 50%,而且无需任何结构信息输入,成为首个超越传统物理预测工具的人工智能系统。 这种预测抗体与蛋白质结合的能力,对于理解人类免疫反应的各个方面以及新抗体的设计至关重要。

深度学习在蛋白质设计领域的前沿研究主要集中在蛋白质结构预测、蛋白质序列设计、蛋白质-蛋白质相互作用预测、蛋白质功能注释和蛋白质优化与筛选等方面。这些研究方向为开发新的功能性蛋白质和药物靶点提供了新思路,并在生物医学、药物研发和生物材料等领深度学习在蛋白质设计领域的应用被认为是当前的前沿研究方向之一,深度学习在蛋白质设计领域的不断发展为新药研发、生物制药、生命科学研究等领域带来了许多创新和机会





深度学习在蛋白质设计领域的前沿研究主要集中在蛋白质结构预测、蛋白质序列设计、蛋白质-蛋白质相互作用预测、蛋白质功能注释和蛋白质优化与筛选等方面。这些研究方向为开发新的功能性蛋白质和药物靶点提供了新思路,并在生物医学、药物研发和生物材料等领深度学习在蛋白质设计领域的应用被认为是当前的前沿研究方向之一,蛋白质结构预测与设计领域的未来将充满创新和跨学科的发展,为解决生物医学、生物工程和生物能源等方面的重大问题提供更多可能性。

蛋白质折叠和结构预测:深度学习模型可以预测蛋白质的三维结构,这对理解蛋白质的功能和开展蛋白质设计至关重要。通过深度神经网络模型和注意力机制的应用,可以更准确地预测蛋白质的折叠和结构。蛋白质序列设计:深度学习可以用于预测蛋白质序列的功能和稳定性。通过神经网络模型和自然语言处理技术的结合,可以设计出具有特定功能和稳定性的蛋白质序列,例如酶活性、药物靶点等。蛋白质-蛋白质相互作用预测:深度学习模型可以预测蛋白质和蛋白质之间的相互作用,从而帮助设计新的蛋白质复合物和抗体。蛋白质功能注释和预测:深度学习可以进行蛋白质功能注释和预测,识别蛋白质的功能域、结构域和功能位点等。这有助于预测蛋白质的功能和相应的生物学作用。蛋白质优化和筛选:深度学习可以用于优化和筛选设计出的蛋白质。通过神经网络和生成对抗网络的应用,可以提高蛋白质的稳定性、可溶性和活性,以满足特定的设计要求。蛋白质-蛋白质相互作用预测:深度学习可用于预测蛋白质与蛋白质之间的相互作用,从而实现蛋白质和配体的高效率设计和筛选等。

近年来发过哪些顶刊以及方向:

Nature communications| 使用基于结构的残基偏好进行蛋白质设计

Nature biotechnology| 用于功能性蛋白质设计的机器学习

Scientific reports| Deep-WET:一种基于深度学习的方法,使用具有加权特征的词嵌入技术预测 DNA 结合蛋白

Cell Systems| 深度学习为蛋白设计开启了新时代

Nat. Comput. Sci| 基于深度学习的无rotamer蛋白质设计

Comput Struct Biotech| 深度学习用于蛋白质设计:从结构到序列与功能

本课程围绕蛋白设计基础与前沿工作展开讲述,从蛋白结构的预测与优化到蛋白的从头设计进行深度教学,本课程主要面向有编程基础的学员,对基础知识进行详细讲解,并且会结合前沿文献讲解相关技术的应用。帮助学员们, 通过本次培训学员将了解蛋白质设计的底层逻辑与基本规则,并掌握蛋白质设计中的常见蛋白质设计算法的实际操作,具备基本的蛋白质设计算法开发的基础能力及前沿视野。


深度学习蛋白质设计课表
0 1

第一天: 深度学习蛋白质设计的相关概念及基础

1. 基础概念

a. 什么是深度学习

b. 什么是蛋白质设计 c. python 简介

d. inux VS code 简介

2. 如何描述一个蛋白质的状态

a. 量子力学: 含时薛定谔方程

b. 量子化学: 定态薛定谔方程

c. 全原子分子动力学模拟:朗之万方程

d. 粗粒化模拟: 广义朗之万方程 e. 马尔科夫态模型: 主方程

3. 常用的分析 / 可视化蛋白质及相关分子的方法

a. 获得并观察一条蛋白序列的 MSA

b. pymol chimeraX 可视化蛋白质分子体系

c. 小分子结构的生成与优化: rdkit GAMESS

d. 分子动力学模拟轨迹可视化: VMD

e. 通用序列 / 结构分析软件包: biopython

f. 生物大分子编辑平台: Discovery Studio

g. 位点冲突分析: Frustratomete

h. 简易生物分子空腔与通道分析: CAIN

4. 深度学习蛋白质设计与传统蛋白质设计之间的差异

a. 深度学习的本质

b. 传统方法: 通过物理能量推测概率

c. 深度学习: 直接从数据中找到概率分布的规律

d. 深度学习与传统的物理方法还是存在紧密联系的

e. 深度学习蛋白质设计的强大之处

f. 功能蛋白设计的滑铁卢: 玻尔兹曼废墟

5. 结构模型 vs 语言模型

a. 结构模型: 基于图神经网络

b. 语言模型: 天涯若比

c. 结构模型的优势及劣势

d. 语言模型的优势及劣势

e. 走向融合


0 2

第二天: 蛋白质设计的先行者: 蛋白质结构预测

1. AlphaFold 之前人们如何做蛋白质结构预测

a. 基于物理能量函数: rosetta

b. 传统分子对接

c. 分子动力学模拟

d. 同源序列分析

2. AlphaFold 系列历史

a. AlphaFold 开创一个时代

b. AlphaFold 2 终结一个时代

c. AlphaFold 3 走向未来

3. AlphaFold 3 原理解析

a. 本质上不是从序列到结构, 而是从 MSA 到结构

b. 注意力机制

c. 扩散模型

d. AlphaFold 3 的成绩与不足

4. AlphaFold 实际操作与结果分析

a. AlphaFold 2 实操

b. AlphaFold 2 分析

c. AlphaFold 3 实操

d. AlphaFold 3 分析

e. 别忽视结构之外的信息

5. 其它深度学习蛋白质结构预测软件简介

a. trRosetta

b. OmegaFold

c. ESMFold


0 3

第三天:蛋白质大语言模型

1. 语言模型的发展历史

a. 传统 K-gram 模型

b. 标准 RNN 模型

c. 以 LSTM 为代表的的改进 RNN 模型

d. 基于注意力的 transformers 及后续

2. 蛋白质语言模型的代表:ESM

a. 模型框架

b. 什么是蛋白质语法

c. 各种各样的 ESM 模型

d. ESM 模型实际操作

3. 基于蛋白质语言模型的功能蛋白设计:Progen

a. 基于 GPT

b. 强大的功能

c. Progen 成功的秘诀

d. 不足之处

4. 基于 MSA 的蛋白质语言模型

a. 最经典的例子:MSAtransformer

b. 基于扩散模型的序列生成模型:EvoDiff

c. EvoDiff 的成功与不足

d. EvoDIff 实际操作

5. 蛋白质语言模型前沿:

a. 高成功率抗体人源化

b. 融合了结构信息的语言模型

c. InstructPLM 简介


0 4

第四天:深度学习蛋白质骨架设计

1. 为什么要走先设计骨架再设计序列的道路

2. 传统的蛋白质骨架设计

a. 简单粗暴的结构拼接

b. 理性地突变氨基酸以得到理想的结构

c. RosettaRemodel 简介

3. 基于优化能量的蛋白质骨架设计模型:SCUBA

a. SCUBA 的基本原理其实很简单

b. 核心难点以及克服方法

c. SCUBA 实际操作

d. 不足之处

4. 基于扩散模型的蛋白质骨架设计模型

a. 改写时代的 RFdiffusion

b. 结合了 GAN 的 SCUBA-D

c. 结合了 VQ 的 PVQD

5. 实际的骨架从头设计流程:以结合蛋白从头设计为例

a. 功能口袋的选取

b. 带限制条件的骨架生成

c. 迭代优化

d. 特殊手段


0 5

第五天:深度学习蛋白质序列设计

1. 传统的蛋白质序列设计

a. 基于力场

b. 基于同源序列

c. 走向数据驱动:ABACUS 与 ABACUS2

d. ABACUS2 实际操作

2. 改变一个时代的杰作:ProteinMPNN

a. 在 GNN 之前:基于 CNN 的序列设计

b. ProteinMPNN 框架解析

c. ProteinMPNN 的广泛应用

d. ProteinMPNN 实际操作

e. 潜在的问题

3. 其他的序列设计模型

a. ESM-IF 简介

b. ABACUS-R 简介

c. ABACUS-R 实际操作

4. 神奇的 CarbonDesign

a. 受 AlphaFold 的启发

b. CarbonDesign 框架解析

c. CarbonDesign 成功的原因

d. 然而,序列恢复率高并不等价于功能蛋白序列设计成功率高

5. 基于结构的序列设计之梦魇:本征无序区

a. 什么是本征无序区,为什么会存在本征无序区

b. 本征无序区对蛋白质的功能是至关重要的

c. 本征无序区序列设计欠佳的核心原因

d. 当前的解决方案


0 6

第六天:深度学习蛋白质设计前沿

1. 基于配体分子的功能蛋白设计

a. 骨架设计:RFdiffusionAllAtoms

b. 序列设计:LigandMPNN

2. 结构-序列协同设计

a. 为什么理论上协同设计要优于传统设计

b. 协同设计的难点

c. 当前协同设计所取得的进展

3. 动态蛋白质结构预测与设计

4. KAN 在深度学习蛋白质设计中的潜在应用

a. 机器学习的可解释性

b. 物理信息机器学习

c. Kolmogorov-Arnold 表示定理

d. KAN vs MLP

e. KAN 潜在的优势

5. 如何避免玻尔兹曼废墟是核心问题

6. 展望未来

a. 基于化学反应机理的酶从头设计

b. 找到功能蛋白的蛋白质空间分布的 extropy



CADD计算机辅助药物设计 :依据生物化学、酶学、分子生物学以及遗传学等生命科学的研究成果,以计算机化学为基础,通过计算机的模拟、计算和预算药物与受体生物大分子之间的相互作用,考察药物与靶点的结构互补、性质互补等,设计出合理的药物分子。它是设计和优化先导化合物的方法,特别是在食品、生物、化学、医药、植物、疾病方面应泛!靶点的发现与确证是现代新药研发的第一步,也是新药创制过程中的瓶颈之一。

学习目标 :计算机辅助药物设计主要包含:PDB数据库、靶点蛋白、蛋白质-配体、蛋白-配体小分子、蛋白-配体结构、分子对接、蛋白-配体对接、虚拟筛选、蛋白-蛋白对接、蛋白-多糖分子对接、蛋白-水合对接、分子动力学等

分子对接 :分子对接是通过受体的特征以及受体和药物分子之间的相互作用方式来进行药物设计的方法。主要研究分子间(如配体和受体)相互作用,并预测其结合模式和亲合力的一种理论模拟方法.近年来,分子对接方法已成为计算机辅助药物研究领域的一项最火最重要的技术。

虚拟筛选 :虚拟筛选(virtual screening,VS)也称计算机筛选,即在进行生物活性筛选之前,利用计算机上的分子对接软件模拟目标靶点与候选药物之间的相互作用,计算两者之间的亲和力大小,以降低实际筛选化合物数目,同时提高先导化合物发现效率。

分子动力学 :分子动力学是一门结合物理,数学和化学的综合技术。分子动力学是一套分子模拟方法,该方法主要是依靠牛顿力学来模拟分子体系的运动,以在由分子体系的不同状态构成的系统中抽取样本,从而计算体系的构型积分,并以构型积分的结果为基础进一步计算体 系的热力学量和其他宏观性质。

近年来发过哪些顶刊以及方向

计算机辅助药物设计|J. Med. Chem.|基于晶体结构的MPS1抑制剂的设计和优化

JCIM|DockIT:虚拟现实交互的柔性分子对接

Nature Methods | 蛋白质序列的深度嵌入和比对

Trends Biochem Sci|配体结合动力学计算方法研究进展

Curr Opin Struc Biol | 多目标药物设计中的人工智能

MDPI Processes | 分子动力学模拟在食品及其工艺中的应用

Food Chemistry | 分子对接和分子动力学模拟


目前计算机辅助药物设计受众人体众多,列如CADD、药物设计、药学、药物研发、药物筛选、新药研发、药物化学、生物制药、免疫、天然产物、兽药研发,生物信息、中药药理、中药化学、网络药理、结构药理、食品安全、食品风味、食药研发、食品研发、抗肿瘤药物、肿瘤免疫、酶工程、遗传、抗体药物、农业工程、化学、有机合成、有机化学、结构生物、合成生物等众多科研人员



CADD计算机辅助药物设计课表
01

第一天上午:背景与理论知识以及工具准备

1.PDB数据库的介绍和使用

1.1数据库简介

1.2靶点蛋白的结构查询与选取

1.3靶点蛋白的结构序列下载

1.4靶点蛋白的下载与预处理

1.5批量下载蛋白晶体结构

2.Pymol的介绍与使用

2.1软件基本操作及基本知识介绍

2.2蛋白质-配体相互作用图解

2.3蛋白-配体小分子表面图、静电势表示

2.4蛋白-配体结构叠加与比对

2.5绘制相互作用力

3.notepad的介绍和使用

3.1优势及主要功能介绍

3.2界面和基本操作介绍

3.3插件安装使用

下午:一般的蛋白-配体分子对接讲解

1.对接的相关理论介绍

1.1分子对接的概念及基本原理

1.2分子对接的基本方法

1.3分子对接的常用软件

1.4分子对接的一般流程

2.常规的蛋白-配体对接

2.1收集受体与配体分子

2.2复合体预构象的处理

2.3准备受体、配体分子

2.4蛋白-配体对接

2.5对接结果的分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例


02

第二天:虚拟筛选

1.小分子数据库的介绍与下载

2.相关程序的介绍

2.1 openbabel的介绍和使用

2.2 chemdraw的介绍与使用

3.虚拟筛选的前处理

4.虚拟筛选的流程及实战演示

案例:筛选新冠病毒主蛋白酶抑制剂

5.结果分析与作图

6.药物ADME预测

6.1ADME概念介绍

6.2预测相关网站及软件介绍

6.3预测结果的分析


03

第三天:拓展对接的使用方法

1.蛋白-蛋白对接

1.1蛋白-蛋白对接的应用场景

1.2相关程序的介绍

1.3目标蛋白的收集以及预处理

1.4使用算例进行运算

1.5关键残基的预设

1.6结果的获取与文件类型

1.7结果的分析

以目前火热的靶点

PD-1/PD-L1等为例。

2.涉及金属酶蛋白的对接

2.1金属酶蛋白-配体的背景介绍

2.2蛋白与配体分子的收集与预处理

2.3金属离子的处理

2.4金属辅酶蛋白-配体的对接

2.5结果分析

以人类法尼基转移酶及其抑制剂为例

3.蛋白-多糖分子对接

4.1蛋白-多糖相互作用

4.2对接处理的要点

4.3蛋白-多糖分子对接的流程

4.4蛋白-多糖分子对接

4.5相关结果分析

以α-糖苷转移酶和多糖分子对接为例

5.核酸-小分子对接

5.1核酸-小分子的应用现状

5.2相关的程序介绍

5.3核酸-小分子的结合种类

5.4核酸-小分子对接

5.5相关结果的分析

以人端粒

g -四链和配体分子对接为例。

操作流程介绍及实战演示


04

第四天:拓展对接的使用方法

1.柔性对接

1.1柔性对接的使用场景介绍

1.2柔性对接的优势

1.3蛋白-配体的柔性对接

重点:柔性残基的设置方法

1.4相关结果的分析

以周期蛋白依赖性激酶

2(CDK2)与配体1CK为例

2.共价对接

2.1两种共价对接方法的介绍

2.1.1柔性侧链法

2.1.2两点吸引子法

2.2蛋白和配体的收集以及预处理

2.3共价药物分子与靶蛋白的共价对接

2.4结果的对比

以目前火热的新冠共价药物为例。

3.蛋白-水合对接

3.1水合作用在蛋白-配体相互作用中的意义及方法介绍

3.2蛋白和配体的收集以及预处理

3.3对接相关参数的准备

重点:水分子的加入和处理

3.4蛋白-水分子-配体对接

3.5结果分析

以乙酰胆碱结合蛋白

(AChBP)与尼古丁复合物为例


05

第五天:分子动力学模拟(linux与gromacs使用安装)

1. linux系统的介绍和简单使用

1.1 linux常用命令行

1.2 linux上的常用程序安装

1.3体验:如何在linux上进行虚拟筛选

2.分子动力学的理论介绍

2.1分子动力学模拟的原理

2.2分子动力学模拟的方法及相关程序

2.3相关力场的介绍

3.gromacs使用及介绍

重点:主要命令及参数的介绍

4.origin介绍及使用


06

第六天:溶剂化分子动力学模拟的执行

1.一般的溶剂化蛋白的处理流程

2.蛋白晶体的准备

3.结构的能量最小化

4.对体系的预平衡

5.无限制的分子动力学模拟

6.分子动力学结果展示与解读

以水中的溶菌酶为例


0 7

第七天:蛋白-配体分子动力学模拟的执行

1.蛋白-配体在分子动力学模拟的处理流程

2.蛋白晶体的准备

3.蛋白-配体模拟初始构象的准备

4.配体分子力场拓扑文件的准备

4.1高斯的简要介绍

4.2 ambertool的简要介绍

4.3生成小分子的力场参数文件

5.对复合物体系温度和压力分别限制的预平衡

6.无限制的分子动力学模拟

7.分子动力学结果展示与解读

8.轨迹后处理及分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例

案例实操图片:


讲师介绍


主讲老师来自中国TOP高校,在国内顶尖教授组中从事人工智能蛋白质设计研究,目前的主要研究方向是酶与结合蛋白的设计和人工智能在进化尺度上的蛋白质设计。有着丰富的实战经验。已在Applied Physics Letters,eLife,Nucleic Acids Research,ACS Omega,Journal of Molecular Biology等国际知名期刊上发表数篇工作




计算机辅助药物设计主讲老师来自国内高校北京协和医院药物研究所,老师主要擅长深度学习、机器学习、药物虚拟筛选、计算机辅助药物设计、人工智能药物发现、分子对接、分子动力学等方面的研究,有十余年的研究经验。



授课时间


深度学习蛋白质设计

2024.08.17-2024.08.18( 09:00-11:30--13:30-17:00

2024.08.24-2024.08.25( 09:00-11:30--13:30-17:00

2024.08.28-2024.08.29( 09:00-11:30--13:30-17:00

CADD计算机辅助药物设计

2024.08.10(09:00-11:30--13:30-17:00)







请到「今天看啥」查看全文