专栏名称: iNature
专注前沿科学动态,传递科普信息。
目录
相关文章推荐
余杭发布  ·  元宵赏灯会下雨吗?晴雨接力赛开启! ·  昨天  
杭州本地宝  ·  激动!杭州新一波演唱会官宣定档! ·  昨天  
杭州本地宝  ·  2月杭州市小客车增量指标配置数量公布! ·  2 天前  
余杭发布  ·  又有补贴!最高达30% ·  3 天前  
51好读  ›  专栏  ›  iNature

太厉害了,天才少年一个月连续发表1篇Nature+3篇Science!

iNature  · 公众号  ·  · 2024-07-08 09:32

正文

2024

科研前沿热点

2024最热科研汇总


一、深度学习蛋白质设计

二、CADD计算机辅助药物设计

三、深度学习基因组学

四、机器学习单细胞转录组与表观组

五、机器学习代谢组学

六、AIDD人工智能药物发现与设计

专题一

深度学习蛋白质设计

2024 年 5 月 8 日,谷歌 DeepMind 与 Isomorphic Labs 联合在《自然》期刊上发布蛋白质领域最新人工智能模型 AlphaFold 3!这一模型能够准确预测蛋白质、DNA、RNA 以及配体等生命分子的结构及其相互作用方式。这是继 AlphaFold 2 之后的又一重大突破

在预测类药物相互作用方面,AlphaFold 3 实现了前所未有的准确度,包括蛋白质与配体的结合以及抗体与其靶蛋白的结合。在 PoseBusters 的基准测试中, AlphaFold 3 的准确率比现有最佳传统方法高出 50%,而且无需任何结构信息输入,成为首个超越传统物理预测工具的人工智能系统。 这种预测抗体与蛋白质结合的能力,对于理解人类免疫反应的各个方面以及新抗体 的设计至关重 要。

深度学习在蛋白质设计领域的 前沿研究 主要集中在蛋白质结构预测、蛋白质序列设计、蛋白质-蛋白质相互作用预测、蛋白质功能注释和蛋白质优化与筛选等方面。这些研究方向为开发新的功能性蛋白质和药物靶点提供了新思路,并在生物医学、药物研发和生物材料等领深度学习在蛋白质设计领域的应用被认为是当前的前沿研究方向之一,蛋白质结构预测与设计领域的未来将充满创新和跨学科的发展,为解决生物医学、生物工程和生物能源等方面的重大问题提供更多可能性。

蛋白质折叠和结构预测

深度学习模型可以预测蛋白质的三维结构,这对理解蛋白质的功能和开展蛋白质设计至关重要。 通过深度神经网络模型和注意力机制的应用,可以更准确地预测蛋白质的折叠和结构。

蛋白质序列设计

深度学习可以用于预测蛋白质序列的功能和稳定性。 通过神经网络模型和自然语言处理技术的结合,可以设计出具有特定功能和稳定性的蛋白质序列,例如酶活性、药物靶点等。

蛋白质-蛋白质相互作用预测

深度学习模型可以预测蛋白质和蛋白质之间的相互作用,从而帮助设计新的蛋白质复合物和抗体。

蛋白质功能注释和预测

深度学习可以进行蛋白质功能注释和预测,识别蛋白质的功能域、结构域和功能位点等。 这有助于预测蛋白质的功能和相应的生物学作用。

蛋白质优化和筛选

深度学习可以用于优化和筛选设计出的蛋白质。 通过神经网络和生成对抗网络的应用,可以提高蛋白质的稳定性、可溶性和活性,以满足特定的设计要求。

蛋白质-蛋白质相互作用预测

深度学习可用于预测蛋白质与蛋白质之间的相互作用,从而实现蛋白质和配体的高效率设计和筛选等。


近年来发过哪些顶刊以及方向:

Nature communications| 使用基于结构的残基偏好进行蛋白质设计

Nature biotechnology| 用于功能性蛋白质设计的机器学习

Scientific reports| Deep-WET:一种基于深度学习的方法,使用具有加权特征的词嵌入技术预测 DNA 结合蛋白

Cell Systems| 深度学习为蛋白设计开启了新时代

讲师介绍

主讲老师来自中国TOP高校,在国内顶尖教授组中从事人工智能蛋白质设计研究,目前的主要研究方向是酶与结合蛋白的设计和人工智能在进化尺度上的蛋白质设计。有着丰富的实战经验。已在Applied Physics Letters,eLife,Nucleic Acids Research,ACS Omega,Journal of Molecular Biology等国际知名期刊上发表数篇工作

课表内容

NO.1

深度学习蛋白质设计( 内容可向下滑动


内容可向下滑动


第一天: 深度学习蛋白质设计的相关概念及基础

1. 基础概念

a. 什么是深度学习

b. 什么是蛋白质设计 c. python 简介

d. inux VS code 简介

2. 如何描述一个蛋白质的状态

a. 量子力学: 含时薛定谔方程

b. 量子化学: 定态薛定谔方程

c. 全原子分子动力学模拟:朗之万方程

d. 粗粒化模拟: 广义朗之万方程 e. 马尔科夫态模型: 主方程

3. 常用的分析 / 可视化蛋白质及相关分子的方法

a. 获得并观察一条蛋白序列的 MSA

b. pymol chimeraX 可视化蛋白质分子体系

c. 小分子结构的生成与优化: rdkit GAMESS

d. 分子动力学模拟轨迹可视化: VMD

e. 通用序列 / 结构分析软件包: biopython

f. 生物大分子编辑平台: Discovery Studio

g. 位点冲突分析: Frustratomete

h. 简易生物分子空腔与通道分析: CAIN

4. 深度学习蛋白质设计与传统蛋白质设计之间的差异

a. 深度学习的本质

b. 传统方法: 通过物理能量推测概率

c. 深度学习: 直接从数据中找到概率分布的规律

d. 深度学习与传统的物理方法还是存在紧密联系的

e. 深度学习蛋白质设计的强大之处

f. 功能蛋白设计的滑铁卢: 玻尔兹曼废墟

5. 结构模型 vs 语言模型

a. 结构模型: 基于图神经网络

b. 语言模型: 天涯若比

c. 结构模型的优势及劣势

d. 语言模型的优势及劣势

e. 走向融合

第二天: 蛋白质设计的先行者: 蛋白质结构预测

1. AlphaFold 之前人们如何做蛋白质结构预测

a. 基于物理能量函数: rosetta

b. 传统分子对接

c. 分子动力学模拟

d. 同源序列分析

2. AlphaFold 系列历史

a. AlphaFold 开创一个时代

b. AlphaFold 2 终结一个时代

c. AlphaFold 3 走向未来

3. AlphaFold 3 原理解析

a. 本质上不是从序列到结构, 而是从 MSA 到结构

b. 注意力机制

c. 扩散模型

d. AlphaFold 3 的成绩与不足

4. AlphaFold 实际操作与结果分析

a. AlphaFold 2 实操

b. AlphaFold 2 分析

c. AlphaFold 3 实操

d. AlphaFold 3 分析

e. 别忽视结构之外的信息

5. 其它深度学习蛋白质结构预测软件简介

a. trRosetta

b. OmegaFold

c. ESMFold

第三天: 蛋白质大语言模型

1. 语言模型的发展历史

a. 传统 K- gram 模型

b. 标准 RNN 模型

c. LSTM 为代表的的改进 RNN 模型

d. 基于注意力的 transformers 及后续

2. 蛋白质语言模型的代表: ESM

a. 模型框架

b. 什么是蛋白质语法

c. 各种各样的 ESM 模型

d. ESM 模型实际操作

3. 基于蛋白质语言模型的功能蛋白设计: Progen

a. 基于 GPT

b. 强大的功能

c. Progen 成功的秘诀

d. 不足之处

4. 基于 MSA 的蛋白质语言模型

a. 最经典的例子: MSAtransformer

b. 基于扩散模型的序列生成模型: EvoDiff

c. EvoDiff 的成功与不足

d. EvoDIff 实际操作

5. 蛋白质语言模型前沿:

a. 高成功率抗体人源化

b. 融合了结构信息的语言模型

c. InstructPLM 简介

第四天: 深度学习蛋白质骨架设计

1. 为什么要走先设计骨架再设计序列的道路

2. 传统的蛋白质骨架设计

a. 简单粗暴的结构拼接

b. 理性地突变氨基酸以得到理想 的结构

c. RosettaRemodel 简介

3. 基于优化能量的蛋白质骨架设计模型: SCUBA

a. SCUBA 的基本原理其实很简单

b. 核心难点以及克服方法

c. SCUBA 实际操作

d. 不足之处

4. 基于扩散模型的蛋白质骨架设计模型

a. 改写时代的 RFdiffusion

b. 结合了 GAN SCUBA -D

c. 结合了 VQ PVQD

5. 实际的骨架从头设计流程:以结合蛋白从头设计为例

a. 功能口袋的选取

b. 带限制条件的骨架生成

c. 迭代优化

d. 特殊手段

第五天: 深度学习蛋白质序列设计

1. 传统的蛋白质序列设计

a. 基于力场

b. 基于同源序列

c. 走向数据驱动: ABACUS ABACUS 2

d. ABACUS 2 实际操作

2. 改变一个时代的杰作: ProteinMPNN

a. GNN 之前: 基于 CNN 的序列设计

b. ProteinMPNN 框架解析

c. ProteinMPNN 的广泛应

d. ProteinMPNN 实际操作

e. 潜在的问题

3. 其他的序列设计模型

a. ESM - IF 简介

b. ABACUS -R 简介

c. ABACUS -R 实际操作

4. 神奇的 CarbonDesign

a. AlphaFold 的启发

b. CarbonDesign 框架解析

c. CarbonDesign 成功的原因

d. 然而序列恢复率高并不等价于功能蛋白序 列设计成功率高

5. 基于结构的序列设计之梦魇: 本征无序区

a. 什么是本征无序区, 为什么会存在本征无序区

b. 本征无序区对蛋白质的功能是至关重要的

c. 本征无序区序列设计欠佳的核心原因

d. 当前的解决方案

第六天: 深度学习蛋白质设计前沿

1. 基于配体分子的功能蛋白设计

a. 骨架设计: RFdiffusionAllAtoms

b. 序列设计: LigandMPNN

2. 结构 - 序列协同设计

a. 为什么理论上协同设计要优于传统设计

b. 协同设计的难点

c. 当前协同设计所取得的进展

3. 动态蛋白质结构预测与设计

4. KAN 在深度学习蛋白质设计中的潜 在应用

a. 机器学习的可解释性

b. 物理信息机器学习

c. Kolmogorov - Arnold 表示定理

d. KAN vs MLP

e. KAN 潜在的优势

5. 如何避免玻尔兹曼废墟是核心问题

6. 展望未来

a. 基于化学反应机理的酶从头设计

b. 找到功能蛋白的蛋白质空间分布的 extropy





专题二

CADD计算机辅助药物设计

CADD计算机辅助药物设计 :依据生物化学、酶学、分子生物学以及遗传学等生命科学的研究成果,以计算机化学为基础,通过计算机的模拟、计算和预算药物与受体生物大分子之间的相互作用,考察药物与靶点的结构互补、性质互补等,设计出合理的药物分子。它是设计和优化先导化合物的方法,特别是在食品、生物、化学、医药、植物、疾病方面应泛!靶点的发现与确证是现代新药研发的第一步,也是新药创制过程中的瓶颈之一。

学习目标 :计算机辅助药物设计主要包含:PDB数据库、靶点蛋白、蛋白质-配体、蛋白-配体小分子、蛋白-配体结构、分子对接、蛋白-配体对接、虚拟筛选、蛋白-蛋白对接、蛋白-多糖分子对接、蛋白-水合对接、分子动力学等

分子对接 :分子对接是通过受体的特征以及受体和药物分子之间的相互作用方式来进行药物设计的方法。主要研究分子间(如配体和受体)相互作用,并预测其结合模式和亲合力的一种理论模拟方法.近年来,分子对接方法已成为计算机辅助药物研究领域的一项最火最重要的技术。

虚拟筛选 :虚拟筛选(virtual screening,VS)也称计算机筛选,即在进行生物活性筛选之前,利用计算机上的分子对接软件模拟目标靶点与候选药物之间的相互作用,计算两者之间的亲和力大小,以降低实际筛选化合物数目,同时提高先导化合物发现效率。

分子动力学 :分子动力学是一门结合物理,数学和化学的综合技术。分子动力学是一套分子模拟方法,该方法主要是依靠牛顿力学来模拟分子体系的运动,以在由分子体系的不同状态构成的系统中抽取样本,从而计算体系的构型积分,并以构型积分的结果为基础进一步计算体 系的热力学量和其他宏观性质。

近年来发过哪些顶刊以及方向

计算机辅助药物设计|J. Med. Chem.|基于晶体结构的MPS1抑制剂的设计和优化

JCIM|DockIT:虚拟现实交互的柔性分子对接

Nature Methods | 蛋白质序列的深度嵌入和比对

Trends Biochem Sci|配体结合动力学计算方法研究进展

Curr Opin Struc Biol | 多目标药物设计中的人工智能

MDPI Processes | 分子动力学模拟在食品及其工艺中的应用

Food Chemistry | 分子对接和分子动力学模拟


目前计算机辅助药物设计受众人体众多,列如CADD、药物设计、药学、药物研发、药物筛选、新药研发、药物化学、生物制药、免疫、天然产物、兽药研发,生物信息、中药药理、中药化学、网络药理、结构药理、食品安全、食品风味、食药研发、食品研发、抗肿瘤药物、肿瘤免疫、酶工程、遗传、抗体药物、农业工程、化学、有机合成、有机化学、结构生物、合成生物等众多科研人员


讲师介绍

计算机辅助药物设计主讲老师来自国内高校北京协和医院药物研究所,老师主要擅长深度学习、机器学习、药物虚拟筛选、计算机辅助药物设计、人工智能药物发现、分子对接、分子动 力学等方面的研究,有十余年的研究经验。

课表内容

NO.2

CADD计算机辅助药物设计( 内容可向下滑动


内容可向下滑动


第一天上午: 景与理论知识以及工具准备

1.PDB数据库的介绍和使用

1.1数据库简介

1.2靶点蛋白的结构查询与选取

1.3靶点蛋白的结构序列下载

1.4靶点蛋白的下载与预处理

1.5批量下载蛋白晶体结构

2.Pymol的介绍与使用

2.1软件基本操作及基本知识介绍

2.2蛋白质-配体相互作用图解

2.3蛋白-配体小分子表面图、静电势表示

2.4蛋白-配体结构叠加与比对

2.5绘制相互作用力

3.notepad的介绍和使用

3.1优势及主要功能介绍

3.2界面和基本操作介绍

3.3插件安装使用

下午: 一般的蛋白-配体分子对接讲解

1.对接的相关理论介绍

1.1分子对接的概念及基本原理

1.2分子对接的基本方法

1.3分子对接的常用软件

1.4分子对接的一般流程

2.常规的蛋白-配体对接

2.1收集受体与配体分子

2.2复合体预构象的处理

2.3准备受体、配体分子

2.4蛋白-配体对接

2.5对接结果的分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例

第二天: 虚拟筛选

1.小分子数据库的介绍与下载

2.相关程序的介绍

2.1 openbabel的介绍和使用

2.2 chemdraw的介绍与使用

3.虚拟筛选的前处理

4.虚拟筛选的流程及实战演示

案例:筛选新冠病毒主蛋白酶抑制剂

5.结果分析与作图

6.药物ADME预测

6.1ADME概念介绍

6.2预测相关网站及软件介绍

6.3预测结果的分析

三天: 拓展对接的使用方法

1.蛋白-蛋白对接

1.1蛋白-蛋白对接的应用场景

1.2相关程序的介绍

1.3目标蛋白的收集以及预处理

1.4使用算例进行运算

1.5关键残基的预设

1.6结果的获取与文件类型

1.7结果的分析

以目前火热的靶点

PD-1/PD-L1等为例。

2.涉及金属酶蛋白的对接

2.1金属酶蛋白-配体的背景介绍

2.2蛋白与配体分子的收集与预处理

2.3金属离子的处理

2.4金属辅酶蛋白-配体的对接

2.5结果分析

以人类法尼基转移酶及其抑制剂为例

3.蛋白-多糖分子对接

4.1蛋白-多糖相互作用

4.2对接处理的要点

4.3蛋白-多糖分子对接的流程

4.4蛋白-多糖分子对接

4.5相关结果分析

α- 糖苷转移酶和多糖分子对接为例

5.核酸-小分子对接

5.1核酸-小分子的应用现状

5.2相关的程序介绍

5.3核酸-小分子的结合种类

5.4核酸-小分子对接

5.5相关结果的分析

以人端粒

g -四链和配体分子对接为例。

操作流程介绍及实战演示

第四天: 拓展对接的使用方法

1.柔性对接

1.1柔性对接的使用场景介绍

1.2柔性对接的优势

1.3蛋白-配体的柔性对接

重点:柔性残基的设置方法

1.4相关结果的分析

以周期蛋白依赖性激酶

2(CDK2)与配体1CK为例

2.共价对接

2.1两种共价对接方法的介绍

2.1.1柔性侧链法

2.1.2两点吸引子法

2.2蛋白和配体的收集以及预处理

2.3共价药物分子与靶蛋白的共价对接

2.4结果的对比

以目前火热的新冠共价药物为例。

3.蛋白-水合对接

3.1水合作用在蛋白-配体相互作用中的意义及方法介绍

3.2蛋白和配体的收集以及预处理

3.3对接相关参数的准备

重点:水分子的加入和处理

3.4蛋白-水分子-配体对接

3.5结果分析

以乙酰胆碱结合蛋白

(AChBP)与尼古丁复合物为例

第五天: 分子动力学模拟(linux与gromacs使用安装)

1. linux系统的介绍和简单使用

1.1 linux常用命令行

1.2 linux上的常用程序安装

1.3体验:如何在linux上进行虚拟筛选

2.分子动力学的理论介绍

2.1分子动力学模拟的原理

2.2分子动力学模拟的方法及相关程序

2.3相关力场的介绍

3.gromacs使用及介绍

重点:主要命令及参数的介绍

4.origin介绍及使用

第六天: 溶剂化分子动力学模拟的执行

1.一般的溶剂化蛋白的处理流程

2.蛋白晶体的准备

3.结构的能量最小化

4.对体系的预平衡

5.无限制的分子动力学模拟

6.分子动力学结果展示与解读

以水中的溶菌酶为例

第七天: 蛋白-配体分子动力学模拟的执行

1.蛋白-配体在分子动力学模拟的处理流程

2.蛋白晶体的准备

3.蛋白-配体模拟初始构象的准备

4.配体分子力场拓扑文件的准备

4.1高斯的简要介绍

4.2 ambertool的简要介绍

4.3生成小分子的力场参数文件

5.对复合物体系温度和压力分别限制的预平衡

6.无限制的分子动力学模拟

7.分子动力学结果展示与解读

8.轨迹后处理及分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例

案例实操图片:


专题三

深度学习基因组学

深度学习基因组 是一门涉及多个领域的交叉学科,其主要目标是利用深度学习技术来分析基因组数据,为生物医学研究提供有价值的信息和洞察。所涉及的领域主要有基因表达预测、基因变异检测、疾病预测与诊断、药物发现与设计、进化与系统发生学研究、基因组序列组装与注释、精准医疗与个性化治疗等方面。


基因序列分析 基因序列分析是基因组学的基础,它涉及到将DNA序列转化为有意义的信息。深度学习在这个过程中扮演了重要角色,可以帮助研究人员对序列进行比对、基因识别以及序列分析等。深度学习模型可以自动学习和识别基因序列中的模式,从而更准确、高效地分析基因序列数据。

基因表达预测 基因表达预测是预测基因在特定条件下的表达水平。深度学习可以通过分析基因表达谱数据,预测基因的表达量、转录因子等。此外,深度学习还可以预测细胞状态、疾病状态等,为进一步研究基因功能和疾病机制提供有力支持。

精准医疗 精准医疗是一种根据个体的基因组、表型和环境因素等信息,为其提供个性化医疗 方案的医疗模式。深度学习可以帮助研究人员分析海量的基因组和临床数据,以发现疾病与基因组之间的关联,从而为精准医疗提供更精确的依据。此外,深度学习 还可以帮助医生根据患者的基因组信息为其制定更合适的诊疗方案。

药物发现 药物发现是一个漫长而复杂的过程,涉及到靶点发现、化合物筛选等多个步骤。深度学习可以通过分析大量的生物数据,帮助研究人员寻找潜在的药物靶点,并预测化合物的活性。此外,深度学习还可以优化药物设计和制造过程,以降低成本和提高效率。


近年来发过哪些顶刊以及方向

Nature Reviews Genetics|深度学习-基因组学计算建模新技术

Mamoon Rashid|深度学习基因组学在测序数据中的应用

Science Advances|利用深度学习发现癌症中的新基因突变

Cancer Cell | 基于多模态深度学习的泛癌组织学-基因组学整合分析

Nature Reviews Cancer|癌症蛋白基因组学:当前影响和未来展望


目前深度学习基因组学受众人体众多,列如基因组学,生物信息学,生命科学,小麦遗传育种,临床药理学,中药药理学,口腔修复,肿瘤免疫,整形外科,脊椎畸形,中药新药开发,分子流行病,心血管疾病,皮肤病等众多科研人员


讲师介绍

李老师 来自北京大学生命科学交叉学科专业,擅长深度学习和基因组交叉学科研究。第一作者在线发表Nature等期刊20余篇,担任BMC bioinformatics, plos one等多个杂志的审稿人

课表内容

NO.3

深度学习基因组学( 内容可向下滑动


内容可向下滑动


第一章 深度学习基因组学: 从深度学习到基因组学(基础知识部分)

理论讲解部分:

1. 有监督学习的神经网络算法

1.1 全连接深度神经网络DNN在基因组学中的应用:讲解DNN的一些种类和用处,比如DNN可以用于预测基因表达量、识别基因变异与疾病之间的关系等。

1.2 卷积神经网络CNN在基因组学中的应用:讲解CNN如何被广泛应用于基因序列分析,如怎么去识别DNA序列中的调控元件和基因剪接位点。

1.3 循环神经网络RNN在基因组学中的应用:讲解RNN怎么适用于处理序列数据,用于基因组序列的注释、预测基因结构等。

1.4 神经网络可解释性:介绍神经网络模型的内部工作机制和如何解释其预测结果,

2. 无监督的神经网络算法介绍和应用

2.1 自动编码器在基因组学中的应用:讲解自动编码器可用于基因数据的降维、去噪和特征提取,有助于揭示基因间潜在的关系。

2.2 高维数据的降维和聚类:介绍如何使用无监督学习方法处理和分析高维基因组数据,包括降维技术和聚类算法。

3. 常用的Linux命令

3.1 Vim编辑器:介绍如何使用Vim编辑器进行文本编辑,包括基础命令和高级特性。

3.2 基因组数据文件管理, 修改文件权限:讲解如何在Linux环境下管理基因组数据文件,包括文件的查看、复制、移动和权限修改。

3.3 查看探索基因组区域:介绍如何使用命令行工具查看和探索特定的基因组区域。

4. Python语言基础

4.1 Python包安装和环境搭建:介绍如何安装Python和管理Python环境,包括使用pip和conda等工具。

4.2 常见的数据结构和数据类型:讲解Python中常用的数据结构(如列表、字典、集合)和数据类型(如字符串、整型、浮点型)。

5. 测序技术的特点和介绍

5.1 一代测序技术的介绍:介绍一代测序技术的原理、特点和应用。

5.2 二代测序技术的介绍:介绍二代测序技术如何实现高通量测序,及其在基因组学研究中的应用。

5.3 单细胞测序数据的介绍:讲解单细胞测序技术的原理和它在基因组学研究中的重要性。

实践操作部分:

6. 实操:安装biopython,并使用biopython对序列进行一些基础操作

6.1 安装biopython:介绍如何在不同操作系统中安装biopython库。

6.2 使用biopython进行序列分析:通过实例演示如何使用biopython进行基因序列的读取、写入、分析和操作。

第二章: 从深度学习到基因组学(进阶部分

理论讲解部分:

1. 深度神经网络的实现

1.1 卷积神经网络的实现:介绍卷积神经网络(CNN)的基本结构和工作原理,以及如何在常见的深度学习框架中实现它。

1.2 多层感知机的实现:讲解多层感知机(MLP)的结构,包括输入层、隐藏层和输出层的设置,以及激活函数的选择。

1.3 自编码器的实现:介绍自编码器的结构和应用,包括编码器和解码器的设计,以及自编码器在数据压缩和特征学习中的应用。

2. 传统机器学习的实现

2.1 随机森林的实现:介绍随机森林算法的基本原理,包括如何构建决策树和如何通过集成多个决策树提升模型性能。

2.2 支持向量机的实现:解释支持向量机(SVM)的工作原理,包括核技巧的应用和模型参数的选择。

2.3 k-近邻的实现:讲解k-近邻(k-NN)算法的基本概念,包括距离度量、邻居选择和分类决策规则。

2.4 传统机器学习的理论介绍:提供对传统机器学习算法的整体概览,包括监督学习和无监督学习的区别、模型评估方法等。

3. 常用基因组学软件的实操

3.1 序列比对软件BLAST的安装:指导如何在不同操作系统中安装BLAST软件。

3.2 序列比对软件BLAST的实操:通过示例数据演示如何使用BLAST进行序列比对。

3.3 序列比对软件BLAST的结果解析:讲解如何解读BLAST比对结果,包括比对得分和序列相似性的评估。

4. 常用基因组数据库下载和使用

4.1 NCBI各个基因组数据的下载和访问:介绍如何从NCBI数据库下载基因组数据。

4.2 使用编程的方式访问基因组数据库:演示如何使用Python等编程语言访问和查询基因组数据库。

4.3 使用编程的方式下载基因组数据:讲解如何自动化下载基因组数据,包括使用API和脚本。

5. 结合基因组数据进行序列分类(原创性高)

5.1 序列的编码:介绍如何将基因序列数据编码为数值形式,使其适用于机器学习模型。

5.2 序列的输入神经网络:讲解如何将编码后的序列数据作为输入提供给神经网络模型。

5.3 模型的训练和预测:指导如何训练神经网络模型并进行序列分类预测,包括模型调优和评估。

实践操作部分:

6. 实践操作:针对上述理论知识,设计相关的实验和操作练习,包括但不限于以下内容:

6.1 使用TensorFlow或PyTorch等深度学习框架实现简单的CNN和MLP模型。

6.2 在Python环境中使用scikit-learn库实现随机森林、SVM和k-NN算法。

6.3 完成BLAST软件的安装和使用,通过实际案例练习序列比对和结果解析。

6.4 使用Python编写脚本,实现从NCBI数据库自动下载和查询基因组数据的功能。

6.5 开发一个简单的基因序列分类项目,从序列编码到模型训练和预测的完整过程。

第三章: 从深度学习到基因组学(宏基因组部分)

理论讲解部分:

1. 组学的介绍

1.1 宏基因 、16S、宏病毒等测序手段的介绍:介绍不同测序技术在组学研究中的应用,包括宏基因组、16S rRNA基因测序和宏病毒组测序等技术的原理和特点。

1.2 宏基因组从头拼接:讲解宏基因组从头拼接的基本概念,包括从头拼接的过程、常用的拼接软件和拼接结果的评估方法。

1.3 宏基因组的质控和去宿主:介绍在宏基因组研究中如何进行数据质量控制,以及如何去除宿主基因的干扰,包括常用的质控工具和去宿主策略。

2. 组学分析软件详解

2.1 R和Rstudio软件的安装:介绍如何在不同操作系统上安装R语言和RStudio环境,以便进行统计分析和数据可视化。

2.2 Origin安装和绘图(箱线图等):讲解如何安装Origin软件,并使用其进行科研绘图,如箱线图、散点图等。

2.3 Python科研绘图注意事项:介绍在使用Python进行科研绘图时的注意事项,包括图形美化、数据表示和图形导出等。

3. 组学文章精选荟萃串讲:精选组学领域的代表性研究文章,对其研究内容、方法和结论进行详细解读,以帮助理解组学研究的最新进展和应用。

实践操作部分:

4. 实践操作

4.1 宏基因组数据分析实战:通过实际案例,练习从头拼接、质控和去宿主等宏基因组分析流程,包括使用相关软件和解析分析结果。

4.2 R语言和RStudio应用实践:完成R语言的基础语法学习,通过RStudio进行数据分析和绘图的实战训练,如如何利用ggplot2包绘制箱线图。

4.3 Origin绘图实战训练:通过实际数据,学习使用Origin软件进行科研绘图,包括图形的基本设置、美化和导出。

4.4 Python科研绘图实践:利用Python进行科研绘图的实践操作,包括使用matplotlib和seaborn库进行数据可视化,以及绘图过程中的优化技巧。

5. 文献阅读与讨论

5.1 讲解文献:文献阅读,选取组学领域的高影响力文章,进行深入讨论和分析。

5.2 文献阅读技巧分享:分享科研文献阅读和笔记整理的技巧,提高文献阅读的效率和深度。

5.3 研究方法和技术解析:对选定文章中的研究方法和技术进行详解,帮助理解其原理和应用场景。

第四章: 从深度学习到基因组学(数理统计部分)

理论讲解部分:

1. 高维数据降维和聚类

1.1 k-means,PCA等聚类和降维技术的介绍:介绍k-means聚类算法和主成分分析(PCA)降维技术的基本原理及应用场景。

1.3 高斯混合模型等相关统计知识的详解:详细解释高斯混合模型的原理和在数据聚类中的应用。

1.4 维度灾难:讨论高维数据所带来的挑战,包括维度灾难的概念及其对数据分析的影响。

1.5 t-SNE:介绍t-SNE(t-Distributed Stochastic Neighbor Embedding)技术的原理和在高维数据可视化中的应用。

2. 微生物群落相关性

2.1 网络分析概述之网络基础简介:介绍网络分析的基本概念,包括节点、边以及网络的基本性质。

2.2 网络拓扑结构-网络图的凝聚性特征:探讨网络图的结构特征,如凝聚性、中心性等,及其生物学意义。

2.3 CoNet的关联网络推断过程演示:介绍CoNet工具在推断微生物群落关联网络中的应用。

2.4 SparCc的微生物网络构建示例:详细说明SparCc如何被用于构建微生物关联网络。

2.5 SPIEC-EASI的微生物网络构建:解释SPIEC-EASI方法在微生物网络构建中的原理和步骤。

3. Motif相关荟萃介绍

3.1 手把手使用CNN实现序列中motif鉴定实现:介绍如何使用卷积神经网络(CNN)识别生物序列中的motif。

3.2 手把手使用CNN实现序列中m6A修饰鉴定实现:解释如何应用CNN在生物序列中识别m6A修饰的方法。

3.3 其他相关网络在序列中motif鉴定的实现:讨论除CNN外的其他深度学习模型在序列motif鉴定中的应用。

实践操作部分:

4. 高维数据降维和聚类的实操

4.1 实现k-means聚类和PCA降维:通过Python或R语言编写代码实现k-means聚类和PCA降维,并通过实际数据集练习这些技术。

4.2 使用t-SNE进行数据可视化:练习如何使用t-SNE技术对高维数据进行可视化表示。

5. 微生物群落相关性的网络分析实操

5.1 使用R包构建微生物关联网络:通过R语言的SpiecEasi包实践SparCc网络的构建。

5.2 网络分析软件的应用:练习使用CoNet、SPIEC-EASI等工具进行微生物群落关联网络的构建和分析。

6. Motif鉴定的实操练习

6.1 使用CNN识别生物序列中的motif:通过编程实践学习如何使用卷积神经网络模型识别序列中的motif。

6.2 实现序列中m6A修饰的鉴定:练习如何使用深度学习方法,特别是CNN,来识别和预测生物序列中的m6A修饰。

7. 该章节相关文献串讲

7.1 文献讨论会:选择与章节内容相关的重要文献,深入分析文献的方法、结果和结论。

7.2 文献阅读和总结:阅读并总结章节相关的科研文章,以加深对实际应用的理解。

第五章: 从深度学习到基因组学(前沿领域及手把手带你进行SCI论文选题写作投稿)

理论讲解部分:

1. 三维基因组学

1.1 三维基因组学研究进展:介绍三维基因组学的基本概念及其研究的历史和最新进展。

1.2 Hi-C和ChIA-PET等技术介绍:详细讲解Hi-C和ChIA-PET技术的原理、特点及其在三维基因组学中的应用。

1.3 三维基因组学及在疾病中的应用:探讨三维基因组学如何帮助理解疾病的发生发展机制。

2. 三代测序

2.1 三代测序技术的原理与特点:介绍三代测序技术的基本原理,包括其与前两代技术的不同之处及优势。

2.2 Basecalling在三代测序中的作用:讲解Basecalling的概念及其在三代测序数据处理中的重要性。

2.3 三代测序在基因组学中的应用:讲述三代测序技术如何被应用于基因组学的各个领域。

3. 论文写作与投稿

3.1 论文的选题:讨论如何根据当前科研趋势和个人研究兴趣选择合适的论文题目。

3.2 论文的写作技巧:介绍科学论文写作的基本原则和技巧,包括如何清晰地表达研究思想。

3.3 论文的规范格式:解释科研论文的标准结构和格式,以及如何正确引用文献。

3.4 如何选生物信息学投稿杂志:分享如何根据论文的研究领域和质量选择合适的杂志进行投稿。

3.5 Cover Letter的撰写:指导如何撰写Cover Letter以提高论文被接受的可能性。

3.6 学术规范和道德

实践操作部分:

4. 三代测序数据分析实操

4.1 三代测序数据的预处理:介绍如何对三代测序数据进行质量控制和数据清洗。

4.2 Basecalling技术应用:介绍在三代测序数据处理中如何进行Basecalling,及其使用的软件和工具。

4.3 基因组组装与注释:讲解使用三代测序数据进行基因组组装和注释的方法和工具。

5. 论文写作与投稿实操

5.1 论文写作工具和软件的使用:介绍科研论文写作中常用的软件工具,例如文献管理软件和写作软件。

5.2 实践论文写作:实践如何撰写科学论文,包括结构安排、语言表达及图表制作等。


案例实操图片:


专题四

机器学习单细胞与转录组

转录组学和表观组学 是现代生命科学领域中的两个重要研究领域,它们的发展和应用对于理解基因表达调控、细胞发育、疾病机制等具有重要意义。随着高通量测序技术的迅速发展,我们能够全面深入地研究基因组范围内的转录活动和表观修饰,从而揭示基因调控网络的复杂性和细胞状态的变化。转录组学涉及对细胞中所有转录 RNA的整体表达谱进行分析和解释,从而了解不同基因的表达水平以及转录的调控机制。转录组学研究的应用广泛,涵盖了从发育生物学、肿瘤学到药物研发等多个领域。表观组学则关注细胞内染色质的修饰状态,如DNA甲基化和组蛋白修饰等,这些修饰能够直接或间接地影响基因表达。通过表观组学的研究,我们能够

解这些修饰在细胞发育、环境适应和疾病发生中的功能和机制。

通过掌握转录组学和表观组学的分析方法和工具,研究人员能够更深入地理解基因调控的机制,发现新的生物学洞察,探索疾病的发生和进展机制,并为精准医学和药物研发提供理论基础和实践指导。这门课程旨在为学员提供必要的知识和技能,使他们能够应对当今生命科学中转录组学和表观组学的挑战,并在相关领域的研究和应用中取得突破性的进展


近年来发过哪些顶刊以及方向:

Nature Methods |使用合成无修饰RNA文库对表观转录组图谱进行系统校准

Nature Biotechnology | DisP-seq揭示了DNA相关无序蛋白的全基因组功能组织

Chest|结合表观遗传和转录生物标志物与基因-基因相互作用和主效应的早期NSCLC预后评分的独立验证

Nature Communications|化学诱导的相变和染色质的整体构象重组

Molecular Plant|大豆品种ZH13的T2T基因组组装及其表观遗传景观

Nat Rev Genet|使用单细胞表观基因组学鉴定顺式调节元件的特征

课程旨在为学员提供转录组学和表观组学的综合培训,以及在 Linux和R环境中进行数据分析的技能。通过本课程,学员将学习如何处理和分析转录组和表观组数据,并深入了解这两个领域的关键概念和最新发展。课程内容包括Linux操作系统的基础知识和常用命令行技巧,R编程语言的应用,转录组数据的预处理和差异表达分析,表观组数据的分析方法,以及综合应用和实际项目实践

讲师介绍

主讲老师来自荷兰高校陈老师授课。在国内外学术刊物发表论文数篇,包括Nature Communication, Cell Regeneration等知名期刊,研究方向主要为染色质三维结构,生物信息学,发育生物学和遗传学等。利用多组学数据,通过深度学习算法进行数据分析和挖掘,包括ChIP-seq,ATAC-seq,RNA-seq,CNV等,解决并回答领域内多个基础的生物学机制。

课表内容

NO.4

机器学习单细胞转录组与表观组( 内容可向下滑动


内容可向下滑动


第一天

理论部分

高通量测序原理

高通量测序基础

测序方法及数据

二代测序数据分析流程

实操内容

R语言基础

R(4.1.3 )和Rstudio的安装

R包安装和环境搭建

数据结构和数据类型

R语言基本函数

数据下载

数据读入与输出

第二天

理论部分

多组学基础

常用生物组学实验与分析方法

常用组学数据库介绍

批量处理组学数据

生物功能分析

基于转录组学的差异基因筛选,疾病预测

组学数据可视化

实操内容

创建Seurat对象

数据质控

测序深度差异及标准化

单细胞数据降维

批次效应去除

数据整合

亚群注释

GSVA通路活性分析

单细胞富集分析

第三天

理论部分

介绍转录组学的基本概念和研究流程

RNA-seq数据的预处

基因表达量估计和差异表达分析

实操内容

转录组测序数据质量控制

转录组数据比对

RNA-seq数据原始定量

主成分分析

原始定量结果差异分析

差异结果筛选及可视化

GO和KEGG通路富集分析

GSEA基因集富集分析

第四天

理论部分

机器学习概述

线性模型

决策树

支持向量机

集成学习

模型选择与性能优化

实操内容

决策树算法实现

随机森林算法实现

支持向量机(SVM)算法实现

朴素贝叶斯算法实现

Xgboost算法实现

聚类算法实现

DBSCAN算法实现

层次聚类算法实现

第五天

理论部分

基因功能注释和富集分析

WGCNA(Weighted Gene Co-expression Network Analysis)网络分析

转录因子分析和调控网络构建

转录组数据的可视化方法和工具

转录水平预测蛋白翻译水平

实操内容

单细胞非负矩阵分解(NMF)

细胞通讯分析

细胞发育轨迹分析(monocle)

单细胞调控网络推断SCENIC


示例图片:




专题五

机器学习代谢组学

机器学习代谢组学: 是将机器学习技术应用于代谢组学领域的研究。

代谢组学是研究生物体内代谢产物(代谢物)的整体组合及其在生物体内的变化过程,旨在揭示生物体的生理状态、代谢通路和疾病机制等方面的信息,对于生命科学、药学研发和临床诊断等领域具有重要意义


机器学习代谢组学的目标:

熟悉代谢组学和机器学习相关硬件和软件;熟悉代谢组学从样本处理到数据分析的全流程;能复现至少1篇CNS或子刊级别的代谢组学文章图片。

代谢物分类和识别:通过机器学习算法,将复杂的代谢物组合归类并识别,从而了解代谢物的特征和功能。


生物标志物的发现: 通过分析代谢组学数据,找到与特定生理状态、疾病或治疗反应相关的生物标志物,以提供疾病的早期诊断和个体化治疗的依据。







请到「今天看啥」查看全文