专栏名称: 生信宝典
生物信息分析入门、晋级和经验分享。Linux、R、Python学习教程;高通量测序数据分析学习教程;生信软件安装教程。所有内容均为原创分享,致力于从基础学习到提高整个过程。
目录
相关文章推荐
每日经济新闻  ·  股价跌破4元!上市公司突然自曝:7.86亿元 ... ·  昨天  
每日豆瓣  ·  🎉🎉新年快乐!🎉🎉 ·  4 天前  
每日经济新闻  ·  乌克兰不“续约”,俄罗斯宣布:正式停止! ·  3 天前  
小学数学  ·  奥数课堂:回文数 ·  3 天前  
51好读  ›  专栏  ›  生信宝典

恭喜陈兄周兄 NC | FRoGS: 用基因表征领域的 Word2Vec更好地比较基因集间的相似性

生信宝典  · 公众号  ·  · 2024-03-05 21:00

正文

也许你对作者不熟悉,但作者周兄开发的富集分析工具Metascape 都应该很熟悉,具体见推文:这个只需一步就可做富集分析的网站还未发表就被CNS等引用超过350次作者最近和在诺华生物医学的同事们一起在基因的功能表征层面取得了新的突破。这为我们比较基因集的相似性提供了更准确的方法。

在自然语言处理(NLP)研究的早期阶段,我们通过数共享单词的个数来量化文档之间的相似性。然而,这种简单的方法忽略了同义词,将“猫 (cat)”和“小猫 (kitty)”视为不同的实体,就像对待“猫”和“岩石”一样(图1,左侧)。由此产生的基于身份 (identity)的单词表示,即独热 (one-hot)编码,在应用于聚类文档时效果不佳。幸运的是,随着Word2Vec等深度学习技术的出现 [1],NLP领域已经发生了变革。由于Word2Vec,曾经相距甚远的“猫”和“小猫”现在被认为是几乎相同的(图1,右侧)。

图1. 左侧是使用独热编码表示的情况,“cat” 和 “kitty” 的距离就像 “cat” 和 “rock” 一样远。这种表示方式没有意识到 “cat” 和 “kitty” 是同义词。右侧是使用 Word2Vec 表示的情况,“cat” 和 “kitty” 非常接近,而且都与 “rock” 相距甚远,这正确地描绘了这些词的含义。

在基因分析中,我们一直面临着类似的困境。在比较基因列表时,我们计算共享的基因个数,类似于旧时的NLP方法。然而,像TLR7和MYD88这样在先天免疫信号中具有非常相似生物学作用的基因,当出现在不同列表中时被误以为完全无关而被忽视了。这就像“猫”和“小猫”曾经被认为是完全不同的一样。目前使用的基于字符串匹配的基因列表相似性算法很有局限。

在我们最近的《自然通讯》发表的研究中 [2],我们先将NLP与生物信息学进行了类比,引入了基因特征的功能性表示 (Functional Representation of Gene Signatures — FRoGS),作为基因分析中Word2Vec的等效方法(图2)。

然后,我们利用FRoGS表征来揭示化合物的靶点。基于Broad的L1000数据集,通过将shRNA/cDNA扰动的基因集与化合物扰动的基因集进行深度学习的相似性比较,我们取得了显著的成果。具体而言,基于FRoGS的AI模型在识别真正的化合物靶点方面表现出了36%的召回率 (recall),超过了传统的独热编码方法所能达到的9%的召回率。


图2. FRoGS向量的t-SNE投影,每个标记代表一个独特的人类基因。每种颜色代表一类功能,投影图说明具有相似功能的基因往往会形成局部聚类。

FRoGS能卓有成效地帮助机器学习的诀窍在哪里呢?因为基因的功能驱动着生物过程和它的表型。当基因被简单地表示为独热向量时,它的功能被忽略了,AI模型就必须使出洪荒之力重新发现它们的功能,才能有效预测它们的表型 --- 而这个功能再发现的过程需要大量的训练数据。不幸的是,这样的大量数据并不总是可得到的,于是有限的训练数据严重地影响了功能的学习从而影响了最终预测的准确性。


FRoGS表征革命性地改变了基因的表示方式。每个人类基因都被编码为一个有意义的向量,这些向量既包含了在基因在Gene Ontology (GO [3])中注释的已知功能,也包含了从大规模转录组数据集 (例如ARCHS4 [4])中蕴含的但尚未被发现的潜在功能


FRoGS向量训练的目的是将单个人类基因映射到编码它们功能的高维坐标中。我们的深度学习模型旨在分配坐标,通过向量编码使相邻基因倾向于共享相似的GO注释以及在ARCHS4中定义的相关性实验表达谱在单个基因的编码基础上,我们又实现了对基因列表的功能编码。FRoGS在AI模型的输入向量中注入功能信息,于是模型无需浪费资源去从头开始学习基因的功能,而可以专注于学习基因功能与表型之间复杂的关联。这样有限的训练数据全都被用在了刀刃上。


在这篇中文介绍中,我们用 两个浅显易懂的例子进一步展示了FRoGS向量 (这里体现出了 embedding 生成的向量表示的高效表征性能)如何帮助实现强大的机器学习任务,将基因分析推向了传统独热编码不能够及的高度。

示例 1:组织特异性基因表达

在我们的第一个示例中,我们分别使用9798100个在大脑、脾脏和肌肉中特异性表达的基因。我们的目标是预测基因表达的组织聚类模式。传统上,独热编码将这些基因放置在高维空间中,基因之间没有任何的相似性。因此,AI模型难以进行有意义的学习,这导致分类准确率仅约为29%(±3%)(n = 100次模拟)—— 等同于随机猜测(图3)。然而,当我们使用FRoGS向量表示基因时,t-SNE图中出现了组织特异性聚类(图4),这样用机器学习找出分类的边界就很直接了。随机森林模型(Random Forest)的准确率飙升至约80%(±5%)(n = 100次模拟),展示了FRoGS使得 AI 模型即使在有限数据情况下也具有强大的学习能力(图4)。

图3. 使用其独热表示的基因的t-SNE投影。基因的位置是随机的,三类基因无法区分,不适合用于机器学习。

图4. 使用其FRoGS表示的基因的t-SNE投影。具有相同组织表达模式的基因往往会聚集在一起,从而帮助我们训练出具有良好准确性的分类器。

示例 2:基因列表和功能特征

我们的数据集包括与动脉、心脏和大脑分别相关的35、24和122个基因列表。每个基因列表内含约100个基因。在独热编码方法中,基因列表被表示为其组成成员基因独热向量的总和。虽然这些基因列表也展示了一些聚类模式(图5),但与FRoGS基因特征嵌入形成的明显聚类相比,它们相形见绌(图6)。用于预测的分类准确率为独热向量为85%(±4%)(n = 100次模拟),而FRoGS向量为100.0%(±0.4%)(n = 100次模拟)。

图5. 使用其组成基因成员的聚合独热表示的基因列表的t-SNE投影。具有相同组织表达模式的基因往往会聚集在一起,从而导致具有良好准确性的分类器。这反映了当前基于基因身份的方法的性能。

图6. 使用其FRoGS表示的基因列表的t-SNE投影。具有相同组织表达模式的基因形成紧密且独特的聚类,从而导致具有出色准确性的分类器。与图 5 相比,这显示了在生物信息学机器学习应用中利用FRoGS带来的进步。

结论

FRoGS标志着生物信息学的一个新跳跃,类似于Word2Vec对NLP的影响。作为研究人员,让我们一起探索FRoGS在解决不同生物问题中的应用潜力。请访问我们的GitHub代码库[5],在您的下一个机器学习尝试中发掘FRoGS的变革性能力。

数据和方法概述(来源于作者)

1. 基因的已知功能来自Gene Ontology(GO)数据库。由于每个基因对应于多个GO通路和每个通路有多个基因,所以基因之间的功能相似度计算是一个复杂的问题。
2. 基因的未知功能来自于ARCHS4收集到的238,522 人类转录组样品。每个样品中的差异表达基因被等效地当做属于同一个功能通路
3. 机器学习的过程是从GO或者ARCHS4数据构建的通路图中随机抽取一对基因。具体的在这个基因和通路组成的超图中通过重启随机游走算法(random work with restart)进行采样。每两个基因都对应于一个能被游走连接的概率,连接几率越大的基因对功能越相似,反之连接几率越小的基因对功能越不同。FRoGS通过深度学习网络把每个基因用高维空间的一个向量表示,让连接几率大的基因尽可能在高维空间互为邻居,而连接几率小的基因尽可能在高维空间远离,这就得到基因的功能表达向量。
4. 实际中生物信息问题处理的不是单个基因而是基因列表。我们只要把列表中的单个基因的FRoGS向量进行加权平均就能得到FRoGS的基因列表向量。用这些蕴含基因功能意义的向量做为机器学习的输入能达到事半功倍的效果。
5. 对于人类的基因,所有的FRoGS的向量已事先算好,可以直接使用。GitHub网站有本文中使用的代码例子。其他物种的FRoGS向量需要用户自己训练,包括搜集恰当的训练数据集,但我们提供了人类基因中的训练代码以供参考。

数据和方法(生信宝典的一些理解)

  1. 用到的表达数据。

    ARCH4 数据集收集到的238,522 人类转录组样品,用 Kallisto 软件基于 GRCh38 注释基因基因表达计数,原始的 reads count进行了 log2 转换和分位数标准化(quantile normalization),样品间 Z-score 归一化所有表达值,基因在每个样品内按 Z-scaore 值排序,Z_score 值绝对值大于 2 且排在顶部或底部 200 以内的基因定义为差异表达基因。

    Gene counts for each sample were quantified by ARCHS4 against the GRCh38 human reference genome using Kallisto73. Following the ARCHS4 workflow, gene counts were processed by log2 transformation and quantile normalization. The resultant gene counts were Z-score-normalized across samples. Genes were ranked based on their Z-scores within each sample and a set of differentially expressed genes were defined as genes ranked in the top 100 or bottom 100 and with |Z| ≥ 2。

  2. 每个基因用 2d 维向量表示,一个向量表示 GO 信息,另一个向量表示 RNA-seq 信息。Two d-dimensional vector representations (embeddings) were created for each gene, one for GO and one for RNA-seq information.

  3. 给定一个基因 u,我们采样一组与其共存于相同 GO 通路(或相同转录组样品)的基因,定义为其邻居基因N(u),训练基因 u 与其邻居基因有相似的嵌入向量。为了更好的获得N(u),我们把基因-GO 通路(或基因-样品)的对应关系转换为一个超图。其中节点代表基因,每个 GO 条目(或测序样品)代表一个连接该 GO 条目所有相关基因(或转录组样品调节基因)的超边 (hyperedge e)。然后在这个超图中通过重启随机游走算法(random work with restart)来鉴定邻居基因。


关于作者

第一作者Hao Chen是加州大学河滨分校(UC Riverside)计算机专业博士,现为卡内基麦隆大学(Carnegie Mellon University)计算生物学博士后。他在Nature Method和Nature Aging上发表过研究工作。

通讯作者Yingyao Zhou是纽约大学 (New York University) 生物物理博士。他长期在诺华制药研究所从事于和药物开发有关的数据科学研究,研究方向包括Bioinformatics, Cheminformatics, 及Imaging Analysis,目前侧重于Protein AI design。他在Nature, Science,及Cell上发表过工作。其中他负责开发的提供基因列表分析的 metascape.org文章引用量已超过5500。

FRoGS是两位学者在新冠疫情爆发后开始合作, 前后历时四年完成。此研究得到很多诺华同事的帮助,尤其是他们完成了大量的对基于FRoGS的预测的靶基因的实验验证。

引文

  1. Word2vec – Wikipedia

  2. Chen et al. Drug target prediction through deep learning functional representation of gene signatures. Nature Communications. (2024) 15:1853.

  3. Gene Ontology Resource

  4. ARCHS4 (maayanlab.cloud)

  5. GitHub – chenhcs/FRoGS: Functional Embedding of Gene Signatures


高颜值免费 SCI 在线绘图(点击图片直达)

往期精品(点击图片直达文字对应教程)

机器学习