专栏名称: 生信图书馆

深入解读最新生信文献，分享研究思路和方法，提供专业生信分析服务，帮助您把握生物信息学的最新动态

这本8+宝藏期刊，必须让你知道！看南京中医药大学团队这篇结合“”机器学习+单细胞+全外显子组测序数据“”的纯生信如何力挽狂澜！

生信图书馆 · 公众号 · · 2024-08-11 19:00

正文

如何用简单的生信分析，发高分文章！快关注馆长，你就能知道答案哦~

今天馆长要分享的内容是采用了一系列生物信息学方法来识别非酒精性脂肪肝（NAFLD）进展特异性通路和基因，并结合三种机器学习方法构建风险分层基因特征以量化风险评估。这篇文章的巧妙之处就在于：

亮点一： 从非酒精性脂肪肝（NAFLD）&肝癌疾病角度进行切入分析；

亮点二： 采用多种机器学习算法分别筛选了关键基因和涉及的通路，构建的风险分层标志物能量化风险评估；

亮点三： 此外，还全面分析了bulk RNA-seq、scRNA-seq转录组分析数据和全外显子组测序数据，以揭示不同分子亚型之间的基因组改变和改变的通路。更好地了解NAFLD异质性，并促进对高危NAFLD患者进行个性化管理。

文章发表在 Journal of Big Data 上，该刊发表关于数据科学和数据分析的原始研究。并欢迎深度学习算法和大数据的所有应用稿件，对纯生信也非常友好，妥妥的宝藏期刊。 PS：机器学习这个高分利器还没提上你的日程吗？馆长这里已经有很多小伙伴通过机器学习发表了心仪的文章。这篇文章也是可复现性极强，不想错过的抓紧扫码call馆长哦~

定制生信分析

云服务器租赁

加好友备注“99” 领取试用

题目：整合转录组分析和多种机器学习方法，识别NAFLD进展特异性关键基因以揭示不同的基因组模式和可操作的靶点

杂志： Journal of Big Data

影响因子：IF=8.6

发表时间：2024年3月

公众号回复“666”二字可以领取本文献，文献编号：240811

研究背景

非酒精性脂肪肝（NAFLD）是全球主要的公共卫生问题。大约四分之一的非酒精性脂肪肝 (NAFL)患者会进展为非酒精性脂肪性肝炎(NASH)，这是NAFLD的晚期阶段。因此，需要更好地了解NAFLD异质性，对高危NAFLD患者进行个性化管理和预防性干预。NAFLD是一种复杂的异质性疾病，由内在易感性和环境背景引起，在此过程中，基因调控网络中的CCL2和CCR2介导不同疾病阶段的NAFLD进展，但是不足以全面解释NAFLD的发病机制。因此，迫切需要确定更多参与肝脏脂肪变性和炎症的分子驱动因素和协调因素，从而更好地了解NAFLD。

研究思路

在这项研究中，采用了一系列生物信息学方法来识别NAFLD进展特异性途径和基因，并结合三种机器学习方法构建风险分层基因特征以量化风险评估。随后又全面分析了群细胞Bulk RNA-seq、单细胞RNA-seq(scRNA-seq)转录组分析数据和全外显子组测序(WES)数据，以揭示不同分子亚型之间的基因组改变和通路的改变。

研究结果

1.NAFLD进展特异性通路和基因的鉴定

利用R包“limma”，在NASH中发现了显著上调的基因，然后进行GO分析进行通路探索（图1a，1b），结果表明上调基因的细胞外基质（ECM）的组织和细胞周期过程的改变与NAFLD进展相关。随后使用98例NAFLD的转录组分析数据进行WGCNA分析，用样本及其样本类别构建无标度共表达网络，共生成36个基因模块。其中棕色模块与样本类别的相关性最高，是NAFLD进展的基因模块 (图1c)。然后，使用“limma”算法识别NAFL和NASH样本之间的378个差异表达基因（DEGs） (图1d)。将“NAFLD进展基因模块”和“NAFL与NASH之间的DEGs”的182个重叠基因视为“NAFLD进展特异性基因”(图1e)，PPI网络中的枢纽(红色圆圈)主要由胶原家族成员组成(图1f)。为了探索高危NAFLD患者的潜在靶点和适用药物，用CMap进行进一步研究上述182个NAFLD进展特异性基因。图1g显示了预测得分最高的前10个化合物和相应的7种作用模式（MoAs），表明HDACi可能是一种潜在的适用于晚期NAFLD患者的药物。

图1：NAFLD进展特异性通路和基因的鉴定

2. 在NAFL中具有不同炎症和纤维化模式的不同风险亚组

利用GO法对鉴定出的182个NAFLD进展基因进行进一步分析，它们主要富集于 “ECM组织”、“血管发育”、“Wnt信号通路”、“细胞粘附”和“细胞形态发生”（图2a）。基于182个NAFLD进展基因的表达谱，采用NMF算法将训练队列中的51例NAFL分为两个亚群(图2b)。ssGSEA算法发现“炎症反应”、“ECM组织”和“细胞-细胞粘附”的量化评分从C2到C1逐渐显著升高到NASH(图2c-e)。在NAFL-C1、C2和NASH样本中，“炎症反应”与“ECM组织”或“细胞-细胞粘附”之间存在正相关(图2f和g)。图2h显示了炎症因子(LPAR1、PTPRE、CCR2、CCL20、CLEC5A、CXCL6、ITGB8、PDPN和GPC3)在NAFL-C1、C2和NASH中的表达谱。通过单因素方差分析，炎症因子在NAFL-C2组都显著降低。使用xCell算法评估了三组中纤维相关细胞群的丰度， NAFL-C2的成纤维细胞丰度明显下调。NAFL-C2中Th1细胞浸润明显上调，而三组间Th2细胞浸润无显著差异(图2i)。此外，NAFL-C2组间质评分最低，而NAFL-C1组与NASH组间质评分无显著差异(图2j)。

图2：NAFL的不同风险亚组具有不同的炎症和纤维化模式

3. 风险分层判别评分的建立与验证

为了定量评估NAFLD的风险分层，结合不同的机器学习（ML）方法来筛选稳健的生物标志物。在图3a中介绍了LOOCV框架的训练方法，鉴定出的182个NAFLD进展基因分别通过RF和SVM算法进行训练，采用递归特征消除（RFE），8个重叠基因（COL1A1、COL1A2、COL4A1、COL4A2、COL5A1、DTNA、THBS1和UBD）保留在两种ML算法的输出中。最后，对8个基因进行Lasso逻辑回归（LR）分析，只有4个基因（DTNA、COL4A2、UBD和COL1A2）保留了其系数。其中，COL1A2的系数最高（图3b）。PCA分析显示，NAFL和NASH样本与4个基因的表达矩阵明显分离（图3c）。此外，从NAFL-C2到C1，再到NASH样本，4个基因均显著升高（图3d）。ROC分析表明，该评分可以准确地区分NASH和NAFL（图3e）。使用GSE163211的数据集作为外部测试队列，由GPL29503平台生成，在四个基因(DTNA、COL4A2、UBD、COL1A2)中，平台仅检测到COL1A2和COL4A2。COL1A2和COL4A2在伴有纤维化的NASH中显著上调，2个基因的鉴别评分也显著高于脂肪变性和无纤维化的NASH样本(图3f)。在154例NASH样本中，ROC分析显示，2个基因鉴别评分可识别晚期纤维化样本(图3g)。另外，另一个GSE135251数据集包含10个正常组织、51个NAFLs和155个F0-4的NASHs作为第二个外部检测队列。在平台上检测COL1A2、COL4A2和DTNA，计算每个样本的“3-基因评分”，“3基因评分”从正常到NAFL到NASH水平显著且逐步升高（图3h）。此外，“3基因评分”在鉴别晚期（AUC=0.737,图3i）和晚期纤维化水平（AUC=0.729,图3j）方面表现出良好的表现。

图3：NAFLD中风险分层的鉴别基因特征的建立和验证

4. 风险分层基因特征与恶性进展显著相关

为了评估这四个鉴别基因在NAFLD和恶性进展中的生物学作用，研究了这四个基因在不同数据集中的表达谱，这些数据集包括正常肝组织、NASH和HCC样本。在GSE164760微阵列数据集中，来自NASH的HCC样本中所有这四个基因都显著上调(图4a)。在GTEx和TCGA-HCC RNA-seq数据库的组合中，HCC样本中这四个基因也均显著上调(图4b)。此外，还利用GSE125449、GSE146409和GSE166635三个scRNA-seq数据集揭示HCC肿瘤微环境(TME)的组成和关键基因的表达特征。使用UMAP降维来显示HCC的TME所涉及的细胞类型的分布和差异性(图4c、f和i)，并评估了COL1A2在不同细胞类型中的表达特征(图4d、g和j)，COL1A2在成纤维细胞中特异性表达，在其他细胞类型中几乎不表达(图4e、h、i)。这些结果表明，风险分层基因标记与NAFLD和HCC的进展密切相关，COL1A2可能在成纤维细胞活化和纤维化严重程度中发挥特定作用。

图4：风险分层基因标记与恶性进展显著相关

5.NAFLD和HCC的突变模式和CTNNB1/COL1A2轴的分析

利用TCGA-HCC和NMF算法的WES数据，探讨COL1A2与HCC的突变模式之间的关系。并在COSMIC数据库中识别并匹配了5个突变特征（图5a）。TCGA-HCC中每个突变特征的丰度见图5b，每个突变特征的分布见图5c，NAFLD-HCC具有高COL1A2表达的特征（图5d）。CTNNB1是col1a2低队列中最频繁的突变基因，突变频率高达48%（图5e）。相比之下，CTNNB1在col1a2高的队列中很少发生突变（图5e）。在TCGA-HCC、MSK-HCC和INSERM-HCC队列的综合分析中，TP53和CTNNB1的基因对明显互斥（图5f）。此外，CTNNB1野生型HCC样本中COL1A2 mRNA的表达显著升高（图5g）。在9个具有代表性的致癌通路中，WNT信号通路是col1a2低队列中最常受影响的信号通路（图5h）。采用GOBP分析，发现CTNNB1-WT/col1A2高的HCC样本中，最重要的5个通路为“血管系统发育”、“趋化”、“ECM组织”、“运动正调节”和“细胞粘附正调节”（图5i）。这些证据表明，CTNNB1/COL1A2轴可能在NAFLD-HCC进展过程中影响纤维化和炎症严重程度。

图5：CTNNB1/COL1A2轴与NAFLD-HCC进展期间纤维化的严重程度相关

6. 不同CTNNB1/COL1A2组间观察到不同的免疫和基质模式

采用TIMER，Cibersort，quanTIseq，MCP-counter检测浸润性免疫细胞和基质细胞，并研究不同CTNNB1/COL1A2组的分布差异。大多数免疫和基质细胞在CTNNB1-WT/col1a2高样本中富集（图6a）。xCell算法推断了参与TME的36种细胞类型的绝对浸润，CTNNB1-WT/COL1A2和CTNNB1-Mut/COL1A2高样本的浸润丰度显著高于其他样本（图2b）。使用EPIC、MCP-cether和xCell推断CAFs的浸润评分，观察到CAFs在CTNNB1-WT/COL1A2高的样本中显著富集，说明CTNNB1-WT分类不同和COL1A2高表达导致纤维化的严重程度不同（图6c-e）。不同组间的免疫检查点的水平不同，表明异质性肿瘤免疫原性和对免疫治疗的不同潜在反应（图6f-h）。此外，应用估计算法推断每个样本的免疫浸润和肿瘤纯度，CTNNB1-WT/COL1A2-high组和CTNNB1-Mut/COL1A2-high组标记为高免疫组渗透（图6i），四组免疫评分与肿瘤纯度呈显著负相关，如图6j所示。同样，炎症反应活性在四组间有明显的分布（图6k），与免疫评分呈显著正相关（图6l）

图6：不同的CTNNB1/COL1A2组之间观察到不同的免疫和基质模式

7.COL1A2在泛癌症中与EMT和血管生成显著相关

使用ssGSEA算法量化了EMT、血管生成、凋亡、炎症、缺氧、糖酵解、糖酵解、细胞周期进展、衰老、DNA修复和氧化磷酸化的能力，并计算了COL1A2表达与这10个癌症特征之间的相关性（图7a）。在TCGA泛癌队列（图7b和c）或单个肿瘤类型（图7d和e)中，COL1A2主要与32例恶性实体癌的EMT和血管生成相关。因此，推测COL1A2在泛癌的恶性进展中发挥了重要作用。

图7：COL1A2在泛癌中与EMT和血管生成显著相关

文章小结

该研究为NAFLD的分子分类提供了证据，建立了风险分层基因标志物来量化风险评估，旨在识别高风险亚群并指导个性化治疗。该研究能够促进NAFLD的个性化治疗策略，特别是那些出现在早期但实际是高危NAFL的患者，这些患者可以受益于更深入的监测和预防性干预。有很大的临床研究意义！还有一个高分秘籍，那就是转录组分析和多种机器学习方法的整合，使得生信内容更加可靠，思路非常连贯，整体的文章布局也非常好。今天跟着馆长是不是学到了很多呢，尤其是机器学习方法技巧呢~我们下周再见，拜拜！如果大家还想要研究其他生物信息学方法的话，可以关注馆长，下一篇生信文章在向你招手！

这本8+宝藏期刊，必须让你知道！看南京中医药大学团队这篇结合“”机器学习+单细胞+全外显子组测序数据“”的纯生信如何力挽狂澜！

正文

请到「今天看啥」查看全文