有观点,有态度
这是生命科学产业观察公众号的第
1262-3
期文章
不久前,组学领域还是一个高度孤立的专业应用和技术集合。如今,多组学正成为主流。但随着研究人员沉迷于单细胞分辨率,存储和利用数据的挑战也变得十分严峻,就像 20 年前 NGS 革命开始时一样。
近日,GEN杂志邀请了一组多组学专家分享他们对不久的将来多组学的潜力和需求的预测。通过多位专家的观点,阐述了多组学研究的现状、挑战和未来发展方向,包括单细胞多组学技术的进步、数据分析方法的革新以及人工智能在其中的关键作用。专家们认为,多组学研究能够提供更全面的生物信息,从而推动精准医疗的发展,特别是对于罕见病的诊断和治疗。然而,数据存储、分析和标准化等问题仍然是该领域面临的挑战,需要学术界、工业界和监管机构的共同努力才能克服。
如今,基因组学实验室的作用远不止协助医生进行诊断。通过将基因数据与其他组学技术(如蛋白质组学、转录组学和表观基因组学)的见解相结合,医学遗传学家可以更全面地了解个人的健康状况。
测序技术的进步表明,大约 6,000 个基因与大约 7,000 种疾病有关。这些突破使医学遗传学家能够将患有罕见疾病或病症的患者转介给可以提供针对性治疗的医生。英国的 100,000 基因组计划和 Baby Bear 计划等具有里程碑意义的研究已经证明了基因组学对医疗决策的深远影响,尤其是对罕见病患者。因此,包括 Revvity 在内的更多公司正在向市场推出创新的测序技术和服务。
全球各国对基因检测的认识和可及性存在很大差异,这受到国家医疗保健系统和当地人口社会经济条件差异的影响。当地基因组学实验室的存在和针对特定人群的测序工作对于识别特定群体特有的基因变异至关重要。在资源有限的地区,公共和私人组织之间的合作可以产生特别具有变革性的影响。同样,全球制药和生物技术公司通过扩大多组学的覆盖范围做出贡献,无论是通过免费或补贴的罕见疾病检测,还是开发针对这些疾病的新疗法。
除了确定适合临床试验
的参与者外,到 2025 年,先进的生化和基因检测平台将更多地用于监测生物标志物和评估特定疗法的有效性。
多组学数据的整合也将推动 CRISPR 等下一代细胞和基因治疗方法的发展。
这些项目在未来几年前景广阔,有可能加速新疗法的发现并改善无数人的生活质量。
越来越多的研究也在探索基于组学的筛查对无症状个体的临床价值。
随着基因组测序不断发现新见解并变得越来越经济高效,全基因组测序 (WGS) 也将从最后的诊断工具转变为一线诊断方法。
了解多组学研究现状的一种方法是回想我们开始进行大量基因组研究的情形。由于技术和成本限制,利用早期下一代测序平台的研究人员专注于基因组或转录组的特定区域。随着样品制备和测序技术的改进以及测序成本的快速下降,现在可以从同一样本中获取基因组、转录组和表观基因组信息。
然而,整合这些数据类型需要推理和反卷积算法,而这些算法只能具有有限的能力来确定哪些变化可能发生在相同的细胞中。
最近的技术进步使得对同一细胞进行多组学测量成为可能
,研究人员可以关联和研究这些细胞中特定的基因组、转录组和/或表观基因组变化。与批量测序类似,随着样品制备技术的不断改进和测序成本的不断下降,我们现在看到研究更多地检查每个细胞的基因组、转录组和表观基因组。
我还预计,
除了从每个细胞中获取更多核酸含量的信息外,我们还将开始研究更多细胞,并利用互补技术(如长读测序)来检查基因组的复杂部分和全长转录本。最后,整合细胞外和细胞内蛋白质测量(包括细胞信号传导活动)将为理解组织生物学提供另一个层次。
为了整合来自同一细胞的这些互补测量数据,关键在于开发基于人工智能和其他新颖的计算方法,以了解这些多组学变化中的每一个如何影响该细胞的整体状态和功能。
单细胞多组学仍是一个新兴领域。我迫切希望看到未来几年的技术创新如何继续改变我们对单细胞分辨率的组织健康和疾病的理解。
DNAnexus 制药与诊断业务开发高级副总裁兼总经理
这是多组学研究的激动人心的时刻。科学家不仅可以前所未有地接触蛋白质组学、基因组学(即长读和短读全基因组测序,或 WGS)和转录组学(即 RNA-seq),还可以接触空间转录组学和单细胞平台的新领域。这提供了从开始到结果的疾病途径的 360 度视图,这对于确定历史上难以治愈的疾病的治疗和干预措施非常必要:从无法治愈的遗传疾病到癌症再到一般衰老。将这些知识转化为患者需要的结果需要的不仅仅是将大型组学集整合在一起并在孤立的工作流中分析模式。相反,它将采用新形式的数据存储、基础设施和分析,特别是将大型多组学数据集流整合在一起,并整体挖掘它们以获得任何单个数据集无法获得的见解。
虽然人工智能可以更快、更深入地挖掘数据,并为发现开辟一条强大的新途径,但
科学家需要专门为多组学数据设计的分析工具
。大多数分析流程最适合单一数据类型,例如蛋白质组学或 RNA 测序。如今,科学家经常需要在多个分析工作流程之间来回移动数据才能得到他们想要的答案。这不是一个强大的模型,因为未来我们看到多组学将成为科学研究的首选方法。虽然我们看到随着时间的推移有所改进,特别是随着云供应商提供更多访问这些资源的渠道,但
我们需要更多通用的模型来处理这些数据的变化和演变
。
我预测,到 2025 年,该领域将大大提高专用分析工具的可用性,这些工具可以提取、查询和整合各种组学数据类型,提供单模态范式中生物医学领域无法提供的答案。然而,仅靠新的分析工具是不够的。我们还需要适当的计算和存储基础设施,以及专门为多组学数据设计的联合计算。
多组学研究,即同时分析多个生物层面,有望彻底改变我们对复杂疾病的理解。疾病状态起源于不同的分子层面(基因水平、转录水平、蛋白质水平、代谢物水平)。通过测量通路中的多种分析物类型,可以更好地将生物失调精确定位到单个反应,从而阐明可操作的目标。
通常,当研究人员进行多组学分析时,来自世界各地的不同实验室会分析多个群体的样本。这会产生协调问题,使数据整合变得复杂。此外,即使可以合并数据集,它们通常也会被单独评估,然后将结果关联起来。虽然这些方法有价值,但它们并没有最大限度地利用信息内容。
最佳集成多组学方法将组学概况交织成单个数据集,以进行更高级别的分析。此方法首先收集同一组样本的多个组学数据集,然后在处理之前整合每个数据集的数据信号。集成数据可改善统计分析,其中样本组(例如,响应者与无响应者、患病者与健康者、治疗者与未治疗者)基于多种分析物水平的组合进行分离。
综合多组学方法的一个关键部分是网络整合
,即将多个组学数据集映射到共享的生化网络上,以提高对机制的理解。作为此网络整合的一部分,分析物(基因、转录本、蛋白质和代谢物)基于已知的相互作用连接在一起(例如,将转录因子映射到其调节的转录本上,或将代谢酶映射到其相关的代谢物底物和产物上)。机器学习和人工智能的进步使得开发更强大的分析工具成为可能,以便从多组学数据中提取有意义的见解。
多组学在临床环境中的应用是另一个重要趋势
。通过将分子数据与临床测量相结合,多组学可以通过预测疾病进展和优化治疗计划来帮助患者分层。多组学对于大型队列研究特别有用,在这种研究中,可以利用机器学习方法来建立疾病过程、药物疗效等的预测模型。
多组学研究通过整合基因组学、转录组学、蛋白质组学和其他领域的数据来揭示生物系统的全面见解,从而改变我们对生物学的理解。尽管该领域近年来取得了进展,但其持续发展将依赖于应对新兴趋势和挑战。