1. 纵向监测21台质谱仪的性能
作者首先制备了小鼠肝脏消化液(Westlake Mouse Liver Digests ,WMLD)作为测试样本(样本策略)(图 1)。使用其生成的DDA和DIA配对文件作为质控。这些样本也分发到9个不同的实验室,涉及8种不同类型的21台质谱仪,如Orbitrap、TripleTOF和timsTOF Pro系列质谱仪。每台仪器均使用250-1000 ng样本,有效梯度30 min,生成配对的DIA和DDA文件,9个实验室的检测时间跨度为91天-873天,中位数为321天(图2A)。整个项目时间跨度超过125周。在此期间,进行了785次液质维护,如LC维护(更换分析柱等)、质谱前后端维护(校准质谱精度、清洁四级杆等)(图2B),每个实验室平均每月进行0.6-5次维护。最终获得了2638份DIA原始文件和2638份配对的DDA原始文件,并附有详细的维护日志。此外,邀请来自10个不同实验室的21位质谱专家使用15个液质相关的共识指标(图1A)对这些数据的质量进行了检查。
图2 对21种MS仪器进行纵向监测
2. 在检测数据变化方面,基于DIA的质量控制指标比基于DDA的质量控制指标更灵敏
作者系统比较了DDA和DIA的相关指标(包括肽段数量、蛋白质数量和MS信号等定量和定性指标),用于检测液质系统的性能。对于DDA数据,作者使用目标肽前体离子的MS1面积来计算,对于DIA数据,则使用目标肽前体离子的MS2数据。作者对QE HF-X仪器进行了280天的监测,选择了四个具有代表性的时段,每个时段30至40天。在这期间,分析了各种维护活动(图3),图3A-D中的每幅图代表一个特定的时间段。结果表明,在液质维护前后,DDA也能在所分析的四个时间窗口内提供相对稳定的肽段和蛋白质鉴定结果,而且DDA获得的MS1信号是更敏感的仪器性能指标。但DIA结果中峰面积中值敏感度要高于DDA获得的MS信号。性能诊断上,对于指标敏感度越高越好,因此,作者认为DIA文件中得出的指标在监测多个LC-MS系统的波动方面具有卓越的能力。
图3 在检测数据变化方面,基于DIA的质量控制指标比基于DDA的质量控制指标更灵敏
3. 为基于DIA的质量控制确定性能指标优先级
尽管有文章报道了一些性能指标,但对基于DIA的QC的深入研究较少。为收集建立一套全面的性能指标评估DIA数据,作者采用了以往报道的141个指标(图4A),这些指标可以分为三类:基于鉴定结果的指标、不基于鉴定结果的指标、以及多元统计相关指标。它们分别对应液质系统的六个方面:样本制备、LC系统、MS1扫描、MS2扫描、肽段和蛋白质鉴定以及肽段和蛋白质定量(图4A)。随后,作者剔除了一些多余的指标,比如不适合DIA数据的,以及14个与多元统计有关的。随后将其余指标重新分配到五个类别(图 4B),并对每个类别进行独立评估,以确保指标的完整性和简洁性。在筛选后,作者选择了13个指标。此外,通过与21位质谱专家的沟通,额外增加了前体离子色谱图及离子迁移率准确度这两个指标。最终指标数量为15个,包括色谱、离子源、MS1扫描、MS2扫描、鉴定和定量(图4B)。为评估这些指标是否能捕捉常见的液质故障,作者用桑基图说明了这些指标可以有效地检测出所有液质常见故障(图5)。MS2信号下降和MS1信号良好但鉴定结果不佳、MS1和MS2信号良好但鉴定结果不佳、MS1和MS2信号下降比例相似但鉴定结果不佳等故障,可以由15个指标的组合(图 5A第2节)进行检测。这15个指标已上传到人类蛋白质组组织-蛋白质组学标准倡议(HUPO-PSI)质量控制工作组的mzQC34格式规范组,以确保更多的人了解并能使用这些指标进行质量评估。
图4 为数据注释选择度量标准
图5 21位专家对2638份DIA文件的指标进行注释
4. 使用15项指标对2638份DIA质量控制数据文档进行人工检查
在建立评价体系后,作者邀请来自10个机构的21位专家使用这15项指标来评估2638个原始DIA数据,并将之分为“合格”和“不合格”。此外,还要求评级人员分别对每个原始文件的LC和MS状态进行整体评估,并根据其经验性的整体判断做出“合格”或“不合格”的结论。“合格”意味着性能可能不是最佳,但结果可接受。因此,作者又增加了2个分别表示LC和MS整体性能的指标。每个数据的最终质量标签是来自于专家的投票结果。为评估该体系的可靠性,作者随机选择了11个DIA数据文件,并在未告知评审专家的前提下,将文件复制了两次(即技术重复)。结果表明,这些技术重复的一致性中位数为100%,表明本体系具有很高的一致性和重复性(图 5C)。
随后,作者整合了2638个DIA数据的评审结果,发现评审专家在F4(电荷状态分布)、F5(相邻MS1扫描的强度变化)、F6(前体离子质量准确性)、F8(片段质量准确性)、F11(鉴定的肽的数量)和F12(鉴定的蛋白质的数量)等指标上表现出了很强的一致性(图5D,E中的蓝条)。但F10(MS1与MS2的峰面积比)、F13(目标前体离子的MS1面积)和F14(目标前体离子的MS2强度)达成共识则更具挑战性。接下来,作者使用“观察到的一致性”的评分者间算法来衡量评估结果的可靠性(图4D),结果表明21位专家的人工检查具有合理的可靠性和可重复性。88%-90%的DIA数据文件可以被标注为“合格”。
5. 开发基于DIA的质量控制分类器
接下来,作者想要探索能够表征数据质量的肽段,即在不同仪器上均可以被准确的鉴定。作者使用4种类型的质谱仪在DIA模式下对221个小鼠肝脏消化液进行了分析,使用DIA-NN等工具,鉴定出176304个肽前体离子。根据图6A的标准,作者筛选了在所有DIA文件中表达一致,长度适当且没有漏切的肽前体离子,并排除了含有反应残基的,以及具有胰蛋白酶抑制序列的肽段。此外还手动检查了肽段的质量。最终确定了934个高质量的肽段前体离子,大多数肽段由7-15个氨基酸组成。平均保留时间涵盖了各数据集的90%。
随后作者使用上文中2638个DIA文件的搜库结果(图2C),在四台TripleTOF系列仪器中,鉴定出的蛋白质中位数为2916个。13台Orbitrap系列仪器鉴定的蛋白质中位数为4381个,而4台timsTOF Pro仪器鉴定的蛋白质中位数为6070个。随后评估发现仅依靠降维等分析是难以区分不同仪器数据质量的。相反,对特定仪器在不同时间点获得的数据进行t-SNE分析,没有发现明显的批次效应,表明特定MS仪器获得的数据具有可比性。
因此,作者将这些数据分为训练集(n = 2110)和验证集(n = 528)(图6B),在训练集中,作者提取了934个肽段的特征(F2/F13/F14)基于DIA原始文件的特征(F1、F3-F12),然后使用机器学习的方法建立分类器。结果发现,由19个肽前体离子和F3的组合在LC层面区分合格和不合格DIA文件的准确率最高(图 6C),而由14个肽前体离子和F4、F5、F6、F7、F11和F12的组合在MS层面区分合格和不合格DIA文件的准确率最高(图 6D)。
随后,作者使用验证集进行进一步评估,发现LC的AUC为0.91(图 6E),MS的AUC为0.97(图 6F)。为了进一步验证机器学习功能,作者还使用了QE HF仪器在2023年12月至2024年8月期间收集的116个DIA数据集进行质量控制。在这八个月中,QE HF仪器在正常运行期间使用30分钟的LC梯度,每周进行两次质量控制,并在仪器发生故障前后收集额外的质量控制数据。还邀请了三位专家根据文章前面提到的14个方面对116个原始文件进行注释。观察到的每对专家之间的一致性从0.85到0.87不等,表明一致性水平很高。为了提高高质量标签的一致性和准确性,同时尽量减少个别评审员的偏见或错误,作者在确定最终标签时采用了少数服从多数的原则。
最终,在16项指标中的大多数指标上,68%到99%的文件被归类为合格。这些独立测试集中,LC模型的AUC为0.78(图 6G),MS模型的AUC为 0.94(图 6H)。这些结果表明,该模型在监测LC-MS仪器方面非常有效和实用。最后为验证这33个肽段的稳定性,作者进行了独立实验,在TripleTOF 5600+中使用DIA分析了WMLD样品,历时31天,发现除一种肽前体离子外,所有肽前体离子的变异系数均低于5.8%,最高变异系数为11.2%,中位变异系数为2.9%,平均变异系数为3.5%(图6I)。这些数据有力地表明,这些肽的检测结果在一段时间内是一致的,因此可以得出可靠的质量控制指标。
图6 肽前体离子候选物的选择、分类器的开发、性能评估以及在两个独立盲测数据集上的验证
6. 用于DIA文件质量控制评估的iDIA-QC软件工具
综上,作者开发了一款名为iDIA-QC的软件工具,用于自动进行上述质量控制和故障排除。软件中的指标提取过程依赖于msConvert和DIA-NN。具体来说,前者用于提取F3、F5和F15,其余指标则使用后者提取。对小鼠肝脏消化液进行30 min的DIA分析后,iDIA-QC输出了一份LC和MS系统17项指标的综合报告。如图4所示,该工具不仅能报告LC和MS系统是否合格,还能指导找出故障的潜在原因。