今天给大家分享一篇关于代谢组中数据预处理(中心化、缩放和转换)的文章,但是同样适用于其他类似数据。
Berg, Robert A van den, Huub CJ Hoefsloot, Johan A Westerhuis, Age K Smilde, and Mariët J van der Werf. “Centering, Scaling, and Transformations: Improving the Biological Information Content of Metabolomics Data.”
BMC Genomics
7 (June 8, 2006): 142. https://doi.org/10.1186/1471-2164-7-142.
代谢组数据中不同代谢物浓度差异高达5000倍,与代谢物的生物学相关性不成比例。但是数据分析方法是无法区分的。通过数据预处理可以纠正这个问题。
作者将代谢物数据的变化分为induced biological variation和induced biological variation的变化:
induced biological variation:
代谢物浓度在数量级上存在差异;例如,信号分子的平均浓度远低于ATP这类含量很高的化合物的平均浓度。但从生物学的观点来看,高浓度代谢物不一定比低浓度代谢物更重要。
代谢物浓度的倍数变化是由不同的诱导程度引起的,central metabolism的代谢物浓度通常比较稳定,次生代谢途径中的代谢物浓度则因环境变化而变化,浓度差异变化比较大
uninduced biological variation:在相同的实验条件下,一些代谢产物的浓度有很大的波动,这就是所谓的uninduced biological variation。
技术差异Technical variation:来源于取样、样品处理和分析误差等。
异方差性Heteroscedasticity:通常假设由生物学、抽样和分析测量所产生的非诱导总变异( total uninduced variation)是均值为0,对称且标准差相等。但这种假设通常是不正确的。例如,uninduced biological variation的标准差取决于测量的平均值。这就是所谓的异方差,它的结果是在数据中引入了额外的结构。
数据预处理方法
不同的预处理方法强调数据的不同方面,每种预处理方法各有优缺点。预处理方法的选择取决于需要回答的生物学问题、数据集的性质和所选择的数据分析方法。
数据预处理方法的选择不仅取决于所要获得的生物信息,而且还取决于所选择的数据分析方法,因为不同的数据分析方法侧重于数据的不同方面。例如,一个聚类方法专注于分析(不)相似性,而主成分分析分析(PCA)则试图用尽可能少的主成分解释尽可能多的变化。因此,使用数据预处理改变数据特性可以提高聚类方法的结果,同时模糊 PCA 分析的结果。
本文均值和标准差的表示方式:
平均值:
标准差:
和
分别表示经过了不同预处理步骤的数据。
1. 中心化centering
centering/ctr: 减去平均值。中心化将代谢物浓度围绕平均值波动转换为围绕0波动。因此调整了高丰度代谢物和低丰度代谢物之间的差异。因而被用来关注数据波动的部分,只留下相关的变异用于分析。中心化被用于下边其他所有的方法中。
缺点:当数据有异方差时,这种预处理方法的效果并不总是充分的
2. 缩放scaling
缩放方法是一种数据预处理方法,它将每个变量按照一个因子(scaling factor 缩放因子)进行划分,每个变量的scaling factor是不同的。它的目的是通过将数据转换成相对于scaling factor的浓度差异,来调整不同代谢物之间的倍数差异。这往往导致较小值(small values)的膨胀,带来负面作用,因为测量误差的影响也会增加,而对于较小值,测量误差通常相对较大。
在 scaling 中有两个子类:
使用数据分散度度量值(例如,标准差)作为scaling factor
使用大小度量值(例如,平均值)作为scaling factor
scaling具体方法有:
autoscaling/unit variance scaling:(也就是Z-score标准化,也叫单位方差标准化,标准差标准化):具体实施方法就是变量减去平均值后再除以标准差,得到均值为0,标准差为1的数据结构。因此像中心化centering一样,数据是基于相关性而非协方差来分析。
range scaling: 就是最大值最小值标准化,每个变量减去平均值后除以最大值减去最小值的差。只使用2个数值来估计生物范围(一组实验中某一代谢产物达到的最小浓度和最大浓度之间的差值),而标准差的所有测量都被考虑在内。这使得range scaling对异常值更加敏感。为了提高range scaling的鲁棒性,还可以使用鲁棒的距离估计(robust range estimators)来确定距离。
优点:所有的代谢物都变得同等重要。缩放与生物学有关
pareto scaling:与UV scaling很相似,不同之处就是,前者使用的是标准差,后者使用的是标准差的平方根作为scaling factor。因此pareto scaling中,大的倍数变化的数据相对于在变换之前,不那么占主导地位。
目标:降低大值的相对重要性,但保持数据结构部分完整
vast scaling(variable stability scaling ): 在auto scaling的基础上乘以平均值和标准差的比值(即除以标准差vs平均值的比值,该比值也被称为变异系数(coefficient of variation ,cv):
)。它聚焦于稳定变量,即没有显示强烈变化的变量,使用标准差和变异系数作为标度因子。
使用 cv 的结果是,对于相对标准差较小的代谢物有更高的重要性,而对于相对标准差较大的代谢物有较低的重要性。
Vast scaling在有监督和无监督方法中都可以使用。当用于有监督方法时,样品的分组信息可以用来确定分组的特定的scaling cv。
优点:Aims for robustness,can use prior group knowledge
缺点:Not suited for large induced variation without group structure
level scaling:相当于浓度变化与平均浓度的比例。当具有特定生物学意义的大的相对变化时,例如,当研究应激反应时,或者希望找到丰度相对较高的生物标志物时,可以使用level scaling。
3. 转换transformations
转换是数据的非线性转换,变换通常用于修正异方差性;也可以将乘法关系转换为加法关系,使偏态分布(更)对称。在生物学中,变量之间的关系不一定是加性的,但也可以是乘性的,因此需要转换。log transformation和power transformation对较大值的减少比对较小值的减少会厉害,因此导致较大值和较小值的差值减小,这种变换具有pseudo scaling effect 。但是这并不是真正的scaling effect,而是对原始值的变换导致的。因此不足以完全调整magnitude differences。因此,在转换之后再使用缩放方法是有用的。
log transformation:如果想对标准差是常量,则log transformation可以消除异方差性。但在真实情况中很少见。
目标:校正异方差性,伪缩放(pseudo scaling),使得模型从相乘变成相加
缺点:处理具有大的相对标准差的数值是有问题的(通常是低浓度的代谢物,因为这些方差会被凸显);不能处理0值。当要被转换的值趋于0,log转换趋于负无穷。
power transformation:幂变换与对数变换具有相似的变换模式。因此,尽管幂变换不能产生乘性效应加法,但是幂变换可以得到与对数变换相似的结果,且不存在near zero artifacts。
目标:Correct for heteroscedasticity, pseudo scaling
优点:Reduce heteroscedasticity, no problems with small values
缺点:Choice for square root is arbitrary
对于该文章所用数据集,autoscaling 和 range scaling 优于其他预处理方法,即它们能消除rank of the metabolites对平均浓度和倍数变化幅度的依赖性。在PCA(主要成分分析)后显示出有生物学意义的结果。