主要观点总结
本文强调了实验设计中重复的重要性,并指出需要在适当的生物学尺度上进行重复。文章讨论了实验设计的关键原则,包括如何避免混淆因子,如何识别重复尺度,以及何时在多个尺度上进行重复。此外,文章还讨论了子样本、多层次设计、生物学现实性、子样本的精度和效能、更高尺度上的重复以及分离因子和混淆等问题。最后,作者鼓励研究人员认真考虑实验设计,并优化其效率、成本效益、推理能力和普遍性。
关键观点总结
关键观点1: 实验设计中重复的重要性,并指出需要在适当的生物学尺度上进行重复,以支持推论并减少误差。
实验设计是科学研究的基础,而重复是确保实验结果可靠的关键因素。在适当的生物学尺度上进行重复,可以确保处理的效应可以在目标群体中得到准确评估。
关键观点2: 如何识别重复的尺度。
识别重复的尺度需要关注实验描述的语法,使用形容词来修饰兴趣因子前的名词,这些名词通常表示处理应用的尺度,也就是必须重复的尺度。
关键观点3: 多层次设计的优点和子样本的用途。
多层次设计允许我们在多个生物组织层次上探索兴趣因子,从而提高效率并最大化统计效能。子样本可用于提高响应变量估计的精度,特别是在测量误差较大的情况下。
关键观点4: 避免混淆因子和崩溃的重复。
混淆因子会影响实验的准确性,因此必须仔细区分兴趣因子和其他可能的混淆因子。此外,要避免在实验过程中崩溃的重复,确保实验的完整性并区分实际的重复单位。
关键观点5: 鼓励研究人员优化实验设计。
作者鼓励研究人员在作为经验主义者、导师、评审员和编辑时认真思考实验设计,包括其效率、成本效益、推理能力和普遍性。此外,作者建议未来的讨论应集中在改进实验设计的更积极方面。
正文
好的实验设计非常重要。生态学实验设计尤其需要关注尺度和重复性问题。本公众号之前有过不少介绍,在此不再赘述。近期看到另外一篇文章,对尺度和重复性的逻辑再次进行了细致探讨,并结合了实际案例进行说明,读来很有启发。鉴于私人化地认为本篇文章很有借鉴意义,做了全文翻译。为节约时间,翻译为
AI辅助+
人工校核。
仅供科研学习参考、非文学性翻译,勿杠。
https://onlinelibrary.wiley.com/doi/full/10.1111/ele.14400
好的实验设计是经验生物学的基本组分。没有好的实验设计,我们试图做出的因果推断就缺乏强有力的支撑。虽然实验设计在大多数生物统计课程中都有提及,但依个人经验来看,各个职业阶段的研究人员都在努力应对实验设计的一个关键特点:重复(
replication
)。
我在不同的期刊担任高级编辑已有十多年,我所看到的少数一致性是实验设计具有较低的推理能力。事实上,我拒绝了相当比例(超过
20%
)的稿件
——
因为它们的实验设计不充分(
inadequate
)
。我并非把
“
不充分
”
一词作为贬义词,只是为了更准确地表示实验设计无法支持结果或推论。通常,设计问题是由于在适当尺度上缺乏重复(后文会详细说明)。我认为需要更多地讨论实验设计
——
本文目标就是引发这样的讨论。
在此,我将概述我所认为的实验设计的基本原则,并提供这些原则在生态学和演化中的具体应用示例。我将重点介绍一些包含我认为的
“不充分”实验设计的案例。请注意,这些案例并不代表我作为编辑处理过的具体案例;相反,我选择了覆盖许多不同研究、多次出现的假设示例。
在涵盖实验设计的基本要素时,我将避免讨论具体的统计方法,尽管我相信好的实验设计和清晰的分析规划是密不可分的。统计学的最佳实践变化如此之快,以至于我可能会专注于很快就会过时的方法,而好的实验设计是永恒的。
一个好的实验设计必须至少具备两个属性:(
1
)在适当的生物学尺度上进行重复;(
2
)避免混杂因子,使其影响可以与其他因子分离开来。
这些属性知易行难。下面将具体展开。
在适当的尺度上进行重复(
Replication at the appropriate
scale
)
当我们提出一个生物学问题时,
我们实际是在询问一个模式是否有意义,或者差异是否大于基线变异(
baseline variation
)。
我们需要进行重复,以辨别我们的因子是否解释了比独立于该因子的变异更多的变异。问题在于,我们可以使用许多组织层次来获得对于基线变异的理解
——
这就是事情变得困难的地方。
基线变异估计必须来自与目标因子相同的尺度上的重复。
其他尺度的重复可以存在,甚至是可取的,但关键的重复水平是我们应用目标因子的确切尺度。举一个非常简单的例子,想象研究植物叶片上的昆虫群落以及营养增加如何影响这些群落。接收营养物质或对照物质的是“个体植物”
——
目标因子应用的尺度是
“
个体植物
”
,因此我们必须在该尺度上进行重复。从处理的单个植物和对照的单个植物中取几片叶子,并将其视为重复显然是不合适的。因为在这样的情况下,我们将使用“植物内部(
within plants
)”存在的基线变异水平来检查处理导致“植物之间(
between plants
)”的差异是否显著
——
这是比较的变异尺度不匹配的一个明确例子。
同样,假设我们对污染物如何影响鱼类代谢速率感兴趣。我们将“个体鱼”暴露于污染物或对照物质,然后测量它们的代谢速率。显然,仅对暴露于污染物的单个鱼和对照的单个鱼进行多次测量是不合适的
——
时间上的变异无法提供个体间的基线变异估计,而后者是我们的比较尺度。这些是大多数人会觉得微不足道的非常明显的例子。然而,建立一些我们都能同意的关键原则很重要,以便我们可以在更复杂的场景中应用这些相同的原则。
生物学和实验的尺度(
Scales of biology and experiments
)
在许多情况下,在我们寻求推论的水平上应用处理是不切实际或效率低下的。在我们的植物案例中,独立培养
/
放置每株植物可能成本过高,或无法防止添加到土壤中的营养物质渗透到相邻植物。尽管我们对“个体植物”感兴趣,但我们不得不在包含多株植物的地块尺度上应用处理。因为是在“地块尺度”上应用因子,所以需要一个估计“地块间”变异的基线
——
植物不是重复单位。即使在每个地块内测量个体植物的响应变量,我们也会取每个地块的均值(或使用统计嵌套)作为真实重复水平。
同样,我们可能将水溶性污染物应用于一个含有五只蜗牛的水箱中:处理应用于水箱,因此重复水平是水箱。个体蜗牛是有用的子样本,但不是重复样本(图
1
)。更普遍地,生物学尺度和处理应用尺度之间的不匹配可能会意外地产生不适当的实验设计。如果你的兴趣在于个体,但你在更高的尺度上应用处理,那么应该在该尺度(更高的尺度)上进行重复。
当研究兴趣在更高的组织层次(如种群或物种)而不是个体时,研究人员常常会混淆重复的尺度。想象一项海洋酸化是否会改变蜗牛壳的研究
——
在酸性条件下生长的个体是否比在正常
pH
下生长的个体更健壮(图
2
)。作为生物学家,我们意识到,长期暴露于环境压力可能会在种群中产生演化反应,这是短期暴露无法预测的。因此,我们可能会使用自然发生的
CO
2
渗漏或上涌区域作为低
pH
的驱动因素;使用种群间的差异来进行推论。我们的处理(较低的
pH
)在种群水平上应用;因此,需要多个低
pH
种群和多个正常
pH
种群
——
否则,我们将使用不适当的变异水平(个体间变异)来比较种群间的差异。类似的问题在比较分析的背景下也被提出过。
混淆适当的重复尺度可能导致研究人员辛苦测量许多较低尺度的子样本,但在适当的尺度上只有一个重复
——
换句话说,
没有重复
。在此情况下,研究人员实际上是在根据硬币的正反面得出推论:五五开的机会。没有两个种群会完全相同,所以一个种群必然与另一种群有所不同(无论多么微小)
——
这种差异可能是由于我们的目标因子引起的,也可能不是,但我们无从得知,因为我们缺乏适当的比较对象。使用个体间变异来评估种群间差异是否更小,可能会发现统计显著性,但这样的分析并没有回答关于因果效应的问题。
这是一个必须指出的重要细节。进行一个包含两个种群的实验并对这些种群进行统计比较是完全有效的
——
从中我们可以推断出两个种群是不同的。但要推断种群特征的某个具体差异驱动了这种差别是无效的
——
我们需要在具有焦点特征差异的种群中进行重复才能得出这一推论。我有时听到被拒稿的作者说,因为他们发现的差异与之前的预期相符,所以在适当尺度上缺乏重复是无关紧要的。实际上,种群间差异是否符合或违背预期是没有意义的,因为没有对适当尺度上的基线变异进行真实估计。
使用语法来识别重复尺度(
Using grammar to identify scales of
replication
)
如何避免错误识别重复尺度?一个好的经验法则是使用研究描述的语法作为如何重复的线索。对于任何实验,我们通常使用形容词来修饰兴趣因子(温度、纬度和捕食)前面的名词(种群、物种、基因型和个体)。在这些情况下,形容词标识处理,名词标识处理应用的尺度,因此是必须重复的尺度。例如,如果你创建三个温暖围栏和三个凉爽围栏来研究温度对食草行为的影响,那么“温暖”和“凉爽”是形容词,“围栏”是处理应用的尺度,因此是必须重复的尺度。
恒温室的特殊问题(
The special problem of constant
temperature chambers
)
一系列研究使用恒温室来操控温度,却将室内的个体视为重复样本。通常,这些研究在处理应用的尺度(恒温室)上没有重复,因此没有生成适当的基线变异进行比较。人们可能会争辩说温度效应很强,所以我们可以忽略恒温室效应。但任何一个实验中恒温室效应相对于温度效应的强度是未知的。我怀疑在相同温度下,不同室内生长的生物体有显著的表型差异,但这需要检测。
(退一步说)即使我们接受恒温室效应小于温度效应,我们的目标是尽量减少噪音,尽量精确估计温度效应
——
最好是恒温室效应只会增加数据的噪音,减小我们的效应大小。虽然我们可能对温度效应的方向有很强(且通常正确)的预期,但我们对恒温室效应完全未知。每个恒温室都有其自身的特性,因此我们无法分配“平均”恒温室效应的强度或方向来校正这些效应。通过将温度与恒温室混淆,我们得到的是温度效应的不太精确的估计。
重要的是,要意识到,恒温室成本高,资源有限
——
那么我们该如何开展工作呢?幸运的是,还有选择。假设研究人员只有两个恒温室,多次重复实验并在实验运行期间交换温度可以分离恒温室效应和温度效应。
另一个有限数量恒温室的解决方案是在室内操控温度。在一个恒温室内应用多个温度,可以打破处理因素与应用尺度的混淆。实际上,加热比冷却更容易
/
更便宜,因此可以将恒温室设置在感兴趣的最低温度,然后使用加热设备在子室内创建更高的温度条件,以在一个恒温室内实现多种温度处理。为了避免混淆,每个围栏都应包含加热设备,但在环境(较冷)处理中的子室内应关闭加热设备。
有限数量恒温室的第三个解决方案是将温度视为连续变量。如果我们有至少三个恒温室,我们可以将温度视为连续变量(有时称为“梯度”方法),并检查温度与感兴趣的响应变量之间的线性关系。请注意,这种方法有重要的注意事项:(
i
)正确分析时,这种方法在统计上与任何其他回归方法相同,其中
n =
恒温室的数量;(
ii
)除非有多于三个恒温室,否则我不会拟合任何模型,除非是线性模型。
为什么我不喜欢使用“伪重复”一词(
Why I prefer not to use the term ‘Pseudoreplicates’
)
我讨论的问题涉及到如何在生物学中进行重复的长期讨论。这些讨论颇具争议性,不再赘述。然而,我必须要提一下术语
——Hurlbert
主张我们应该识别真正的重复样本和伪重复样本,以区分测量的尺度
——
伪重复发生在重复测量不具有统计独立性时。在我前面描述的框架中,伪重复是在因子应用的生物学组织层次下发生的重复样本。例如,在图
1a
中,水箱内的蜗牛被视为“伪重复”,而图
1c
中的水箱是“真正的”重复样本。我担忧的是,在伪重复框架下,图
1c
中的蜗牛也会被称为伪重复,因为它们不是彼此独立的。相反,我更愿意将这些蜗牛视为增加我们估计精度的有用样本。更普遍地说,我更愿意将因子以下的样本称为“子样本”而不是伪重复,主要是因为“伪重复”一词暗示这些样本没有价值。相反,我认为在某些情况下,在多个尺度上进行重复是有价值的,并且在某些情况下,子样本是可取的(我将在下面探讨这些情况)。
我个人也不喜欢用于识别伪重复的知识框架
——
这一框架往往强调重复样本的“独立性”。当然,
重复样本应该尽可能互不影响,但客观确定独立性的起点和终点可能很困难
(例如,我们如何确切知道一个水箱内的蜗牛对另一个水箱内的蜗牛的表型完全没有影响?)。我们常常必须运用生物学家的直觉或最好的猜测,了解生物体如何感知世界并受到影响,以及独立性可能如何维持的机制。尝试在大多数事物处于依赖性连续体上的情况下对独立性进行分类是有风险的。其他人已经讨论了这些问题,我建议读者阅读这些论文。相反,目标应该是获得适当尺度上、在没有兴趣因子的情况下发生的变异估计。
何时在多个尺度上进行重复(
When to replicate at multiple
scales
)
多层次设计(
Multilevel designs
)
在某些情况下,在多个生物组织层次上探索兴趣因子是必要的或更有效的。例如,考虑一项土壤类型和食草作用影响草类次生代谢物含量的研究。与其人为操控土壤类型(这可能困难或不现实),不如利用不同位点之间的自然土壤类型变化。
“
位点
”
是检查土壤类型效应的重复单位,但从整个位点排除食草是不切实际的。相反,我们可以在每个位点内的个体植物周围建造较小的笼子(和笼子控制)
——
因此,“植物”是食草处理的重复单位。只要在每种土壤类型的重复位点之间存在较低尺度处理(食草排除)的重复,多层次(有时称为“部分嵌套”或“分区设计”)分析就可以轻松处理这种设计。因此,使用实验描述语法识别重复尺度的经验法则仍然有效
——
我们有不同土壤类型的位点和不同食草处理的植物,因此位点和植物都是各自处理的重复。
另一种越来越常见的多层次设计示例是跨代实验,其中父母暴露于一种环境或另一种环境,而其后代暴露于所有可能的环境。在此情况下,父母是父母处理的重复单位,而后代通常是后代处理的重复单位(图
3
)。后代重复样本还具有增加父母处理估计精度的额外作用。请注意,图
3a
说明了一个非常熟悉的问题:完全缺乏重复的设计仍然可能需要大量工作。
多层次设计的好处之一是让我们效率最大化
——
仅在必要的尺度上进行重复
——
并避免更昂贵或不可行的设计。然而,值得注意的是,不同层次的因子之间的相互作用与在同一级别应用的因子之间的相互作用不同,不应将其解释为相同。例如,位点级别的土壤效应与植物级别的食草排除之间的相互作用,与在整个位点级别排除食草时可能发生的相互作用不同。
鉴于生物学大多是尺度依赖的,从一个尺度的相互作用推断到其他尺度的相互作用时,我们应该谨慎。
生物学现实或必要性(
Biological realism or necessity
)
有时,系统的生物学要求在应用因子的尺度下包括多个单位。例如,想象你对不同浮游植物物种如何影响桡足类的繁殖时间感兴趣。对于此实验,桡足类将被置于含有浮游植物物种
A
或
B
的容器中,因此容器是这里的重复单位。然而,可能需要在每个容器中包括几个个体,以便它们可以开始繁殖以进行实验——即使这些个体不在需要重复的尺度上。同样,我们可能对同种密度如何影响生长感兴趣:多个同种个体将被置于一个处理的地块中,而单个个体将被置于另一个处理的地块中。在这个例子中,为了创建处理本身,我们必须包含多个个体,但地块显然是应用处理的尺度,因此是适当的基线变异和重复尺度。
为了提高精度和最大化统计效能的子样本(
Subsampling for improved precision
and maximizing power
)
在前述案例中,因子应用尺度以下的重复是出于实用性或必要性的让步。然而,许多时候,
在较低水平上的重复本身也有其优点:提高响应变量估计的精度。
一些生物学性状或响应易于通过单一测量捕获。例如,测量一个藤壶的最大宽度相对简单,测量误差微不足道。在测量的几分钟内,藤壶不会有可检测的生长,所以在测量窗口内,该响应变量没有个体内变异。然而,测量藤壶的代谢速率要复杂得多
——
代谢速率估计会有更多的测量误差,并会显示个体在任一时间点的真实时间变异。因此,使用单个个体的代谢速率单一测量可能会夸大我们估计的处理内的变异量(误差、个体内和个体间变异都会对估计产生贡献)。想象一个场景,当我们探寻在垂直定殖板上生长的藤壶的代谢速率是否不同于在水平定殖板上生长的藤壶
——
显然,定殖板是应用处理的尺度,因此定殖板是适当的重复单位。然而,鉴于代谢速率是一个受个体内和个体间变异以及并非微不足道的测量误差影响的噪声特征,我们可能会受益于子样本
——
测量每个定殖板上多个个体的代谢速率,并多次测量同一个体。此时,子样本会大大增加你的估计精度,产生更好的重复间变异估计,减少测量误差和个体内变异的贡献。因此,你的分析效能可能会提高。
我经常使用子样本来增加我的实验中的精度,但这需要额外的努力。决定是否使用子样本的关键因素是样本内变异的程度(由于测量误差或真实的样本内变异)
——
如果变异性高,子样本可能是有益的。但如果子样本的成本或时间消耗非常高,以至于你必须在子样本数量和重复数量之间进行权衡,那么子样本是有害的
——
相反,你的努力应全部用于最大化适当尺度上的重复。然而,在实践中,相对较低的子样本成本或时间消耗通常相对于适当尺度上的重复更少。在上述例子中,设置不同处理的水族箱可能很费力,但增加一些额外的蜗牛可能是微不足道的;分析可能会受益于在每个水族箱内测量多个蜗牛(同时确保水族箱的重复)。基本上,当子样本成本相对较低且样本内变异可能性高时,子样本可能是值得的。在所有其他情况下,在较低尺度上进行重复要么效率低下,要么毫无意义。
在更高尺度上进行重复(
Replicating at higher scales
)
为了完整性,我还应提到在兴趣因子的尺度以上进行重复也是可能的。在这种尺度上进行重复可以在时间或空间上提供普遍性,并可以提供关于兴趣因子如何在这些尺度上变化的正式测试。例如,在
10
个位点重复捕食者排除实验,可以帮助探寻是否存在位点与捕食者的相互作用,换言之,捕食效果在空间上是否一致?但是如果你对为什么不同位点的捕食者效应不同这一问题感兴趣
——
你需要在有和没有你的假定因子的位置进行重复。
分离的因子和混淆(
Disentangled factors and confounding
)
生态和演化研究大多涉及多个兴趣因子或一个兴趣因子和其他实验因子,这些因子可能不是兴趣因子,但将其包含进来可以减少未解释的变异。例如,一项关于制药副产品对蝌蚪代谢速率影响的研究,其分析可能还包括蝌蚪的体型数据,因为体型对代谢速率有很强影响。每当我们有超过一个因子变化时,我们就有可能引入模糊效应,使得难以或不可能区分一个因子相对于另一个因子的影响。下面,我将探讨一些常见问题及如何避免它们。
创建更敏感的分析或检查一个因子的效应如何随另一因子的值变化时,纳入协变量是有用的方法,但这些方法有其易被忽略的局限性。在检查制药副产品对代谢速率的影响时,纳入体型是使用协变量增强分析能力的一个好例子。但,假设制药副产品影响了蝌蚪的生长速率:对照组比暴露于制药副产品的蝌蚪生长得快得多,以至于在测量代谢速率时,对照组蝌蚪比处理组蝌蚪大,没有重叠的体型范围(图