在国自然项目和文章中,为了证明基因
A
对基因
B
的调控,我们一般都会分析一下基因
A
与基因
B
之间的表达相关性,
如果结果显示基因
A
与基因
B
之间存在显著强相关性(
P<0.05
,一般相关系数的绝对值需要大于
0.3
),这个相关性的数据可以作为
A
调控
B
表达的一个支持性证据:
当然,基于
A
调控
B
表达的假说,也可以一开始从数据分析进行筛选,而相关性分析一般也是其中一个筛选的指标,
然后基于相关性就可以初步筛选可能调控基因
B
的候选基因
A
了。
当然,在后续实验验证(比如把
A
沉默、过表达、抑制或者激活后检测基因
B
的表达)的时候就会出现题目中的问题:
虽然基因
A
与基因
B
表达上呈现强相关,但是怎么都验证不出来基因
A
对基因
B
的调控关系。
我们假定实验结果没有问题,即基因
A
沉默后确实没有影响基因
B
表达,然后简单分析一下可能的原因。第一个原因相信大家都能想到:
基因
A
在基因
B
的下游,而非上游
。这个比较好验证,反过来干预基因
B
以后看看基因
A
表达就可以了。
我们主要说一下其它影响基因表达相关性的一个重要原因:
基因
A
与基因
B
可能被共同的调控因子
C
所影响
,即转录因子
TF
同时调控了基因
A
与基因
B
的转录,
特别是很多在功能上成簇的基因,以及在染色质位置上很近的基因:
比如,一开始我们看到的图中的
补体基因及其受体(
C1QA/C1S/C1R/C3
)之间总体相关性都是比较高的
:
这样的例子还很常见于
细胞因子之间,我们可以留意一下像
IL6
、
IL1
β、
TNF
、
Caspase1
等这些功能上经常“狼狈为奸”的基因表达经常呈较强的正相关性
,比如下面这个数据集中
IL6
—
IL1
β
Spearman
系数
=0.48
,
IL6
—
IL10 Spearman
系数
=0.47
:
当然,
这些基因之间还是可能存在调控关系的
,不过我们也可以对照看一下经典的调控
IL6
、
IL1
β的转录因子与这些基因的相关性,其实我们看到
STAT3
与
IL6
的相关性并不高(只有
0.32
),而
STAT1