首先对于疾病的发生、发展、诊疗、预后都是需要找到一些biomarker 或者构建一些signature 的,不管是生物标志物,还是分子生物标志物。爆火的明星因子构建模型做诊断和预后,然后加上实验验证就能发文章,就是很好的佐证。
但是这个思路有一个大的bug,组织中表达很好的基因,血液中不一定能检测到,因为存在组织特异性。所以说最好是直接能用血液中的表征,这样也很容易上临床。不然出现一个好的标志物,非得用临床组织,那么应用场景就太过于有限了。
Ref:An Immune-Related Gene Prognostic Index for Head and Neck Squamous Cell Carcinoma
人体是一个整体的系统,按道理来说血液是能很好的表征疾病部分的情况的,比如医院常做的血常规。但是血液并不存在唯一指向性,它涉及全身的疾病,你就很难锁定就是某个疾病导致的,往往需要结合其他的检查手段一起佐证。请注意这句话哈,后面有用。怎么抵消非唯一指向性呢,大佬一般都采用大队列,多中心的方式,比较简单粗暴真实有效。因为数据多了,就能把偏差过滤掉。
如果我们团队数据少,或者研究的疾病没有办法建立大队列,怎么办。难道就没有比较稳定的指标吗,比如检测血液中的某个指标,但是它跟组织中的某个病关联性超强那种。
先卖个关子,给大家介绍下2年前多模态火的原因,是因为单独依靠血液中表达情况,很难进行有效的鉴定,同时也担心数据的偏好性,所以需要叠加其他的组学信息一起完成诊疗,比如影像组、病理组、血常规、临床随访信息等。这些信息都是可以通过医院现有的检测手段可以完成的,可以满足很多的应用场景,那段时间文章也发的很多。
Ref:PET/CT based cross-modal deep learning signature to predict occult nodal metastasis in lung cancer
但是有很多疾病单纯依靠血液中基因的表达是不行的,它可能更多的跟表观修饰相关,甲基化、m6A、组蛋白修饰、染色质可及性,比如精神类疾病,比如心血管疾病。再比如肠道微生物对于肿瘤免疫治疗效果影响很大,比如肠脑轴的影响等。问题有点复杂了,感觉这些检测手段叠加在一起,费用估计得相当贵,还同时面对组织特性表达的问题。
这次多模态的爆火,离不开孟德尔随机化的火爆,虽然现在很多水刊都两眼一闭的把MR往外推,那是因为他们不懂眼。MR解决的是通过表型对应的共享SNP建立表型和表型之间的因果关系,比如吸烟和肺癌,侧重临床视角。但是它隐含的底层逻辑中如果表型直接确定有因果关系的话,就能知道他们直接或者间接存在共享SNP。基于这种方式最近北大发表的精神类疾病基于已有的组织的m6A-qtl 就能构建疾病相关的m6A-qtl ,文章10+。
Ref:Integration of multi-omics summary data reveals the role of N6- methyladenosine in neuropsychiatric disorders
我们继续把脑洞放大,刚才提到的问题是“单独依靠血液中表达情况,很难进行有效的鉴定,同时也担心数据的偏好性”,能不能通过SNP来表征呢。SNP 不是说血液可以检测,口水中都有,这个作为检测指标太好了。如果我们想利用SNP来表征某个组织中基因的表达情况,就要找到对应的QTL的数据,比如m6A-qtl,比如表达的eQTL等。GTEx中有40多个组织的表观修饰和表达信息,通过叠加疾病的GWAS,就能得到疾病中基因表达的qtl数据。研究就成了闭环。
孟德尔随机成为了一个步骤,帮我们解决了一个很大的难题。
在人人喊打的今天,感谢孟德尔随机化。
为了解决利用血液数据进行有效的检测,我们一路上引入了多模态,然后还利用MR将组织特异性的表达利用SNP表征。接下来脑洞再大一些,是不是什么表达、甲基化、m6A、组蛋白修饰、微生物、蛋白修饰等等哪些不好检测的,检测贵的。都可以利用SNP来表征。所以这才是多模态翻新爆火的原因。
全新升级版多模态疾病诊断模型
数据有限,先到先得