香港浸会大学吕爱平教授,张戈教授,祝海龙博士共同领导的生物信息研究组目前正在致力于应用计算机模型技术及大数据分析技术研究基因调控机理。这一团队的最新研究成果发表在Nature Communications杂志上。
人工诱导多能干细胞衍生的心肌细胞发育过程中的基因转录调控网络。(A)早期(T1-T2)网络;(B) 中期(T2-T3)网络。图中蓝色三角形表示转录因子,浅蓝色圆形表示调控逻辑,红色椭圆形表示目标基因。逻辑关系(&)表示“与”,(|)表示“或”,(¬)表示“非”。
论文的通讯作者是香港浸会大学助理教授祝海龙博士,他介绍说,转录因子是一类功能蛋白,通过结合在基因启动子区域对基因转录的开启及终止进行控制,生命体在很大程度上通过转录因子对基因表达进行精确调控,从而实现各种功能,而转录因子自身又受到其上游基因的调控,因此形成一个复杂的调控网络。
关于这项研究的特色之处,祝海龙博士指出,这项研究从经典的基因转录动力学理论出发,结合基因调控逻辑理论及基因转录过程的生物学证据,建立了一个全新的基因转录调控的模型理论及算法(LogicTRN)。该理论将转录因子-DNA结合数据与基因表达数据有机地结合在一个模型方程中。通过求解模型方程,可以推导出基因调控过程的主要调控关系及相关动力学参数,从而在转录因子与转录因子之间,及转录因子与目标基因之间建立起定量化的互动及调控关系。
LogicTRN被成功地应用于分析雌激素诱导的乳腺癌过程及人工诱导多能干细胞衍生的心肌细胞发育过程中的基因转录调控,所获得的多个调控模式在已有的实验中得到了很好的验证。这个新的模型理论将有助于准确构建基因调控网络,有望用于解析基因功能,确定生命过程或信号通路中的关键基因,从而推动标靶药物的研究与开发。
论文的另一位通讯作者吕爱平教授指出,目前科学家们正在快速积累海量的生物大数据,因此非常有必要开发有效的模型及方法,对各种生物数据进行综合利用及分析,从而帮助理解生物过程诸如器官发育,疾病发生及发展,以及衰老等複杂的生命过程的核心机制。过去,由于缺乏相关的理论模型,基因网络构建算法往往忽视转录因子-DNA结合数据与基因表达数据之间的内在联系,这种对数据的割裂使用,造成不同来源的数据之间的信息破碎及冲突,导致无法有效地构建出可靠的基因调控关系。LogicTRN是一个建基于生物学过程的模型架构,其模型参数具有生物学意义,其结论可以通过实验来验证,因此,LogicTRN的应用对于探索生物过程中的基因调控机制具有重要的启示作用。
另外一个通讯作者张戈教授说,目前疾病研究及新药开发中遇到的一个关键问题是如何确定治疗靶基因,这是药物创新的根本。但是,由于基因之间的关系异常复杂,导致在研究关键基因过程中往往顾此失彼。目前基于高通量数据的生物信息方法,固然能找到基因之间的关联关系,但通常失于准确,很难被验证,导致临床研究工作无法及时吸收与利用。相比于现有的算法,LogicTRN的长处是更加准确,而且能够定量分析,这就为临床研究人员提供一个有效的分析工具,帮助他们快速寻找复杂疾病如癌症中的关键调控路径及治疗靶基因。
论文的第一作者晏斌博士介绍说,传统上基因网络理论及算法主要着眼于建立调控因子与目标基因之间的联系。换句话说,其核心问题是如何确定一个调控因子的目标基因,或者如何确定一个目标基因的调控因子,然后将这种调控关系连接起来即可得到基因调控网络。这些算法往往基于一个共同的假设,即一个目标基因的表达是其多个调控因子的调控效果的线性叠加结果。因此,转录因子与目标基因之间的关系可以表达成一组线性方程,继而通过矩阵分解来确定。但实际上,多个转录因子在调控其共同目标基因过程中呈现出错综复杂的关系。比如,有些转录因子是独立调控其目标基因,这种情况用线性模型来描述还勉强可以。但更多情况下转录因子是通过协同或者竞争关系对目标基因进行调控,这种情况下线性模型往往无法准确描述。而LogicTRN可以确定多转录因子在调控共同基因过程中的互动关系,这特别有利于理解基因表达背后的调控机制,及确定基因表达的关键调控蛋白。
论文的共同第一作者官道刚博士说,相比于现有的基因网络算法,LogicTRN具有比较明显的优势。LogicTRN能够精细地确定基因的关键调控因子及其逻辑,根据合成的调控网络,研究者可以梳理出一个复杂过程的关键调控路径,及该路径中的关键调控因子及关键基因。
LogicTRN是一个开放的模型框架,可以同时考虑各个细胞过程,如基因变异,蛋白-DNA结合,miRNA调控,蛋白翻译,及蛋白蛋白相互作用等,对基因转录的调控及影响。随着越来越多的生物过程中的数据採集和积累,基于LogicTRN的数据分析将可增进人类对细胞中各种分子活动的认知。LogicTRN的算法及软件包可从以下网址下载:http://staffweb.hkbu.edu.hk/hlzhu/ 2017LogicTRN_codes.html。
原文标题
An integrative method to decode regulatory logics in gene transcription