发现MAGIC群体具有强大QTL定位和优异等位基因挖掘功能
植物遗传研究的重要优势是遗传群体构建的便利。传统上用于遗传作图的主要有基于连锁分析的双亲群体和基于关联分析的自然群体和多亲群体。但由于双亲群体的遗传背景狭窄,可定位的 QTL 有限,自然群体存在群体结构和低频变异等缺陷,多亲群体的关联分析检测功效低等原因,很难在单个群体中定位多个真实准确的QTL。
日前,华中农大作物遗传改良全国重点实验室、崖州湾国家实验室邢永忠教授课题组在
National Science Review
在线发表题为“Powerful QTL mapping and favorable allele mining in an all-in-one population: a case study of heading date”的研究论文。该研究构建了一个包含1021个八亲本籼粳交后代家系的MAGIC群体,结合遗传学,基因组学和转录组学方法,全面解析了MAGIC群体的遗传结构和抽穗期遗传基础,并评估了8个亲本的不同等位基因的遗传效应,为水稻品种适应性改良提供了优异等位基因。
该研究首先获得了8个亲本的高质量基因组。在八亲本间,超过44,000个基因存在功能序列差异,其中 21 个早期已克隆的抽穗期基因在八个亲本间存在功能差异。在表型准确的前提下,MAGIC群体理论上可以检测到超过80%基因的功能变异。
使用“漏斗型”成对杂交策略聚合8个亲本的基因型,并连续自交6代,以保证群体构建过程中每个亲本相同的遗传贡献。同时,从每个8-way F1的第一代自交后代中随机选择4个单株发展为最终的家系,有利于单倍型的重建。
以两年的抽穗期表型为例,基于SNP的关联分析在MAGIC群体中鉴定到25个显著信号,包括10个已克隆的抽穗期基因,远高于分别在529份和950份水稻种质资源鉴定的3和4个抽穗期基因,这表明群体结构和低频变异的缺位极大增强了MAGIC群体的QTL作图能力。
研究利用隐马尔科夫模型重建MAGIC群体的全基因组bin型,共检测到130,976次重组事件。基于bin的连锁分析鉴定到47个QTL,包括14个已克隆的抽穗期基因。遗漏的5个基因只能在日长超过14小时的连续长日照实验环境下检测到,而武汉市自然条件难以维持长时间的超长日照条件。因此,在武汉长日照自然条件下,MAGIC 群体鉴定到了所有已知能表现出功能差异的抽穗期基因,是目前检测到最多已知抽穗期基因的单一群体。除已知基因外,该研究还额外鉴定到4个可能影响抽穗期的自然变异,并利用MAGIC剩余杂合系验证了遗传效应。
截止到目前,重要基因的遗传效应大都是在双亲近等基因系群体中评估的。在具有复等位基因分离的MAGIC群体中可以非常便利地评估多种等位基因的不同遗传效应。在之前的研究中,八亲本的Ghd7分为三种功能型,ZS97等位基因为无功能型,MH63等位基因为强功能型,NIP等位基因为弱功能型。除报道外的三种功能型,该研究额外鉴定到一个AUS449等位基因存在延迟抽穗8天的次弱功能。这些具有不同遗传效应的等位基因可用于不同地区不同种植季节的水稻品种的适应性改良。
华中农大作物遗传改良全国重点实验室、生命科学技术学院王鹏飞博士和博士研究生杨莹为论文的共同第一作者,邢永忠教授为通讯作者,熊立仲教授、张建伟教授和王磊研究员为本研究提供了指导和帮助。李道杨硕士,博士研究生于志超,张波硕士和周想春博士也参与了该工作。华中农大作物遗传改良国家重点实验室生物信息平台为研究提供了支持。
近日,华中农大水土流失过程与生态调控团队在流域可溶性有机质输出的水文调控机制方面取得进展,并在
Water Research
发表了题为Chemodiversity of dissolved organic matter exports from subtropical humid catchment driven by hydrological connectivity的学术论文。
可溶性有机质是水生生态系统中最大的活性碳库之一,对全球碳循环、水环境质量和水生食物网具有重要影响。径流是可溶性有机质迁移的载体,可溶性有机质能否随径流迁移至受纳水体主要取决于径流的畅通程度,即水文连通性,而根据径流路径的不同,水文连通性分为地表和地下水文连通性。降雨过程中,地表和地下水文连通区域的延伸与收缩,改变了可溶性有机质的来源和迁移路径,致使流域可溶性有机质输出通量与组分呈现出复杂的动态变化。因此,综合考虑地表和地下水文过程,建立流域水文连通性的综合表征方法,有助于科学理解流域可溶性有机质的输出过程。
研究团队通过对流域地下水位和出口径流进行长达20个月的连续监测,明确了降雨过程流域水文连通性的时空变化特征;高频采集了398个径流样品,借助高分辨率傅里叶变换离子回旋共振质谱法,揭示了流域可溶性有机质组分、分子特征和输出模式随降雨径流的变化规律,并量化了水文连通性与可溶性有机质化学多样性及通量的非线性关系。结果表明:降雨过程流域超过一半的区域无法与溪流建立水文连通,其最大连通区域主要受控于降雨量和降雨强度。流域输出的可溶性有机质组分以木质素为主,芳香性指数和等效双键数在流量峰值期达到最大。此外,流域水文连通性与可溶性有机质输出通量存在明显的阈值关系,当水文连通强度超过0.14时,可溶性有机碳输出通量快速增加;而当水文连通强度超过0.25时,可溶性有机质组分单宁和缩合芳烃的输出达到稳定状态。成果有助于科学认知流域可溶性有机质输出的水文调控机制。
流域水文连通性对可溶性有机质输出的影响
华中农大博士研究生扈晓碟为论文的第一作者,肖海兵副教授和史志华教授为论文通讯作者。华中农大硕士研究生邓雅文、硕士研究生周晨、王剑副教授、王真教授、赵劲松副教授、黄琬雲博士后参与了研究。
在大型生物样本关联分析高效快速算法研究中取得新进展
日前,华中农大植物科学技术学院章元明教授团队在
Briefings in Bioinformatics
上发表了题为“FastBiCmrMLM: a fast and powerful compressed variance component mixed logistic model for big genomic case-control genome-wide association study”的研究论文,报道了全基因组关联分析(GWAS)方法学研究的重要进展。
该研究提出了一种多位点混合逻辑回归全模型的大型生物样本关联分析高效快速FastBiCmrMLM算法与软件,专门检测抗感二分类性状或case-control数据的性状与标记关联,是目前运行速度很快、检测功效最高和假阳性控制严格的二分类性状关联分析新工具。
GWAS是一种广泛应用于动植物、微生物和人类遗传学的基因挖掘方法。它通过检测标记与性状表型的关联,以挖掘控制复杂性状的基因,进而揭示复杂性状的遗传基础。以混合线性模型为基础的GWAS方法是在控制群体结构和遗传背景情况下高功效检测性状与标记间的关联,在过去20年得到广泛应用和发展。然而,目前的方法存在以下问题。第一,随着英国生物样本库(UK Biobank)等大型生物样本库的出现,关联群体样本量达到数十万甚至数百万,混合线性模型GWAS方法面临耗时、耗运算资源的挑战;第二,现有的大多GWAS方法通常只考虑等位基因替代效应及其遗传背景,导致估计的效应(混杂)和控制的多基因背景均不全面,且需要假定随机交配,降低检测功效与精度;最后,作物抗性性状关联分析通常采用连续型性状关联分析方法,也降低了位点检测功效与精度。
为解决上述问题,本研究创建了二分类性状的压缩方差组分混合逻辑回归全模型。该模型全面考虑了所有可能效应和遗传背景,采用章元明教授团队已建立的压缩方差组分技术(Li et al. 2022)将四个方差组分压缩为两个,显著降低了运算复杂度,结合了一系列快速算法和管理内存方法,发展了FastBiCmrMLM算法(如下图),特别地,将SNP与性状关联推进至由连锁不平衡标记构建的bin或基因单倍型与性状关联,为作物抗性性状和人类复杂疾病基因挖掘提供新工具。
FastBiCmrMLM算法的总体框架
FastBiCmrMLM新算法包含了4个模块以满足数据分析对样本容量、运算速度、节省内存和功能标记的需求。分析1000个体100万标记数据集大约需要7分钟;分析50万个体100万标记大型生物样本库规模的数据集大约需要14小时,且可检测大小为3‱、等位基因替代效应趋近于零和显性效应的位点。在模拟研究中,新算法的检测功效比现有二分类GWAS方法更高(如下图);在5×10-8的显著概率阈值下,新算法假阳性率为4.2×10-8~4.8×10-8,很好地控制了假阳性率。此外,快速高效的新算法为多组学数据分析提供新工具。为检测到更多的基因,将关联分析从SNP标记分析推进到bin或基因单倍型分析,拓展了FastBiCmrMLM-Hap模块。该模块在模拟研究中可检测到频率为1.1%的稀有位点;在实际数据分析中能检测到更多的稀有(<5%)位点,为稀有位点检测提供新思路。
Monte Carlo模拟研究中的位点检测功效
用FastBiCmrMLM新算法重新分析了WTCCC数据库(Burton et al., 2007)的7个人类复杂疾病数据集。结果表明:新算法共挖掘了29个现有方法未检测到的有多方面证据支撑的候选基因。这一结果有力地证实了新算法的有效性。在与这些候选基因关联的36个显著位点中,12个有较小的等位基因替代效应,2个只有显性效应。这说明FastBiCmrMLM取得较高功效原因在于其更全面的模型设计,弥补了现有方法检测小效应和显性效应位点的不足。II型糖尿病的关联分析与基因挖掘结果(如下图)。
二型糖尿病的显著关联位点及附近的候选基因
华中农大植物科学技术学院博士生王靖天为该论文第一作者,章元明教授为通讯作者,硕士研究生常晓宇和赵琼参与研究。R软件包已经在GitHub平台上发布。