大麦
(
Hordeum vulgare
)
是一种广泛适应全球不同生态环境的谷物作物,在饲料、酿造和食品行业中均具有重要地位。作为二倍体作物,大麦具有较高的遗传稳定性,长期来被用作研究小麦族复杂基因组作物
(如六倍体、四倍体和二倍体小麦、杂交黑麦和合成小黑麦)
遗传调控的模式物种。近年来,基于多个基因型的染色体水平基因组组装,研究人员已解析了大麦基因组的遗传变异类型、规模及其对驯化、适应性和表型多样性的影响。
然而,迄今的转录组研究主要依赖于单一参考基因组
(cv. Morex)
,这显然制约了不同基因型转录特异性的解析,如导致基因型特异性信息丢失、转录本组装偏倚以及对可变剪切
(alternative splicing)
等关键转录调控过程的解析受限等。
为解决这些问题,英国詹姆斯·赫顿研究所
(James Hutton Institute)
Robbie Waugh
教授领衔,
张润烜
博士、
过文彬
博士团队联合包括澳大利亚默多克大学
李承道
教授团队、浙江大学
张国平
教授团队等多家国际研究机构,在
Nature Genetics
发表了题为
A barley pan-transcriptome reveals layers of genotype-dependent transcriptional complexity
的研究论文。该研究创新性地提出多基因型参考基因组的泛转录组策略,结合二代测序
(Illumina RNA-seq)
和三代测序
(PacBio Iso-seq)
,全面解析大麦基因型特异的转录调控网络,突破了传统单一参考基因组的局限,为禾本科作物基因功能解析、环境适应性研究和精准育种提供了新颖的研究方法和重要的数据资源。
创新泛转录组方法,揭示大麦转录特异性
1、突破单一参考基因组局限,构建高质量大麦泛转录组
该研究提出了从基因型特异性转录组
(Genotype-specific Reference Transcript Dataset, GsRTD)
到大麦多基因型泛转录组
(Pan-Barley Reference Transcript Dataset, PanBaRT20)
的整合策略,以解决单一参考基因组的局限性。研究团队利用最新的大麦泛基因组数据
(Jayakodi et al., 2024, Nature, DOI:10.1038/s41586-024-08187-1)
,针对每个基因型均采用其对应的参考基因组进行比对和转录组组装,从而避免单一基因组参考导致的信息丢失。通过结合二代测序的高通量、精准定量特性与三代测序的全长转录本解析能力,团队采用多类型数据的转录组组装策略,并结合十余种转录本质控模型,剔除低质量和错误组装的转录本,确保组装结果的可靠性。进而优化基因结构注释,显著提升了剪切异构体
(transcript isoform)
的识别率,提高了对复杂基因调控和转录多样性的解析能力。研究最终整合了20个大麦基因型的高质量转录本,构建了高质量和综合性的大麦泛转录组数据库
(PanBaRT20)
,共鉴定到79,600个基因和582,000个转录本。
2、全面分析三类基因的表达特点与作用,系统解析大麦基因型控制的转录多样性
该
研究基于20个大麦基因型的泛转录组数据
(PanBaRT20)
,按照基因和转录本在不同基因型中的表达频率,将其划分为核心基因
(Core)
、壳基因
(Shell)
和云基因
(Cloud)
,系统揭示大麦基因型控制的转录多样性及其生物学意义
(图1)
。核心基因在所有基因型中表达,主要参与DNA复制、核糖体生成、细胞代谢和转录调控等基本生命活动。这些基因在进化过程中高度保守,维持物种的生理功能和生长发育。此外,3,700个多拷贝核心基因可能在基因组结构变异中发挥冗余或调控作用。壳基因在部分基因型中表达,其表达受基因拷贝数变异
(CNV)
、基因组结构变异
(SV)
和转录因子调控影响,主要参与环境适应、次生代谢、病害防御和生长发育等过程,为育种提供关键基因资源。云基因仅在单个基因型中表达,通常与抗旱、抗寒、抗病及次生代谢相关,可能通过基因组重排、新基因产生或突变形成,并受环境选择和人工育种影响。云基因在耐逆性品种选育、精准育种和基因编辑方面具有重要应用价值。
图1:转录本多样性和分类
3、泛转录组提升基因表达解析精度,揭示基因型特异性调控模式
该
研究表明,泛转录组
(PanBaRT20)
相比单一参考基因组,显著提升RNA测序的定量准确性,降低基因型差异引起的表达偏倚,并优化基因注释。基于PanBaRT20的表达分析,其测序数据比对映射率
(mapping rate)
达87.3%,比通用转录组BaRTv2提高11.1%,能够更全面地捕获基因型特异的转录本,为RNA测序分析提供更可靠的参考
(图1d)
。与基因型特异性GsRTD相比,PanBaRT20包含的剪切异构体数量均值从3.5个/基因增至7.3个/基因,进一步证明其在解析转录本多样性方面的优势。此外,研究发现7H染色体141 Mb的大规模倒位显著影响了关键农艺性状相关基因的表达,包括淀粉合成、蛋白质含量和α-淀粉酶活性。该倒位在现代育种材料中频率增加,表明其可能受到人工选择的驱动
(图2)
。进一步分析表明,转录因子结合位点
(TFBS)
变异在基因表达稳定性中发挥着关键作用。低变异系数
(CV < 0.4)
的基因在TFBS变异与表达一致性之间具有较高相关性,而高CV基因更易受到远端调控元件的影响。
图2:转录本丰度变化的驱动因素。
4、解析核心基因共表达网络,揭示大麦基因型特异性调控与功能分化
该
研究利用加权基因共表达网络分析,系统解析了20个大麦基因型中单拷贝核心基因的表达变异,构建了738个基因型特异性共表达模块,并进一步聚类为六大功能群落
(C1–C6;图3)
。其中,C4、C5、C6的基因主要涉及光合作用、养分吸收和碳水化合物代谢,揭示了不同基因型在生物学过程中具有各种微调机制。核心直系同源基因在群落内具有较高的表达相关性
(r = 0.895)
,而跨群落相关性较低
(r = 0.702)
,表明核心基因表达虽具保守性,但仍存在基因型特异的调控分化。此外,部分转录因子
(如MADS-box家族)
在不同基因型间呈现不同的共表达模式,而在Golden Promise的辐射诱导突变体中,57个核心直系同源基因具有独特的群落特异性,其中28个与叶绿体发育相关,表明多数基因突变可能影响光合途径和生长发育。
图3:比较基因表达和基因网络分析。
5、构建Morex基因表达图谱,揭示大麦基因表达动态与育种潜力
该
研究通过构建Morex基因表达图谱
(MorexGeneAtlas)
,并结合大麦泛转录组
(PanBaRT20)
,分析了20个大麦基因型在不同组织、发育阶段和环境刺激下的基因表达差异
(图4)
。结果显示,组织和器官是转录变异的主要驱动因素,而环境处理对基因表达的影响较小。研究还揭示,PanBaRT20与MorexGeneAtlas的差异表达基因
(DEG)
有较高的重叠性
(93.2%)
,但对于特定组织或处理条件,重叠度有所降低。此外,深入研究了赤霉素2-氧化酶
(GA2ox)
基因家族的表达模式,发现GA2ox基因在不同基因型和环境条件下的表达存在显著差异,且育种研究证明GA2ox基因对产量、千粒重和淀粉含量等农艺性状有关键作用。