随着我国经济的持续发展和社会的快速进步,消费者对于小麦加工成面食品的外观、口感等综合表现提出了越来越高的要求,我国对优质专用小麦的需求量也日益增加,因此提高加工品质已经成为小麦育种的重要目标之一。目前小麦品质育种改良面临诸多挑战,例如品质性状鉴定需要专业仪器,种子用量大、耗时长;品质性状的表型鉴定通常在育种较高世代进行,育种效率较低;目前育种过程中利用的加工品质关键基因数目较少。因此,小麦加工品质关键基因挖掘的基础上,并通过基因型预测表型,可以有效解决品质表型鉴定的难题,对于优质小麦新品种的精准分子设计、提高育种选择效率具有重要意义。
面筋蛋白主要由籽粒储藏蛋白(SSP)中的醇溶蛋白和谷蛋白构成的,是小麦加工品质的重要决定因素。随着分子标记辅助选择体系在小麦品质改良中的应用,育种家利用1Dx5+1Dy10高分子量谷蛋白可以显著提升小麦面包加工品质。然而,对于籽粒中其他储藏蛋白对加工品质的贡献及其在育种中的利用还非常有限。由于小麦籽粒储藏蛋白编码基因序列重复性高、拷贝数多、品种间结构变异复杂,在已组装的小麦基因组中常存在缺口,因而缺乏对其优异等位基因的清晰解析,大大限制了其在育种上的应用。因此,亟需建立在泛基因组水平对小麦籽粒储藏蛋白基因精确分型的方法,通过高通量优异等位变异的挖掘和鉴定,助力小麦加工品质育种改良。
2024年5月24日,中国农业大学农学院小麦研究中心在
Molecular Plant
上发表了题为“
A k-mer-based pangenome approach for cataloging seed-storage-protein genes in wheat to facilitate genotype-to-phenotype prediction and improvement of end-use quality
”的研究论文。该研究提出了基于基因特异短核苷酸序列(k-mer)算法,开发了一个Pan-SSP k-mer(PanSK)分析流程,在泛基因组水平实现小麦籽粒储藏蛋白(
SSP
)基因精准分型;利用PanSK首次构建了小麦
SSP
基因泛基因组图谱,挖掘了与加工品质密切相关的
SSP
基因及优异等位变异;结合群体测序数据,准确鉴定了小麦主栽品种中
SSP
基因的变异信息,解析了
SSP
基因及其优势单倍型在地方品种、现代育成品种中的分布和育种利用规律;构建了利用
SSP
基因分型的机器学习模型,能够有效预测小麦的品质性状,显著提高了小麦品质育种的效率和准确性。这些结果不仅为小麦加工品质改良提供了重要基因资源,也为优质小麦新品种分子设计提供了强有力的工具。
https://doi.org/10.1016/j.molp.2024.05.006
该研究设计了基于基因特异k-mer在泛基因组水平对小麦
SSP
基因进行分型的计算策略(PanSK)
(图1A)。通过整合基因组组装、已发表的SSP序列信息和ISO-seq数据,在小麦泛基因水平确定了139个
SSP
基因集合,并获得了
SSP
基因的特异k-mer序列。PanSK可应用于
SSP
基因的组装,有效解决了参考基因组中
SSP
基因组装质量低、存在大量缺口的问题。PanSK仅需要4×测序深度的重测序数据就能高精度地识别小麦不同品种
SSP
基因存在/缺失变异和核苷酸多态性,这为高效挖掘加工品质优异
SSP
基因提供了重要的技术基础。
利用PanSK绘制了小麦
SSP
基因的泛基因组图谱
。通过分析365份不同来源的小麦种质资源重测序数据,明确了各个小麦品种中的
SSP
基因的组成、存在/缺失变异(PAV)以及核苷酸多态性,从而建立了详尽的SSP泛基因组图谱(图2A)。研究发现,不同品种
SSP
基因的数目存在显著变异(图2B),其中地方品种显示丰富的
SSP
变异,但每个材料的拷贝数较少;现代育成品种中
SSP
变异少但拷贝数增加(图2C)。这表明在育种选择过程中,
SSP
基因的拷贝数具有较高的可塑性,可能对小麦的加工品质有重要影响。
基于k-mer的关联分析挖掘了小麦加工品质相关的SSP优异等位变异
。鉴定了23个与加工品质密切相关的
SSP
基因及31个优良的等位变异(图2D)。编码醇溶蛋白的
Gli-γ-1B-3
基因在自然群体中存在3种等位变异分别为
Gli-γ-1B-3h1
,
Gli-γ-1B-3h2
和
Gli-γ-1B-3h3
,与
Gli-γ-1B-3h1
相比,
Gli-γ-1B-3h2/3
都在起始密码子下游277 bp对处发生了C到T序列改变,导致氨基酸序列提前终止(图2E),该基因功能丧失有助于改善小麦的加工品质(图2F)。这一结果为小麦加工品质改良提供了重要的基因资源,也显示了利用基因型与表型关联分析来发掘小麦品质改良潜力的有效性。
建立了基于k-mer对小麦加工品质表型预测的机器学习模型,有望提升小麦品质育种效率。
利用上述与加工品质关联的k-mers,开发了利用
SSP
基因型预测加工品质表型的机器学习模型“KPPer”。通过分析小麦自然群体的数据,模型预测的表型与实际品质测定结果之间的相关系数达到0.64;将模型推广到高代稳定重组自交系(RIL)群体中也展示了优异的预测能力。
基于这些结果,该研究提出了基于
SSP
基因型预测加工品质的基因组选择育种策略。此策略利用KPPer模型筛选出携带优良
SSP
等位变异且这些优良变异互补的资源作为育种双亲;在F2分离群体中,KPPer模型可用于预测中选单株的加工品质,辅助育种家选择品质性状优异的单株,显著提升品质育种选择效率(图3)。这种整合机器学习模型与高效育种技术的方法为小麦品质育种提供了一个有效的新途径。
综上所述,该研究首次在泛基因组水平上系统分析了小麦籽粒储藏蛋白(SSP)基因的变异,成功构建了基于
SSP
基因型的基因组选择模型。利用该模型,育种家能够在育种早期阶段预测小麦的加工品质表型,从而显著提高育种效率。这一成果不仅为揭示基因型与表型之间复杂关系提供了理论基础,通过将机器学习技术与高效育种技术相结合,为优质小麦新品种的精准分子设计及品质性状的选择提供了强有力的支持。
中国农业大学农学院小麦研究中心
姚颖垠
教授和
郭伟龙
副教授为论文共同通讯作者;已毕业硕士
张召衡
(现为中科院遗传与发育生物学研究所在读博士生)和已毕业博士
刘丹
(现为天津市农业科学院农作物研究所正高级工程师/副研究员)为论文共同第一作者;中国农业大学
孙其信
院士、
倪中福
教授、
彭惠茹
教授、
辛明明
教授、
胡兆荣
教授、
刘杰
教授、
杜金昆
副研究员,中国农业科学院农作物研究所
张学勇
研究员、
郝晨阳
研究员,中国农业大学博士研究生
李彬永
、
王文熙
等参与了该研究工作。该研究得到
STI2030-重大项目(2023ZD04069)、国家自然科学基金(32125030)、拼多多-中国农业大学研究基金(PC2023A01003)和国家农业重大科技项目
(NK20220601)的资助。
孙其信
院士作为学术带头人的中国农业大学小麦研究中心长期围绕多倍体小麦广适性的遗传基础和分子机制、小麦产量性状形成、小麦品质性状遗传调控等一系列重要科学问题开展系统深入的研究。该团队在“十三五”期间共获得国家科技进步二等奖1项,国家技术发明二等奖1项,教育部高校科研优秀成果技术发明奖一等奖1项,中华农业科技奖优秀创新团队奖1项;近5年在小麦研究方向发表Nature、Nature Communications、Plant Cell、Molecular Plant等高水平研究论文50余篇。
姚颖垠
,中国农业大学教授,博士生导师,国家杰出青年基金获得者,长期从事小麦品质遗传改良研究,完成和主持自然科学基金重大研究计划、重点项目、面上项目等多个国家级项目。在Plant Cell、New Phytologist、Genome Biology、Plant Physiology等杂志上发表SCI论文40余篇;申请、获得国家发明专利40余项。