主要观点总结
本文介绍了由王向峰教授团队撰写的关于机器学习在植物智能育种中应用的观点文章。文章介绍了机器学习在作物育种中的巨大应用前景,阐述了机器学习技术对于植物智能育种的促进作用,并提出了一个以机器学习为核心的植物智能育种生态系统。研究内容包括数据降维、特征工程、数据驱动的设计育种等方面的介绍,以及高质量数据集和样本标签的重要性。文章还介绍了生态系统的三个主要组件,并强调了模型的稳健性、可扩展性和效率的重要性。
关键观点总结
关键观点1: 研究背景介绍
文章介绍了机器学习的发展历程及其在作物育种中的应用背景,说明了随着多组学技术的飞速发展,作物育种已进入“5G”时代,机器学习在该领域具有巨大的应用前景。
关键观点2: 研究内容概述
文章详细阐述了机器学习在植物研究中的应用,包括数据降维、特征工程、数据驱动的设计育种等。同时介绍了植物研究的先验知识在作物育种中的作用以及面临的挑战,并指出了ML技术在解决这些问题方面的潜力。
关键观点3: 总结与展望
文章强调了高质量数据集和样本标签的重要性,并指出没有一种方法在所有性状和物种上都表现最优。同时提出了一个以机器学习为核心的作物智能育种生态系统,并讨论了其组成和基本功能。
关键观点4: 文章要点
本文是第一篇关于机器学习在植物智能育种中应用的综述性文章,强调了机器学习在解析复杂多基因性状和提高定位精度方面的优势,并提出了使用ML技术的一些方法和建议,旨在使作物育种更加智能和简单。
正文
Genomics, Proteomics & Bioinformatics
(GPB)
在线
发
表了
由
中国农业大学王向峰教授团队
撰写的
题
为“
Machine learning for AI breeding in plants
”的观点文章。“
要文译荐
”栏目很高兴邀请到
文章作者程前博士和王向峰教授为大家介绍该观点文章的主要内容。
目前,作物育种已进入“5G”时代,而机器学习方法在5G育种中有巨大应用前景。在这篇综述中,研究人员结合众多代表性工作,从数据降维、特征工程、数据驱动的设计育种等近十个不同方面或应用场景,阐述了机器学习技术对于植物智能育种的促进作用。最后,提出了一个以机器学习技术为核心驱动力的植物智能育种的生态系统,为未来植物育种的数字化、智能化提供参考和指导。
机器学习先驱亚瑟·塞缪尔
(Arthur Samuel)
在1959年给出了机器学习
(Machine
Learning,ML)
定义:“一门让计算机能够在未被明确编程的情况下进行学习的学科”。与依赖先验假设的统计学方法不同,ML无需人为干预来理解数据,从而大大减少了人力投入。ML领域涵盖大量算法,其中许多都支持大数据分析。随着多组学技术的飞速发展,作物育种已进入“5G”时代
(基因组、种质资源、基因、基因组育种和基因编辑)
,通过将生物学知识和组学大数据相结合,5G育种可以加速作物性状改良。ML在5G育种中有巨大应用前景,ML技术目前已在组学大数据驱动的基因挖掘、基因型到表型
(Genotype-to-Phenotype,G2P)
预测和植物表型组学等多个领域得到应用。然而,基础研究和育种实践之间仍然存在较大差距。鉴于多组学、基因型、表型和环境等数据的维度更加复杂和异质化,因此需要新的ML算法。本文提出了一些方法,为将最前沿的ML模型应用于植物研究提供了一些建议,旨在让作物育种变得更加智能和简单。
对常见农艺性状进行的全基因组关联研究
(GWAS)
已达到瓶颈,因为它们在解析复杂的多基因性状方面的能力非常有限。而在不同时空条件下的多组学分析可大大提升定位精度,可以将RNA转录本、蛋白质、代谢物等不同层级的特征数据视为分子性状
(mTraits)
,将通过视觉技术和高通量成像技术得到的信息视为图像性状
(iTraits)
。
群体规模的多组学数据集通常具有高维度、噪声大和异质性强的特点。通过数据降维和特征工程,对特征进行映射转换形成新尺度下的特征或直接对原始特征进行精简,可以有效降低特征维度或数量,有效解决特征数量远大于样本数量而导致的模型不可构建或过拟合问题。这两种策略在提供干净、易于解释的结果的同时,大大减少了计算时间并节省了资源。部分ML特征工程方法,还可以用于性状关联位点的鉴定和定位。同时数据降维有助于在将数据映射到低维时保持高维数据的几何特性。这种技术特别适用于数据的可视化,在单细胞RNA测序
(scRNA-seq)
上尤为突出。
植物研究的先验知识将推动作物育种即知识驱动的分子设计育种,通过理解表型调控机制精准利用因果基因。然而,知识转化为育种实践仍面临挑战,例如GWAS种质库中的变异已在现代育种品种中消失,因此难以直接应用。育种改良通过重组等位基因微调遗传网络,基因的作用因发育阶段或环境而变化,因此育种需平衡有害和有益等位基因的影响。ML技术可以整合多组学数据,进行因果推断,帮助理解遗传网络的因果关系,推进作物性状改良的精确设计。ML也可以帮助设计高效标记面板,有效平衡成本和收益。
工业育种数据包括基因型、表型和环境信息,基因组选择
(GS)
通过统计或机器学习推断这些数据的相关性。与知识驱动的分子设计育种不同,数据驱动的基因组设计育种通过统计或机器学习
(ML)
模型推断数据之间的相关性,如基因组选择
(GS)
策略。在基因型数据层面,低覆盖度全基因组测序
(lcGWS)
可降低基因分型成本,但存在SNP不一致覆盖问题,需使用高覆盖度参考图谱解决。GS平衡成本与预测精度,在玉米育种中应用广泛,然而,GS也面临群体分层问题,因此训练样本和预测样本的合理划分至关重要。结合深度学习
(DL)
与多组学数据的整合可以进一步提升GS的预测能力,但复杂特征集可能导致过拟合风险。多模态学习与特征工程则为解决样本量不足和数据维度过大提供了新途径。总而言之,多模态学习与深度学习为复杂特征集提供了解决方案,并有助于应对样本稀缺和过拟合问题。
高质量的数据集和样本标签比ML模型本身更重要,众多研究表明没有一种方法在所有性状和物种上都表现最优,超参数调整对于ML模型获得最佳性能至关重要。由于多种因素存在,预测精度并不是应用ML辅助育种的唯一目标。相反,模型的稳健性、可扩展性和效率更需要考虑。因此,研究人员提出了一个专门为作物智能育种设计的ML生态系统。该生态系统应包含三个主要组件:数据平台、模型平台和应用平台
(
图1
)
。在人工智能时代,这样一个由ML驱动的生态系统将使作物育种更加智能和简单。
文章编译来源:
Cheng Q, Wang, X. Machine Learning for AI Breeding in Plants.
Genomics Proteomics Bioinformatics
2024;4:qzae051.
https://academic.oup.com/gpb/advance-article/doi/10.1093/gpbjnl/qzae051/7703285
作者信息:
中国农业大学农学院博士后
程前
博士为该文第一作者,
王向峰
教授为该文通讯作者。本研究得到生物育种重大项目、拼多多-中国农业大学研究基金、杨凌种业创新中心重点研究项目基金的支持。
GPB论文:
Machine Learning for AI Breeding in Plants
Genomics, Proteomics & Bioinformatics
[
基因组蛋白质组与生物信息学报(英文)
,简称GPB]
于2003年创刊,
是由中国科学院主管、中国科学院北京基因组研究所(国家生物信息中心)与中国遗传学会共同主办的英文学术期刊,由牛津大学出版社金色开放获取(Gold Open Access)出版。
刊载来自世界范围内组学、生物信息学及相关领域的优质稿件。
现为中国科学引文数据库(CSCD)和中国科技论文与引文数据库(CSTPCD)核心期刊,被SCIE、PubMed/MEDLINE、Scopus等数据库收录。
2024年公布的官方数据显示,CiteScore为14.3;
2年和5年Impact Factor分别为11.5和10.3;
2023 JCI为2.58,排名WoS遗传学领域6/191。
期刊由科技部等七部门联合实施的“中国科技期刊卓越行动计划“资助(2019–2023)。