对常见农艺性状进行的全基因组关联研究(GWAS)已达到瓶颈,因为它们在解析复杂的多基因性状方面的能力非常有限。而在不同时空条件下的多组学分析可大大提升定位精度,可以将RNA转录本、蛋白质、代谢物等不同层级的特征数据视为分子性状(mTraits),将通过视觉技术和高通量成像技术得到的信息视为图像性状(iTraits)。
群体规模的多组学数据集通常具有高维度、噪声大和异质性强的特点。通过数据降维和特征工程,对特征进行映射转换形成新尺度下的特征或直接对原始特征进行精简,可以有效降低特征维度或数量,有效解决特征数量远大于样本数量而导致的模型不可构建或过拟合问题。这两种策略在提供干净、易于解释的结果的同时,大大减少了计算时间并节省了资源。部分ML特征工程方法,还可以用于性状关联位点的鉴定和定位。同时数据降维有助于在将数据映射到低维时保持高维数据的几何特性。这种技术特别适用于数据的可视化,在单细胞RNA测序(scRNA-seq)上尤为突出。
植物研究的先验知识将推动作物育种即知识驱动的分子设计育种,通过理解表型调控机制精准利用因果基因。然而,知识转化为育种实践仍面临挑战,例如GWAS种质库中的变异已在现代育种品种中消失,因此难以直接应用。育种改良通过重组等位基因微调遗传网络,基因的作用因发育阶段或环境而变化,因此育种需平衡有害和有益等位基因的影响。ML技术可以整合多组学数据,进行因果推断,帮助理解遗传网络的因果关系,推进作物性状改良的精确设计。ML也可以帮助设计高效标记面板,有效平衡成本和收益。
工业育种数据包括基因型、表型和环境信息,基因组选择(GS)通过统计或机器学习推断这些数据的相关性。与知识驱动的分子设计育种不同,数据驱动的基因组设计育种通过统计或机器学习(ML)模型推断数据之间的相关性,如基因组选择(GS)策略。在基因型数据层面,低覆盖度全基因组测序(lcGWS)可降低基因分型成本,但存在SNP不一致覆盖问题,需使用高覆盖度参考图谱解决。GS平衡成本与预测精度,在玉米育种中应用广泛,然而,GS也面临群体分层问题,因此训练样本和预测样本的合理划分至关重要。结合深度学习(DL)与多组学数据的整合可以进一步提升GS的预测能力,但复杂特征集可能导致过拟合风险。多模态学习与特征工程则为解决样本量不足和数据维度过大提供了新途径。总而言之,多模态学习与深度学习为复杂特征集提供了解决方案,并有助于应对样本稀缺和过拟合问题。