【GS专栏】全基因组选择:一项水稻育种应用中的突破性技术

知识/政策规划

2021-05-31


  近日,扬州大学徐辰武教授和美国加州大学河滨分校徐士忠教授团队联合在《The Crop Journal》杂志上发表综述:Genomic selection: A breakthrough technology in rice breeding,较为全面地总结了基因组选择(GS)在水稻育种应用的研究进展。本文中的很多内容在之前的推文中或多或少有过介绍。今天跟着这篇文章,小编带大家一起温习一下。

 

一、为什么要用GS?

 

  水稻育种的首要目标是培育高产、优质、抗病虫害及适应性强的品种。基于亲本杂交和后代表型选择的传统育种非常耗时,一个水稻新品种的培育和释放需要10年左右的时间。自20世纪90年代以来,分子技术的进步使得育种家可以利用DNA分子标记来进行辅助选择。分子标记辅助选择(Marker assisted selection,MAS)是一种利用QTL相关标记进行个体选择的方法。MAS虽然可以缩短育种时间,但不太适用于受微效应多基因影响的数量性状。基因组选择(GS)被认为是克服这一局限性的一种很有前途的技术。GS利用来自训练群体中全基因组范围的DNA分子标记和表型,来预测已被基因分型但无测量表型的预测群体的基因组估计育种值(GEBV)。GS相对于传统的MAS的优势在于,它不需要检测与目标性状相关的主效QTL,且能在表型调查前进行早期选择,大大提高了育种效率。GS在提高动物育种遗传增益方面取得了巨大成功,因而被引入到作物育种的诸多方面,如自交系表现预测、亲本选择和杂交种预测等。尤其是杂交育种的应用,GS优势更为明显,因为杂交种的基因型可以从其亲本的基因型推断出来,无需重新测序,从而大大降低了测序成本。近年来,GS在水稻育种中的应用已经被一些模拟和实验研究所证实。高的预测准确性是GS成功应用的前提。预测准确性一般通过实际观察到的表型与预测的GEBV之间的相关性来衡量,而预测能力通常是利用K折交叉验证(CV)计算观察表型与预测表型之间的相关性来衡量。所谓K折CV,是指总体被随机划分为k个大小相等的部分,每个部分使用从其他(k-1)部分估计的参数预测一次。预测能力受多种因素影响,包括群体规模、群体内个体间关系、训练群体与预测群体间的相关性、性状遗传力、标记密度、统计模型等。根据育种方程式,即便是预测能力的微小提高,也能转化为具有高选择强度的巨大增益。因此,一些研究人员已经尝试利用多种策略来提高对低遗传力复杂性状(如产量)的预测能力。

 

二、影响GS的关键因素

 

  1. 遗传因素

  将GS应用于作物育种时,应考虑标记密度、样本大小、训练群体与预测群体的关系、群体结构、目标性状的遗传力和遗传结构、标记与QTL的连锁不平衡(LD)等遗传因素。一般来说,预测能力随着标记强度和样本量的增加而增加,直到达到一个顶峰。训练群体所需的规模大小与目标性状的遗传力和群体相关性有关。对于低遗传力性状(如h2=0.2),训练群体中需要1000多个个体。此外,近缘群体训练所需的规模远小于远缘群体。有研究人员证明,训练群体占整个群体的2%–13%可以建立有效的GS模型。训练群体和预测群体之间的遗传关系是影响预测能力的重要因素,对于遗传相似的群体可以实现更准确的预测。一种普遍的观点认为,在训练群体中加入更多的相关材料,比使用不相关的材料来增加训练群体的规模,可以获得更高的预测能力。然而,如果相关群体利用过度,遗传变异将受到限制甚至耗尽,长期而言,亲缘关系的增加将损害遗传增益。因此,在实际育种中,训练群体与预测群体的关系应予以综合平衡和优化考量。群体结构影响分层群体中基因组预测的性能,导致标记和性状间的假阳性关联,从而给出有偏的效应估计和预测能力。标记与QTL间的LD程度也影响GS。为了保持预测能力,需要定期更新训练群体,因为标记和QTL之间的LD会随着世代数的增加而逐渐减小。预测能力与性状的遗传力密切相关。有研究表明,通过交叉验证计算出的遗传力与性状预测能力相当。高遗传力性状(如株高)往往比低遗传力性状(如籽粒产量)具有更高的预测能力。

  2. 统计模型

  除上述遗传因素外,统计学方法是影响预测能力的另一个重要因素。大量的参数统计方法和非参数统计方法应用于GS。参数方法主要包括基因组最佳线性无偏预测(GBLUP)、岭回归最佳线性无偏预测(RRBLUP)、偏最小二乘(PLS)、最小绝对收缩选择算子(LASSO)、弹性网络(EN)和贝叶斯方法(BayesA、BayesB、BayesC、BayesCπ、BayesR、Bayesian LASSO等);非参数方法包括随机森林(RF)、支持向量机(SVM)、再生核希尔伯特空间(RKHS)、深度学习(DL)等。GBLUP方法假设所有标记遵循相同的遗传方差,并使用基因组关系矩阵(G矩阵)预测表型,而不估计标记效应。因此,GBLUP相对更为稳健和高效,适合很多基因控制的性状。RRBLUP在数学上与GBLUP等价。LASSO、EN和岭回归等变量选择方法将大多数基因座的效应缩小到零,能更好地拟合主基因控制性状的这类数据。贝叶斯方法的主要特点是允许不同标记遵循特定的先验分布,其未知参数通常采用马尔可夫链蒙特卡罗(MCMC)算法估计,计算量大。模拟研究表明,贝叶斯方法对性状的遗传结构比较敏感,对效应较大的性状效果更好。SVM和RKHS方法是用于分类和回归的基于核的有监督学习方法,能更有效地捕捉非加性效应。RF方法目标是通过引入两层随机性,构建大量的树(称之森林),一层是数据的随机自举采样,另一层是在每个预测器的子节点随机选择。该方法利用所有树节点的平均值来寻找最佳预测模型。深度学习是一种具有多个隐藏层的多层感知器,能够捕捉数据中复杂的非线性关系。然而,深度学习需要巨大的数据集才能做出准确的预测。许多研究人员利用模拟和真实数据比较了这些方法的预测能力,但是没有一种方法能够普遍适用于所有数据。作者建议将GS方法作为一个参数,通过交叉验证评估所有可用方法的预测能力,然后在相应的GS程序中选择精度最高的方法。作者总结了GS中常用的软件(表1),基本上也是我们前面介绍过的。

 

表1 植物GS应用常用软件

软件 模型 网页地址 主要功能
R/AsremlPlus LMM(线性混合模型) https://cran.r-project.org/web/packages/asremlPlus/ Mixed models solver
R/BGLR BL, BRR, BayesA, BayesB, BayesC, BayesCπ, GBLUP, RKHS https://cran.r-project.org/web/packages/BGLR/ Genomic prediction
R/BWGS BayesA, BayesB, BayesC, BL, BRR, BRNN, EN, GBLUP, LASSO, RR, RF, RKHS, SVM https://cran.r-project.org/web/packages/BWGS/ Genomic prediction, Cross validation
R/glmnet LASSO, EN, RR https://cran.r-project.org/web/packages/glmnet/ Marker effect estimation
R/pls PLS https://cran.r-project.org/web/packages/pls/ Marker effect estimation
R/PopVar RRBLUP, BayesA, BayesB, BayesC, BL, BRR https://cran.r-project.org/web/packages/PopVar/ Genetic variance prediction, Cross validation
R/predhy GBLUP https://cran.r-project.org/web/packages/predhy/ Hybrid prediction, Cross validation
R/randomForest RF https://cran.r-project.org/web/packages/randomForest/ Marker effect estimation
R/ rrBLUP RRBLUP, GBLUP https://cran.r-project.org/web/packages/rrBLUP/ Marker effect estimation, Genomic prediction, mixed model solver
R/sommer BLUP, GBLUP https://cran.r-project.org/web/packages/sommer/ Marker effect estimation, Genomic prediction, Mixed model solver
R/spls SPLSR https://cran.r-project.org/web/packages/spls/ Marker effect estimation
R/STGS ANN(人工神经网络), BLUP, LASSO, RF, RR, SVM https://cran.r-project.org/web/packages/STGS/ Genomic prediction, Cross validation
ASReml LMM https://www.vsni.co.uk/software/asreml Mixed models solver
BayesR BMM(贝叶斯混合模型) https://github.com/syntheke/bayesR Marker effect estimation
DeepGS DL, CNN(卷积神经网络) https://github.com/cma2015/DeepGS Genomic prediction
HIBLUP BLUP https://hiblup.github.io/ Variance components, estimation, Mixed model solver
KAML KAML(kinship矫正的多位点BLUP), GBLUP https://github.com/YinLiLin/KAML Genomic prediction, Cross validation

 

 

三、水稻中的GS应用

 

  1. 亲本(纯系)选择

  GS技术可用于水稻自交系选择和杂交育种。目前,对水稻GS的研究主要集中在设计训练群体,以及评价群体内、群体间的预测能力。在水稻育种群体中,已对各种数量性状进行了基因组预测,并表现出了从中到高的预测能力(表2中前8项研究)。

  2. 杂交种预测

  杂交育种是利用杂种优势提高水稻产量的主要手段。杂交水稻比自交系具有20%的产量优势。水稻杂交育种的最大挑战在于从众多潜在的杂交组合中选出理想的杂交组合。由于资源有限,评估所有潜在杂交种的田间表现是不现实的。幸运的是,GS为解决这个问题铺平了道路。在杂交水稻育种中,GS只需在田间评估所有潜在杂交组合的一小部分,就能预测一组特定基因型亲本的所有组合的表现,这大大节省了杂交和田间试验的成本(表2中后4项研究)。

 

表2 GS在水稻研究中的应用

群体 基因型 模型 性状及预测能力 参考文献
110个日本栽培稻 3071 SNPs BL, EN, RF, GBLUP, wBSR, LASSO, RKHS 开花期(0.7–0.85), 穗长(0.5–0.7), 穗数(0.35–0.45), 粒长(0.35–0.45), 粒宽(0.5–0.7) Onogi et al. [1][1]
413个多样性自交系 36,901 SNPs GBLUP 每穗小花数(0.6),开花期(0.6), 株高 (0.7), 蛋白含量(0.45) Isidro et al. [2][2]
386个自交系 1311 SNPs PLS, Kernel PLS, RR, Kernel RR 穗型(0.55–0.62) Iwata et al. [3][3]
363个优良自交系 73,147 SNPs BL, RKHS, RRBLUP, RF 产量(0.15–0.31), 开花期(0.35–0.63), 株高(0.15–0.34) Spindel et al. [4][4]
343个S2:4系 8336 SNPs BL, BRR, GBLUP, LASSO, RRBLUP 产量(0.31), 开花期(0.30), 株高 (0.54), 穗重(0.33) Grenier et al. [5][5]
284个自交系和97个F5–F7系 43,686 SNPs GBLUP, RKHS, BayesB 开花期(0.35), 氮平衡指数(0.33), 千粒重 (0.38), Hassen et al. [6][6]
128个日本栽培稻 42,508 SNPs GBLUP, PLS 穗重(0.28–0.53) Yabe et al. [7][7]
161个非洲稻和162个美国农业部系 36,901 SNPs GBLUP, BayesA, BayesCd 稻瘟病 (0.15–0.72) Huang et al. [8][8]
210个RIL和278个杂交种 1619 bins GBLUP, LASSO, SSVS 产量(0.31–0.36), 穗数(0.59–0.61), 分蘖数(0.45–0.48), 千粒重(0.82–0.83) Xu et al. [9][9]
120个自交系和575个杂交种 2,395,866 SNPs GBLUP 产量(0.39), 穗数 (0.64), 株高 (0.86), 千粒重(0.88) Wang et al. [10][10]
120个自交系和575个杂交种 116,482 SNPs BayesB, GBLUP, PLS, LASSO, SVM, RKHS 产量(0.38–0.41), 穗数(0.64–0.65), 株高 (0.86), 千粒重 (0.87–0.88) Xu et al. [11][11]
1495个NC II设计的杂交种和100个半双列杂交种 102,795 SNPs GBLUP 产量 (0.54), 穗数(0.62), 株高 (0.58), 千粒重 (0.54) Cui et al. [12][12]

 

  然而,将GS应用于水稻育种实践的研究还很有限,特别是与玉米、小麦等其他主要作物相比。国际玉米和小麦改良中心(CIMMYT)已在全球玉米育种计划中实施GS。例如,José Crossa团队设计了一种多亲本杂交的快速循环基因组选择(RCGS)[13],既能保持遗传多样性,又能在短时间内获得高遗传增益。

 

四、如何提高预测能力?

 

  研究人员已经尝试了几种策略来提高对复杂性状的预测能力(图1)。

 

图1 提高预测能力的主要策略

 

  1. 将功能标记考虑进模型

  在GS模型中加入已知基因或已识别SNPs的先验信息,有可能揭示复杂性状的遗传结构,提高预测能力。基于一项模拟研究表明,当已知几个主基因且每个主基因解释的遗传方差大于10%时,这些主基因应作为固定效应而不是随机效应在BLUP模型中进行拟合,以改进预测。在缺乏基因先验知识的情况下,GWAS识别的显著或峰值SNPs也可以被视为固定效应协变量。值得注意的是,GWAS和GS联合策略的效率在很大程度上依赖于特定性状的遗传结构。联合策略更适合在多基因背景下具有少数大效应QTNs的性状。因此,在将该策略应用于育种计划之前,应先研究目标性状的遗传结构。

  2. 将基因型与环境互作考虑进模型

  作物育种中经常进行多环境试验。按基因型和环境(G× E)的 交互作用,允许借助相关环境之间的信息。有几项研究表明,与单一环境下的模型相比,将GxE因素考虑进来,模型在预测能力上有相当大的提高。在育种方案中,这可能有助于选择适应性和稳定性的候选品种。

  3. 多性状模型

  在育种实践中,应同时考虑多种性状进行选择。多性状GS模型有利于提高低遗传力性状的预测能力。性状间的遗传和残余相关性为基因组选择提供了额外的信息,从而提高了预测能力。一些单性状GS模型已经扩展到多性状选择,如多元GBLUP和多元贝叶斯方法。最初的多变量模型假设每个基因座同时影响多个性状(或不影响任何性状)。GS领域大名鼎鼎的JWAS软件,就提出了一个通用的多性状贝叶斯模型π 以及BayesB方法,允许每个基因座影响任意组合的多个性状,而不是所有性状。多性状GS模型也可用于预测难以测量或测量成本高的性状,如根性状和利用辅助性状(如株高)测定的单株产量。除多元GS模型外,选择指数也同时用于多性状的育种选择。在GS的背景下,可构建基因组选择指数(即按性状权重赋予GEBV的线性组合),用以预测遗传优势和亲本选择。有研究表明,选择指数辅助的GS显著优于单性状GS模型。

  4. 结合多组学数据

  许多研究表明,对于一些复杂性状,尤其是受环境影响较大的产量性状,预测能力往往较低。典型的基因组选择方法不足以捕捉基因与其下游调控因子之间的相互作用。下游组学包括转录组、蛋白质组和代谢组,反映了不同生物层内部和之间的相互作用。随着组学技术的进步,代谢组学和转录组学数据为多种作物的表型预测提供了新的来源。一些研究人员试图利用亲本转录组学或代谢组学数据来预测未观察到的杂种的表现。尽管有研究证明了转录组和代谢组是预测杂种的有效指标,但仍有一些问题需要进一步探讨。由于转录和代谢谱的动态性质,基于转录组学和代谢组学信息的预测应选择合适的组织和采样时间。此外,目前杂交种的转录组学和代谢组学数据通常采用与基因组数据相同的编码方式,而这可能是有偏差的,因为无论是转录组还是代谢组都不能像基因组那样直接从父母的组学信息中推断出来。杂交种及其亲本转录物和代谢物水平之间的定量关系有待进一步研究。在育种实践中,需要在提高预测能力和增加成本之间进行权衡。除了亲本转录组学和代谢组学数据外,亲本表型数据也可用于预测杂种。小编认为,以上策略并不是总能提升预测能力。也许在你的数据中,考虑以上策略后,反而降低了准确性,这完全也是有可能的。总之,你需要足够了解你的数据和目标,反复尝试,权衡成本和效益,达到预期结果。

 

五、展望

 

  为了进一步加快育种进程,降低育种成本,应将GS与其他先进的育种技术和平台相结合。高通量表型平台(HTP)能够以高精度和低劳动强度在受控环境和田间获取大规模表型数据。HTP与其它策略相结合可以提高遗传力估计和预测精度。近年来,无人机遥感(UAVs)为田间表型分型提供了新的机遇。利用无人机平台获得的植被指数、三维植物冠层结构等次生性状可以纳入GS模型,提高目标性状的预测能力和遗传增益。为了充分利用无人机的信息,需要进一步的研究来确定理想的传感器配置,并开发特定的模型和软件。装备无人机平台的GS技术有望成为作物育种的有效常规策略。

  在GS育种中,基因分型通常会消耗大量的育种成本。目前,测序基因分型(GBS)技术已被广泛应用于GS研究中,以获得高密度的SNPs,但它需要生物信息分析,需要进行大量填补以及遇到数据共享不畅等难题。相比之下,SNP芯片是基于标准化程序和固定基因座设计的,可用于大样本的快速基因分型,数据分析相对育种人员来说更为简单。目前设计的用于水稻分子育种的单核苷酸多态性阵列,包括44k单核苷酸多态性阵列、RICE6K、RiceSNP50、C7AIR等。但是,一些主要功能基因还没有完全整合到现有的水稻芯片中。水稻GS育种所需的SNP阵列需要为全球水稻界开发。

  为了优化育种效率,开放源代码平台也被建议用于GS育种。在开源平台上,研究人员和育种人员可以共享他们在各种环境中获得的训练群体的基因型和表型数据。基于现有的群体数据集,研究人员可以增强自己的GS模型,更快速、准确地预测当地环境中的候选品种。为了共同分析或重用这些数据,需要定义通用标准和数据格式。此外,迫切需要开发新的统计模型,如机器学习来处理农业数据的爆炸性增长。总之,GS技术将通过优化实验设计、精确的HTP平台、低成本的基因分型技术和改进的模式和模型,在全球研究人员的共同努力下,进一步改良水稻品种。

 

  References

  [1] 1]: https://www.sciencedirect.com/science/article/pii/S221451412100074X#b0190

  [2] 2]: https://www.sciencedirect.com/science/article/pii/S221451412100074X#b0195

  [3] 3]: https://www.sciencedirect.com/science/article/pii/S221451412100074X#b0200

  [4] 4]: https://www.sciencedirect.com/science/article/pii/S221451412100074X#b0055

  [5] 5]: https://www.sciencedirect.com/science/article/pii/S221451412100074X#b0205

  [6] 6]: https://www.sciencedirect.com/science/article/pii/S221451412100074X#b0210

  [7] 7]: https://www.sciencedirect.com/science/article/pii/S221451412100074X#b0060

  [8] 8]: https://www.sciencedirect.com/science/article/pii/S221451412100074X#b0215

  [9] 9]: https://www.sciencedirect.com/science/article/pii/S221451412100074X#b0045

  [10] 10]: https://www.sciencedirect.com/science/article/pii/S221451412100074X#b0035

  [11] 11]: https://www.sciencedirect.com/science/article/pii/S221451412100074X#b0050

  [12] 12]: https://www.sciencedirect.com/science/article/pii/S221451412100074X#b0230

  [13] (RCGS): https://academic.oup.com/g3journal/article/7/7/2315/6053599


相关推荐

百奥繁育 | 良种选育的信息管理系统

百奥繁育 | 良种选育的信息管理系统

09-06

2023

江西种业也刮智能育种风

8月25日,江西省水稻种质资源创新交流及智能育种技术研讨会在江西省农科院顺利召开。江西农业大学、江西师范大学、广东省农科院、江西省农科院、中国水稻所江西早稻中心、南昌市农科院、赣州市农科所有关专家代表以及省内种企代表共约40人参与了本次交流会议。

08-28

2023

百奥云 & 火山引擎 | 为现代农业的“芯片”增添新科技

育种4.0时代,比拼的是科技创新,关键是通过数字化、信息化、智能化让育种过程缩短周期、提升效率、降低风险,而这也是长沙百奥云数据科技有限公司(百奥云)的创业初衷。

08-22

2023

百奥繁育 | 育种田间的信息流水线

有人说,植物育种的过程就像工厂流水线。挑选的种质即原材料,根据市场需求进行设计与加工,送入田间生产线后,一代代优中选优,还得经过严格的产量、品质、抗性测试,过五关斩六将,最终拿到审定编号,成为可以推广的成熟产品。 虽然流程相似,但育种工作远不及工厂生产那样标准。田间环境气候复杂、真实性状判断困难、水肥条件难以统一……种种困难下,选育良种成了概率事件,育种家们都有种“尽人事听天命”的无奈感。

08-22

2023

百奥云新品发布 | 高质量基因组极速拼接服务

1. 利用PopGenomics快速对基因组实现高质量组装 基因组组装是将全基因组测序的小片段(reads长度100 bp-100 kb)通过算法拼接成尽量长的片段(contig 和scaffold,长度几十kb 到Mb 不等)或者整条染色体的过程。获得包含基因组全序列的参考基因组是对动植物进行基因组学研究和育种利用的前提[1]。 由于植物基因组具有非常丰富的多样性,参考已发表的少数物种组装新的物种,有时却无法达到理想的组装效果。测序技术发展提供了短序列测序、单分子测序、光学图谱、Hi-C 图谱等多种测序技术及其组合的组装方案,到目前为止,已经有上千个植物基因组被组装(图1)。然而,如何以最低成本快速获得满足需求的高质量基因组,仍然是科研人员和育种数据分析人员普遍面临的一个问题。

08-22

2023

夏风又绿田间草,除草劳动正当时

7月26日,顶着炎炎夏日 在公司CSO桂進老师的带领下 举行了一场别开生面的劳动体验。

08-04

2023