【GS专栏】文献:使用GBLUP预测杂交水稻的表现
知识/政策规划
2021-04-26
一、前言
前面我们已经学习了全基因组选择的基础理论知识以及实战演练,对GS有了一定的了解。但是,对于如何进行GS研究,以及如何将GS进行育种实践仍然所知甚少。从今天开始,小编会陆续介绍一些有关基因组选择方面的经典研究给大家,希望大家对GS的理解更加深入。
今天介绍的是徐士忠老师和张启发院士于2014年发表在国际著名期刊《美国国家科学院院刊》(PNAS)上的一篇文章:Predicting hybrid performance in rice using genomic best linear unbiased prediction[1]。该文是早期基因组最佳线性无偏预测(GBLUP)应用于杂交水稻预测的经典研究。
相比于传统的分子标记辅助选择育种,全基因组选择在多基因控制的数量性状上效率更高。在实际应用中,GS可对常规种和杂交种都进行预测。纯种改良基于标记信息,在表型测定之前进行早期选择,可减少成本。杂交育种是目前水稻、玉米等主要作物提高产量的重要手段,杂交种的基因型可根据亲本基因型预先推断,只需要结合一定数量大小的杂交组合的表型,就能通过GS建模来预测其他材料的表现。因此GS应用于杂交种预测,在作物杂交育种中的优势是显而易见的。
本文通过从210份重组自交系亲本中产生的21945份杂交后代中随机选择278份材料进行表型鉴定,并利用经典的GBLUP模型将这些材料作为训练样本,预测所有可能样本的产量相关性状,发现100个预测产量最高的潜在杂交种的产量比平均产量提高16%。
二、方法
材料:由明辉63和珍汕97构建的210 个RILs,随机分为两组配对,杂交两轮产生360个杂交种(IMF2),其中278份同时含有基因型和表型。
性状:产量(YIELD)、单株分蘖(TILLER)、单穗重(GRAIN)、千粒重(KGW)。
数据:250000 个SNP;表型去除年份影响,两个重复;不考虑GxE效应。
模型:GLBUP(使用REML估计方差组分);LASSO(使用R包glmnet最小化惩罚平方和);SSVS(即BayesB,使用MCMC算法进行参数抽样,SAS计算)。5折交叉验证。
遗传效应:考虑6种遗传效应,即加性(a)、显性(d)、加性x加性(aa)、显性x显性(dd)、加性x显性(ad)、显性x加性(da)。
注意:此处模型1-6的含义是在上一模型的基础上依次累加效应的,即:
model1=加性效应
model2=加性效应+显性效应
model3=加性+显性 +加性x加性
model4=加性+显性 +加性x加性+显性x显性
model5=加性+显性+加性x加性 +显性x显性+加性x显性
model6=加性+显性+加性x加性效应 +显性x显性+加性x显性效应 +显性x加性
评价指标:模型拟合优度(Goodness of fit)、预测能力(Predictability)。
注意二者的区别:虽然两者都是观测值和预测值Pearson相关性系数的平方,但Goodness of fit是指建模时验证个体和模型预测个体的相关性,它贡献了建立模型时的参数估计,通俗理解就是自己建模预测自己的结果;而Predictability则是独立的验证个体,或者通过交叉验证分开的个体和预测个体的相关性,它们并没有贡献参数估计。
三、主要结果
1. GBLUP预测杂交种的表现
这里仅考虑加性效应,采用REML估计方差组分。
Parameter | YIELD | TILLER | GRAIN | KGW |
Additive variance | 14.4912 | 1.3879 | 254.6365 | 2.8200 |
Residual variance | 23.3308 | 1.3998 | 124.1658 | 0.5472 |
Heritability | 0.3831 | 0.4979 | 0.6722 | 0.8375 |
Goodness of fit | 0.5148 | 0.6052 | 0.7280 | 0.8980 |
Predictability | 0.1269 | 0.2259 | 0.3471 | 0.6797 |
可以看到,低遗传力性状YIELD和TILLER的残差比例很高,受非遗传因素影响较大;拟合优度和预测能力差别还是挺大的,所以模型的真正性能还是需要独立的验证集来考验;遗传力高的性状,拟合优度和预测能力也高。
2. GBLUP和LASSO、SSVS比较
3种模型5折交叉验证的预测能力结果比较。
Trait | GBLUP | LASSO | SSVS |
YIELD | 0.1264 | 0.1601 | 0.0943 |
TILLER | 0.2259 | 0.2046 | 0.2115 |
GRAIN | 0.3471 | 0.3706 | 0.3527 |
KGW | 0.6797 | 0.6868 | 0.6720 |
总体而言,三者的预测能力相当。低遗传力性状产量的预测差异较大。
3. GBLUP加入上位效应
将4种互作效应考虑进来,可得到方法描述中的6种遗传效应。比较表型估计方差及其比例(括号中的值)。
Trait | a | aa | dd | (ad)* | e† |
YIELD | 0.00 (0.00) | 7.01 (0.18) | 5.27 (0.14) | 23.83 (0.63) | 1.96 (0.05) |
TILLER | 0.45 (0.17) | 0.59 (0.22) | 0.00 (0.00) | 1.25 (0.47) | 0.37 (0.14) |
GRAIN | 150.91 (0.42) | 66.84 (0.19) | 6.58 (0.02) | 110.18 (0.31) | 21.51 (0.06) |
KGW | 2.27 (0.73) | 0.31 (0.10) | 0.23 (0.07) | 0.19 (0.06) | 0.11 (0.04) |
这里AD代表了AD和DA之和;显性效应D在所有性状中都为0;E为残差。
可知,加性效应在GRAIN和KGW中占主导作用;低遗传力性状将所有遗传效应(AD)考虑进去可贡献更多表型。
随着遗传效应增加(model1—>model6),拟合优度随之增加;但是,预测能力却没有明显变化。这里,作者得出一个结论是:显性效应和上位效应对基因组预测没有什么帮助。但作者并没有放弃,分析认为非加性效应没有明显提升的原因是估计方差的标准误大,以及不同方差组分之间的强相关性导致的。因此,需要更大样本来证明上位效应的作用。于是,作者模拟了一批数据。
4. 模拟数据的上位效应探索
模拟数据是为了证明样本量和不同遗传效应对模型预测能力的影响。模拟的性状假定所有方差组分(包括6种遗传效应和残差)相同,然后随机从 21945个潜在杂交种中选择200-1000个体,梯度为100。拟合优度分析显示,所有不同数目样本都从加性效应60%左右开始,直到所有遗传效应达到近100%。小样本量(如200)甚至有着更高的拟合优度。
预测能力分析显示,所有不同样本量的模型加入加性效应(model2)都能提高预测能力,但当样本量n<500时,再增加其他遗传效应已经几乎没有提升。反之,样本量大于500时,加入其他遗传效应,预测能力仍有提升。因此,对于大样本量而言,加入上位性效应更有利于模型预测。需要注意的是,作者这里模拟了加性效应,而实际数据中可能加性效应很少甚至于无。但作者认为即便是只有加性效应控制的性状,在模型中加入显性和上位效应也是安全的做法。
5. 杂交种的预测
使用随机的278个杂交种建模,通过模型得到的遗传参数来预测剩余的21667个杂交种的表型。所有21945个杂交种的亲缘关系矩阵(kinship)可表示为:
其中,K11是当前训练样本的kinship(278x278),K22是未来预测样本的kinship(21667x21667),K21是预测样本和训练样本的关系矩阵(21667x278)。除了利用GBLUP预测杂交种表型,作者用LASSO和SSVS做了预测,并比较了三者的相关性。总体来说,差别不是太大,SSVS略差,GBLUP和LASSO的相关性很高,尤其是KGW性状。然后,对预测表型进行降序排序,并动态计算均值。比如,我们选择前100个杂交种,计算这100个杂交种产量均值(43.62),将预测的这100个均值(50.56)与之相比。如果产量显著提升(如这里增加了6.94,16%),则育种家实际上可以选择这100个杂交种。前500个杂交种在4个性状中的表现如下图,虚线代表95%置信区间。
最后,作者从21667个预测的杂交种中选择了105个进行了田间的真实评价。
Trait | GBLUP | LASSO | SSVS |
YIELD* | 0.0053 | 0.0014 | 0.0076 |
TILLER | 0.0727 | 0.0566 | 0.0773 |
GRAIN | 0.2685 | 0.2473 | 0.2862 |
KGW | 0.6107 | 0.6397 | 0.6378 |
预测能力较之前要差,因为模型并没有考虑环境因素(GxE)。建模数据是1998和1999年产的,105个杂交种调查则在2012年,中间经历了一段不寻常的高温影响。对于产量和分蘖这样受环境影响大的性状而言,模型预测准确性就很低了。但对于受环境影响小的性状,如GRAIN和KGW,预测效果还是可以的。
四、讨论与评价
1. 杂交组合选择
在杂交育种中,应该从最佳前多少个组合(top组合)中选择?需要考虑两个因素,一是top组合平均表现的估计误差。肯定不能选的太少,否则预测误差会很大;二是相对于整个杂交种群体,top组合的遗传多样性趋于狭窄。为了保持较高的多样性,尽可能多的选择top组合,同时保证预测平均值较高。当然,也不能选择太多,既增加了工作量,又没有达到有效选择的目的。
2. 候选群体选择
假设要对1000个品种进行半双列杂交(half-diallel cross),会产生 1000×(1000−1)/2=499500 个可能的杂交种。如果最终选择100个最佳组合,则选择比例为100/499500=0.0002。从这一点看,即便是低预测能力的模型,也会带来巨大效益,这就是育种方程式中选择强度的作用。问题是我们如何选择用于建模的杂交种?比如,我用500个杂种建模,估算出的参数用于预测所有499500个潜在杂种,条件是选择的这500个杂交组合应使其基因组组成尽可能均匀的代表亲本基因组。这里作者选择了从重组自交系衍生而来的IMF2杂交群体。训练集的选择是GS和机器学习中的重点和难点,尤其在作物育种群体中,后面如有可能,我们专题介绍。
3. 模型与效应
很多研究已经表明了GS各类模型的预测能力差异并不大,此文也不例外。但总体而言,GBLUP的稳健性是最好的,尤其当一大堆标记上来,它的优势就很明显了。非加性效应在这里并没有体现出明显提升的作用,这与样本量也有关系。而且GS预测的是综合表现,而非仅仅杂种优势。但本文没有考虑环境效应(GxE),导致验证群体中低遗传力性状的预测效果不佳。总之,本文对于我们如何研究和应用GS在杂交稻表现的预测上,提供了较好的思路。
References
[1] Predicting hybrid performance in rice using genomic best linear unbiased prediction: https://www.pnas.org/content/111/34/12456.long
相关推荐
百奥繁育 | 良种选育的信息管理系统
8月25日,江西省水稻种质资源创新交流及智能育种技术研讨会在江西省农科院顺利召开。江西农业大学、江西师范大学、广东省农科院、江西省农科院、中国水稻所江西早稻中心、南昌市农科院、赣州市农科所有关专家代表以及省内种企代表共约40人参与了本次交流会议。
有人说,植物育种的过程就像工厂流水线。挑选的种质即原材料,根据市场需求进行设计与加工,送入田间生产线后,一代代优中选优,还得经过严格的产量、品质、抗性测试,过五关斩六将,最终拿到审定编号,成为可以推广的成熟产品。 虽然流程相似,但育种工作远不及工厂生产那样标准。田间环境气候复杂、真实性状判断困难、水肥条件难以统一……种种困难下,选育良种成了概率事件,育种家们都有种“尽人事听天命”的无奈感。
育种4.0时代,比拼的是科技创新,关键是通过数字化、信息化、智能化让育种过程缩短周期、提升效率、降低风险,而这也是长沙百奥云数据科技有限公司(百奥云)的创业初衷。
1. 利用PopGenomics快速对基因组实现高质量组装 基因组组装是将全基因组测序的小片段(reads长度100 bp-100 kb)通过算法拼接成尽量长的片段(contig 和scaffold,长度几十kb 到Mb 不等)或者整条染色体的过程。获得包含基因组全序列的参考基因组是对动植物进行基因组学研究和育种利用的前提[1]。 由于植物基因组具有非常丰富的多样性,参考已发表的少数物种组装新的物种,有时却无法达到理想的组装效果。测序技术发展提供了短序列测序、单分子测序、光学图谱、Hi-C 图谱等多种测序技术及其组合的组装方案,到目前为止,已经有上千个植物基因组被组装(图1)。然而,如何以最低成本快速获得满足需求的高质量基因组,仍然是科研人员和育种数据分析人员普遍面临的一个问题。
7月26日,顶着炎炎夏日 在公司CSO桂進老师的带领下 举行了一场别开生面的劳动体验。