【GS专栏】文献:使用GBLUP预测杂交水稻的表现

知识/政策规划

2021-04-26


一、前言

 

  前面我们已经学习了全基因组选择的基础理论知识以及实战演练,对GS有了一定的了解。但是,对于如何进行GS研究,以及如何将GS进行育种实践仍然所知甚少。从今天开始,小编会陆续介绍一些有关基因组选择方面的经典研究给大家,希望大家对GS的理解更加深入。

  今天介绍的是徐士忠老师和张启发院士于2014年发表在国际著名期刊《美国国家科学院院刊》(PNAS)上的一篇文章:Predicting hybrid performance in rice using genomic best linear unbiased prediction[1]。该文是早期基因组最佳线性无偏预测(GBLUP)应用于杂交水稻预测的经典研究。

  相比于传统的分子标记辅助选择育种,全基因组选择在多基因控制的数量性状上效率更高。在实际应用中,GS可对常规种和杂交种都进行预测。纯种改良基于标记信息,在表型测定之前进行早期选择,可减少成本。杂交育种是目前水稻、玉米等主要作物提高产量的重要手段,杂交种的基因型可根据亲本基因型预先推断,只需要结合一定数量大小的杂交组合的表型,就能通过GS建模来预测其他材料的表现。因此GS应用于杂交种预测,在作物杂交育种中的优势是显而易见的。

  本文通过从210份重组自交系亲本中产生的21945份杂交后代中随机选择278份材料进行表型鉴定,并利用经典的GBLUP模型将这些材料作为训练样本,预测所有可能样本的产量相关性状,发现100个预测产量最高的潜在杂交种的产量比平均产量提高16%。

 

二、方法

 

  材料:由明辉63和珍汕97构建的210 个RILs,随机分为两组配对,杂交两轮产生360个杂交种(IMF2),其中278份同时含有基因型和表型。

  性状:产量(YIELD)、单株分蘖(TILLER)、单穗重(GRAIN)、千粒重(KGW)。

  数据:250000 个SNP;表型去除年份影响,两个重复;不考虑GxE效应。

  模型:GLBUP(使用REML估计方差组分);LASSO(使用R包glmnet最小化惩罚平方和);SSVS(即BayesB,使用MCMC算法进行参数抽样,SAS计算)。5折交叉验证。

  遗传效应:考虑6种遗传效应,即加性(a)、显性(d)、加性x加性(aa)、显性x显性(dd)、加性x显性(ad)、显性x加性(da)。

 

  注意:此处模型1-6的含义是在上一模型的基础上依次累加效应的,即:

  model1=加性效应

  model2=加性效应+显性效应

  model3=加性+显性 +加性x加性

  model4=加性+显性 +加性x加性+显性x显性

  model5=加性+显性+加性x加性 +显性x显性+加性x显性

  model6=加性+显性+加性x加性效应 +显性x显性+加性x显性效应 +显性x加性

 

  评价指标:模型拟合优度(Goodness of fit)、预测能力(Predictability)。

 

  注意二者的区别:虽然两者都是观测值和预测值Pearson相关性系数的平方,但Goodness of fit是指建模时验证个体和模型预测个体的相关性,它贡献了建立模型时的参数估计,通俗理解就是自己建模预测自己的结果;而Predictability则是独立的验证个体,或者通过交叉验证分开的个体和预测个体的相关性,它们并没有贡献参数估计。

 

三、主要结果

 

  1. GBLUP预测杂交种的表现

  这里仅考虑加性效应,采用REML估计方差组分。

Parameter YIELD TILLER GRAIN KGW
Additive variance 14.4912 1.3879 254.6365 2.8200
Residual variance 23.3308 1.3998 124.1658 0.5472
Heritability 0.3831 0.4979 0.6722 0.8375
Goodness of fit 0.5148 0.6052 0.7280 0.8980
Predictability 0.1269 0.2259 0.3471 0.6797

  可以看到,低遗传力性状YIELD和TILLER的残差比例很高,受非遗传因素影响较大;拟合优度和预测能力差别还是挺大的,所以模型的真正性能还是需要独立的验证集来考验;遗传力高的性状,拟合优度和预测能力也高。

 

  2. GBLUP和LASSO、SSVS比较

  3种模型5折交叉验证的预测能力结果比较。

Trait GBLUP LASSO SSVS
YIELD 0.1264 0.1601 0.0943
TILLER 0.2259 0.2046 0.2115
GRAIN 0.3471 0.3706 0.3527
KGW 0.6797 0.6868 0.6720

  总体而言,三者的预测能力相当。低遗传力性状产量的预测差异较大。

 

  3. GBLUP加入上位效应

  将4种互作效应考虑进来,可得到方法描述中的6种遗传效应。比较表型估计方差及其比例(括号中的值)。

Trait a aa dd (ad)* e†
YIELD 0.00 (0.00) 7.01 (0.18) 5.27 (0.14) 23.83 (0.63) 1.96 (0.05)
TILLER 0.45 (0.17) 0.59 (0.22) 0.00 (0.00) 1.25 (0.47) 0.37 (0.14)
GRAIN 150.91 (0.42) 66.84 (0.19) 6.58 (0.02) 110.18 (0.31) 21.51 (0.06)
KGW 2.27 (0.73) 0.31 (0.10) 0.23 (0.07) 0.19 (0.06) 0.11 (0.04)

  这里AD代表了AD和DA之和;显性效应D在所有性状中都为0;E为残差。

  可知,加性效应在GRAIN和KGW中占主导作用;低遗传力性状将所有遗传效应(AD)考虑进去可贡献更多表型。

 

 

  随着遗传效应增加(model1—>model6),拟合优度随之增加;但是,预测能力却没有明显变化。这里,作者得出一个结论是:显性效应和上位效应对基因组预测没有什么帮助。但作者并没有放弃,分析认为非加性效应没有明显提升的原因是估计方差的标准误大,以及不同方差组分之间的强相关性导致的。因此,需要更大样本来证明上位效应的作用。于是,作者模拟了一批数据。

 

  4. 模拟数据的上位效应探索

  模拟数据是为了证明样本量和不同遗传效应对模型预测能力的影响。模拟的性状假定所有方差组分(包括6种遗传效应和残差)相同,然后随机从 21945个潜在杂交种中选择200-1000个体,梯度为100。拟合优度分析显示,所有不同数目样本都从加性效应60%左右开始,直到所有遗传效应达到近100%。小样本量(如200)甚至有着更高的拟合优度。

 

 

  预测能力分析显示,所有不同样本量的模型加入加性效应(model2)都能提高预测能力,但当样本量n<500时,再增加其他遗传效应已经几乎没有提升。反之,样本量大于500时,加入其他遗传效应,预测能力仍有提升。因此,对于大样本量而言,加入上位性效应更有利于模型预测。需要注意的是,作者这里模拟了加性效应,而实际数据中可能加性效应很少甚至于无。但作者认为即便是只有加性效应控制的性状,在模型中加入显性和上位效应也是安全的做法。

 

  5. 杂交种的预测

  使用随机的278个杂交种建模,通过模型得到的遗传参数来预测剩余的21667个杂交种的表型。所有21945个杂交种的亲缘关系矩阵(kinship)可表示为:

 

 

  其中,K11是当前训练样本的kinship(278x278),K22是未来预测样本的kinship(21667x21667),K21是预测样本和训练样本的关系矩阵(21667x278)。除了利用GBLUP预测杂交种表型,作者用LASSO和SSVS做了预测,并比较了三者的相关性。总体来说,差别不是太大,SSVS略差,GBLUP和LASSO的相关性很高,尤其是KGW性状。然后,对预测表型进行降序排序,并动态计算均值。比如,我们选择前100个杂交种,计算这100个杂交种产量均值(43.62),将预测的这100个均值(50.56)与之相比。如果产量显著提升(如这里增加了6.94,16%),则育种家实际上可以选择这100个杂交种。前500个杂交种在4个性状中的表现如下图,虚线代表95%置信区间。

 

 

  最后,作者从21667个预测的杂交种中选择了105个进行了田间的真实评价。

Trait GBLUP LASSO SSVS
YIELD* 0.0053 0.0014 0.0076
TILLER 0.0727 0.0566 0.0773
GRAIN 0.2685 0.2473 0.2862
KGW 0.6107 0.6397 0.6378

  预测能力较之前要差,因为模型并没有考虑环境因素(GxE)。建模数据是1998和1999年产的,105个杂交种调查则在2012年,中间经历了一段不寻常的高温影响。对于产量和分蘖这样受环境影响大的性状而言,模型预测准确性就很低了。但对于受环境影响小的性状,如GRAIN和KGW,预测效果还是可以的。

 

四、讨论与评价

 

  1. 杂交组合选择

  在杂交育种中,应该从最佳前多少个组合(top组合)中选择?需要考虑两个因素,一是top组合平均表现的估计误差。肯定不能选的太少,否则预测误差会很大;二是相对于整个杂交种群体,top组合的遗传多样性趋于狭窄。为了保持较高的多样性,尽可能多的选择top组合,同时保证预测平均值较高。当然,也不能选择太多,既增加了工作量,又没有达到有效选择的目的。

  2. 候选群体选择

  假设要对1000个品种进行半双列杂交(half-diallel cross),会产生 1000×(1000−1)/2=499500 个可能的杂交种。如果最终选择100个最佳组合,则选择比例为100/499500=0.0002。从这一点看,即便是低预测能力的模型,也会带来巨大效益,这就是育种方程式中选择强度的作用。问题是我们如何选择用于建模的杂交种?比如,我用500个杂种建模,估算出的参数用于预测所有499500个潜在杂种,条件是选择的这500个杂交组合应使其基因组组成尽可能均匀的代表亲本基因组。这里作者选择了从重组自交系衍生而来的IMF2杂交群体。训练集的选择是GS和机器学习中的重点和难点,尤其在作物育种群体中,后面如有可能,我们专题介绍。

  3. 模型与效应

  很多研究已经表明了GS各类模型的预测能力差异并不大,此文也不例外。但总体而言,GBLUP的稳健性是最好的,尤其当一大堆标记上来,它的优势就很明显了。非加性效应在这里并没有体现出明显提升的作用,这与样本量也有关系。而且GS预测的是综合表现,而非仅仅杂种优势。但本文没有考虑环境效应(GxE),导致验证群体中低遗传力性状的预测效果不佳。总之,本文对于我们如何研究和应用GS在杂交稻表现的预测上,提供了较好的思路。

 

  References

  [1] Predicting hybrid performance in rice using genomic best linear unbiased prediction: https://www.pnas.org/content/111/34/12456.long


相关推荐

新品发布 | 百奥云推出基因组局部组装服务

百奥云基于二代/三代测序数据以及中间结果文件(如fq/bam),自研局部组装算法与流程,并结合了大数据产品基因云湖(GenoLake)的海量数据管理、查询与分析等功能,为用户提供个性化的局部组装服务。通过百奥云的局部组装方案,用户可以快速获取基因/蛋白全长序列信息,避免传统实验所带来的时间和资源浪费,加快决策周期,提高研究和生产效率。同时,还可有效地解决大规模测序数据存储、查询和分析等问题,提高数据利用率,获取更全面的基因组信息,助力动植物研究和育种生产的顺利进行。

04-07

2024

AI大数据 | 百奥云育种数据科学家顾林林发表一种高效精准的集成学习基因组选择方法ELPGV

是否存在一种方法可以整合各种模型的结果以期望获得更加精准的预测呢?

04-03

2024

喜讯 | 百奥云助力湖南农大解析水稻耐盐杂种优势之谜

近日,湖南农业大学刘次桃/段美娟团队在国际著名期刊《Journal of Integrative Plant Biology》上发表研究论文:The OsWRKY72–OsAAT30/OsGSTU26 module mediates reactive oxygen species scavenging to drive heterosis for salt tolerance in hybrid rice。百奥云大数据部门负责人彭建祥以共同作者身份为本研究提供了个性化的数据分析支持。

03-21

2024

水稻智能育种联盟 | 水稻种质资源、品种观摩暨育种创新提升工程恳谈会圆满举行

2024年3月21日上午,水稻智能育种联盟2024水稻种质资源、品种观摩暨育种创新提升工程恳谈会圆满举行,本次会议共有三十余名水稻种业同仁参会,分别来自十余家种企及科研单位,就如何充分利用数字化能力,将我国的种质资源优势进一步转化为育种创新优势的问题齐聚一起,共商水稻种质资源交流与合作共赢,探索水稻品种自主创新能力提升路径

03-21

2024

百奥云为南繁种业发展注入新动力,水稻基因体检服务首次参展

百奥云本次大会携水稻基因体检服务首次参展,诚邀各位专家、老师及同仁共同探讨探讨未来农业发展的新趋势和技术创新。

03-21

2024

会议邀请 | 百奥云与您相约2024中国种子(南繁硅谷)大会

百奥云参加此次大会并在B11展台进行展示,现场还有产品讲解及抽奖小礼品。欢迎广大业界同仁前来展台交流,共谋发展,我们在此真诚期待您的到来。

03-08

2024