【GS专栏】5-全基因组选择模型之完结篇

知识/政策规划

2021-02-03


  前面我们主要介绍了GS中的BLUP、Bayes和机器学习三大类模型,它们都是目前GS应用的主要方法。当然,这种分类方式只是小百老师主观设定的哦。这里再介绍几种我们前面没提及到,但又比较重要的方法,它们基本上都是这三类方法的拓展。

  RKHS

  再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS)是一种典型的半参数方法。它使用高斯核函数来拟合以下模型:

 

 

  式中α是均值为0、协方差矩阵为Khσα2的多变量正态分布;ε ~ N(0,Inσ2);Kh是代表个体相关性的核函数,等式中dij是个体i和j根据基因型计算的欧氏距离的平方,平滑参数h定义为dij均值的一半。

  RKHS模型可采用贝叶斯框架的Gibbs抽样器,或者混合线性模型来求解。

  GWAS-assisted GS

  GBLUP仍然是GS应用于动植物育种中的基础方法,它假定所有标记都具有相同的效应。但在实际情况中,任何与目标性状无关的标记用来估计亲缘关系矩阵都会稀释QTL的作用。因此,很多研究对其进行改进,主要有以下几种思路:

  1)对随机效应中的不同标记给予不同权重,构建性状特异性关系矩阵,最典型的方法如TABLUP(trait-specific relationship matrix BLUP)。给标记分配不同权重也有多种方法,比如用BayesB估计(TAB),用RRBLUP估计(TAP),或者根据性状候选位点出现的次数来分配等;2)将标记分类,按照不同染色体区域、与性状关联程度大小等条件,将标记分为不同的组别,在模型中设置两个或多个随机效应;3)将已验证或新发现位点的标记作为固定效应;4)将已验证或新发现位点的标记作为另一个随机效应。

  沿用以上的思路,sBLUP(Settlement of Kinship Under Progressively Exclusive Relationship BLUP, SUPER BLUP)方法将TABLUP进一步细化为少数基因控制的性状,这样基因型关系矩阵的构建仅仅使用了与性状关联的标记。

  如果要在亲缘关系矩阵中考虑群体结构带来的影响,可根据个体遗传关系的相似性将其分组,然后将压缩后的组别当做协变量,替换掉原来的个体,而组内个体的亲缘关系都是一样的。因此在构建基因组关系矩阵时,可用组别的遗传效应值来代替个体的值,用个体对应的组来进行预测,这就是cBLUP(Compressed BLUP)。

  以上思路都提到了将已验证和新发现的位点整合到模型中,那么这些位点从何而来?最常见来源自然是全基因组关联分析(Genome Wide Association Study, GWAS)。GS和GWAS有着天然的联系,二者都是混合线性模型,只是前者更多关注随机效应部分,而后者更多聚焦在固定效应部分。将GWAS的显著关联位点考虑进GS中,直接的好处是能维持多世代的预测能力,间接的好处是能增加已验证突变的数量。

  下图1比较了GWAS辅助基因组预测的各类方法。a表示分子标记辅助选择方法(Molecular Marker-Assisted Selection , MAS),只利用了少数几个主效位点;b表示经典GS方法,利用了全部标记,且标记效应相同;c对标记按权重分配;d将显著关联标记视为固定效应;e将显著关联标记视为另一个随机效应(有其自身的kernel derived);f将染色体划分为片段,每个片段构建的G矩阵分配为不同的随机效应。

 

 

  GWAS辅助基因组预测的结果解读会比较复杂,单纯地考虑将关联信号纳入模型不一定都能提高准确性,具体表现应该和性状的遗传构建有关。

  非加性效应

  GS对遗传效应的估计有两种不同的策略。一是关注估计育种值,将加性效应从父母传递给子代。而非加性效应(如显性和上位性效应)与特定基因型相关,不能直接遗传。当估计方差组分时,非加性效应通常和随机的环境效应一起被当成噪音处理。另一种策略同时关注加性和非加性效应,通常用于杂种优势的探索。杂交优势一般认为是显性和上位性效应作用的结果,因此,如果非加性效应很明显,而我们恰好将之忽略了,遗传估计可能会产生严重偏差。

  杂种优势利用是植物育种,尤其是水稻、玉米等主粮作物的重要研究课题。将非加性遗传效应考虑进GS模型进行杂交种预测,也是当前基因组预测在作物育种中研究的热点之一。

  当然,杂种优势效应的组成也是随性状而变化的,不同性状的基因组预测需要与鉴定杂优QTL位点结合起来。由于一般配合力GCA(加性效应的反映)和特殊配合力SCA(非加性效应的反映)可能来自不同遗传效应,所以预测杂交种F1应该分别考虑GCA和SCA。GCA模型可以基于GBLUP,重点在基因型亲缘关系矩阵构建。SCA模型有两种方法:一是将杂优SNP位点的Panel作为固定效应整合进GBLUP模型中;二是使用非线性模型,如贝叶斯和机器学习方法。据报道,对于加性模型的中低遗传力性状,机器学习和一般统计模型比较一致。但在非加性模型中,机器学习方法表现更优。

  多变量模型

  传统的GS模型往往只针对单个环境中的单个表型性状,忽略了实际情况中多性状间或多环境间的相互关系。一些研究通过对多个性状或多个环境同时进行建模,也能提高基因组预测的准确性。以多性状(Multi-trait,MT)模型为例,多变量模型(Multivariate model,MV)可用如下公式表示:

 

 

  式中y = [y1T,y2T,…,ysT ]T; b = [b1T,b2T,…,bsT ]T; a = [a1T,a2T,…,asT ]T; ε = [ε1T,ε2T,…,εsT ]T,s表示s个性状。非遗传效应b作为固定效应,加性效应a和残差ε作为随机效应,并服从多变量正态分布:a ~ N(0,Ga0 ⨂ Gσa2) ,ε ~ N(0,Rε ⨂ Imσε2 ),其中G为G矩阵,⨂为克罗内克矩阵乘积,m为表型观测值数,Im为m×m单位矩阵,X和Za分别为固定效应和随机加性效应关联矩阵。Ga0和Rε的加性效应协方差矩阵可表示为:

 

 

  式中σai2和 σεi2分别是第i个性状的加性和残余方差。ρaij 和ρij分别是第i与j性状相关性的加性和残余方差。

  多性状选择一般用于性状间共有某种程度的遗传构建,即在遗传上是相关的。尤其适用于对低遗传力性状(伴随高遗传力性状相关)或者难以测量的性状。

  农作物的环境条件不如动物容易控制,而且大部分性状都是数量性状,很容易受到环境影响。多环境(Multi-environment,ME)试验发挥了重要作用,基因型与环境互作(Genotype by Environment,G × E)效应也是当前基因组选择关注的焦点。

  除了GBLUP,多变量模型也可基于贝叶斯框架的线性回归,或者基于非线性的机器学习方法。

  多组学

  我们知道,基因经过转录翻译以及一系列调控后才能最终体现在表型特征上,它只能在一定程度上反映表型事件发生的潜力。随着多组学技术的发展,整合多组学数据用于基因组预测也是目前GS研究的一个重要方向。

  在植物育种中,除基因组外,转录组学和代谢组学是当前GS研究相对较多的两个组学。转录组将基因表达量与性状进行关联预测,代谢组则将调控表型的小分子含量与性状进行关联预测,对于某些特定的性状而言,可能会提高预测能力。最好的方法是将各个组学的数据共同整合进模型,但这样会大大增加模型的复杂度。

  表型测定的准确性直接影响模型的构建。对于一些复杂性状,单凭肉眼观察记录显然已不可取,而且表型调查费时费力,成本很高。因此,高通量表型组也是GS发展的重要方向。表型的范畴非常之广,当个体性状不可简单测量时,我们也可采用多组学数据,如蛋白组、代谢组等数据来替代。

  考虑到成本效益问题,多组学技术在动植物育种中仍处于研究阶段,但代表了未来的应用方向。

  小结

  到这里,GS的主要模型基本上已经介绍完了。最后,我们对前面的内容做一个小结。

  1)GS模型多种多样,可按不同角度进行分类,比如直接法和间接法,参数、半参数和非参数法,线性和非线性方法,BLUP、Bayes和机器学习,加性和非加性效应模型等。2)ABLUP、GBLUP和SSBLUP的区别仅在于亲缘关系矩阵构建的信息不同,GBLUP仍是目前GS模型的基础和主流。3)传统GS模型中,GBLUP以个体为单位,通过基因型亲缘关系矩阵直接估算育种值,计算快;RRBLUP以标记为单位,通过迭代法估算标记效应,再进行累加求得育种值,运行速度慢;不同Bayes方法具有不同的先验分布,产生不同程度的收缩,其准确性略高于GBLUP,但运算慢;机器学习方法无太多条件限制,适用性广,但稳健性较差,预测能力视不同性状的遗传结构而定。4)新模型的开发主要在GBLUP和Bayes方法的基础上改进,以及深度学习方法上的优化和探索。GWAS辅助GS、非加性效应和多变量模型是植物育种中的研究热点。多组学数据整合模型是未来GS应用的重要方向。5)没有一个通用的模型,育种家应该根据自己的实际需求合理设计育种方案,针对特定群体和性状构建相应的GS模型,模型需要在准确性、鲁棒性以及时效性等多方面取得平衡。

  下图展示了GS模型应用于作物育种中的路线:

 

 

  参考资料

  • McGowan M et al, Ideas in Genomic Selection with the Potential to Transform Plant Molecular Breeding: A Review. Preprints 2020, 2020100460.
  • Xin Wang et al. Genomic selection methods for crop improvement: Current status and prospects. The Crop Journal, Volume 6, Issue 4, August 2018, Pages 330-340.
  • Jingjing Bao et al. Research progress on genomic selectino methods in livestock and poultry. China Animal Husbandry & Veterinary Medicine. 2020, 47(10): 3297-3304.
  • Lilin Yin et al. The Progress and Prospect of Genomic Selection Models. Acta Veterinaria et Zootechnica Sinica, 2019, 50(2): 233-242.
  • J. Yang et al. Common SNPs explain a large proportion of the heritability for human height, Nat. Genet. 42 (2010) 565–569.
  • M.E. Goddard et al. Using the genomic relationship matrix to predict the accuracy of genomic selection, J. Anim. Breed. Genet. 128 (2011) 409–421.
  • Jiabo Wang et al. Expanding the BLUP alphabet for genomic prediction adaptable to the genetic architectures of complex traits. Heredity. 2018,121(6): 648-662.

相关推荐

新品发布 | 百奥云推出基因组局部组装服务

百奥云基于二代/三代测序数据以及中间结果文件(如fq/bam),自研局部组装算法与流程,并结合了大数据产品基因云湖(GenoLake)的海量数据管理、查询与分析等功能,为用户提供个性化的局部组装服务。通过百奥云的局部组装方案,用户可以快速获取基因/蛋白全长序列信息,避免传统实验所带来的时间和资源浪费,加快决策周期,提高研究和生产效率。同时,还可有效地解决大规模测序数据存储、查询和分析等问题,提高数据利用率,获取更全面的基因组信息,助力动植物研究和育种生产的顺利进行。

04-07

2024

AI大数据 | 百奥云育种数据科学家顾林林发表一种高效精准的集成学习基因组选择方法ELPGV

是否存在一种方法可以整合各种模型的结果以期望获得更加精准的预测呢?

04-03

2024

百奥云为南繁种业发展注入新动力,水稻基因体检服务首次参展

百奥云本次大会携水稻基因体检服务首次参展,诚邀各位专家、老师及同仁共同探讨探讨未来农业发展的新趋势和技术创新。

03-21

2024

喜讯 | 百奥云助力湖南农大解析水稻耐盐杂种优势之谜

近日,湖南农业大学刘次桃/段美娟团队在国际著名期刊《Journal of Integrative Plant Biology》上发表研究论文:The OsWRKY72–OsAAT30/OsGSTU26 module mediates reactive oxygen species scavenging to drive heterosis for salt tolerance in hybrid rice。百奥云大数据部门负责人彭建祥以共同作者身份为本研究提供了个性化的数据分析支持。

03-21

2024

水稻智能育种联盟 | 水稻种质资源、品种观摩暨育种创新提升工程恳谈会圆满举行

2024年3月21日上午,水稻智能育种联盟2024水稻种质资源、品种观摩暨育种创新提升工程恳谈会圆满举行,本次会议共有三十余名水稻种业同仁参会,分别来自十余家种企及科研单位,就如何充分利用数字化能力,将我国的种质资源优势进一步转化为育种创新优势的问题齐聚一起,共商水稻种质资源交流与合作共赢,探索水稻品种自主创新能力提升路径

03-21

2024