【GS专栏】5-全基因组选择模型之完结篇
知识/政策规划
2021-02-03
前面我们主要介绍了GS中的BLUP、Bayes和机器学习三大类模型,它们都是目前GS应用的主要方法。当然,这种分类方式只是小百老师主观设定的哦。这里再介绍几种我们前面没提及到,但又比较重要的方法,它们基本上都是这三类方法的拓展。
RKHS
再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS)是一种典型的半参数方法。它使用高斯核函数来拟合以下模型:
式中α是均值为0、协方差矩阵为Khσα2的多变量正态分布;ε ~ N(0,Inσ2);Kh是代表个体相关性的核函数,等式中dij是个体i和j根据基因型计算的欧氏距离的平方,平滑参数h定义为dij均值的一半。
RKHS模型可采用贝叶斯框架的Gibbs抽样器,或者混合线性模型来求解。
GWAS-assisted GS
GBLUP仍然是GS应用于动植物育种中的基础方法,它假定所有标记都具有相同的效应。但在实际情况中,任何与目标性状无关的标记用来估计亲缘关系矩阵都会稀释QTL的作用。因此,很多研究对其进行改进,主要有以下几种思路:
1)对随机效应中的不同标记给予不同权重,构建性状特异性关系矩阵,最典型的方法如TABLUP(trait-specific relationship matrix BLUP)。给标记分配不同权重也有多种方法,比如用BayesB估计(TAB),用RRBLUP估计(TAP),或者根据性状候选位点出现的次数来分配等;2)将标记分类,按照不同染色体区域、与性状关联程度大小等条件,将标记分为不同的组别,在模型中设置两个或多个随机效应;3)将已验证或新发现位点的标记作为固定效应;4)将已验证或新发现位点的标记作为另一个随机效应。
沿用以上的思路,sBLUP(Settlement of Kinship Under Progressively Exclusive Relationship BLUP, SUPER BLUP)方法将TABLUP进一步细化为少数基因控制的性状,这样基因型关系矩阵的构建仅仅使用了与性状关联的标记。
如果要在亲缘关系矩阵中考虑群体结构带来的影响,可根据个体遗传关系的相似性将其分组,然后将压缩后的组别当做协变量,替换掉原来的个体,而组内个体的亲缘关系都是一样的。因此在构建基因组关系矩阵时,可用组别的遗传效应值来代替个体的值,用个体对应的组来进行预测,这就是cBLUP(Compressed BLUP)。
以上思路都提到了将已验证和新发现的位点整合到模型中,那么这些位点从何而来?最常见来源自然是全基因组关联分析(Genome Wide Association Study, GWAS)。GS和GWAS有着天然的联系,二者都是混合线性模型,只是前者更多关注随机效应部分,而后者更多聚焦在固定效应部分。将GWAS的显著关联位点考虑进GS中,直接的好处是能维持多世代的预测能力,间接的好处是能增加已验证突变的数量。
下图1比较了GWAS辅助基因组预测的各类方法。a表示分子标记辅助选择方法(Molecular Marker-Assisted Selection , MAS),只利用了少数几个主效位点;b表示经典GS方法,利用了全部标记,且标记效应相同;c对标记按权重分配;d将显著关联标记视为固定效应;e将显著关联标记视为另一个随机效应(有其自身的kernel derived);f将染色体划分为片段,每个片段构建的G矩阵分配为不同的随机效应。
GWAS辅助基因组预测的结果解读会比较复杂,单纯地考虑将关联信号纳入模型不一定都能提高准确性,具体表现应该和性状的遗传构建有关。
非加性效应
GS对遗传效应的估计有两种不同的策略。一是关注估计育种值,将加性效应从父母传递给子代。而非加性效应(如显性和上位性效应)与特定基因型相关,不能直接遗传。当估计方差组分时,非加性效应通常和随机的环境效应一起被当成噪音处理。另一种策略同时关注加性和非加性效应,通常用于杂种优势的探索。杂交优势一般认为是显性和上位性效应作用的结果,因此,如果非加性效应很明显,而我们恰好将之忽略了,遗传估计可能会产生严重偏差。
杂种优势利用是植物育种,尤其是水稻、玉米等主粮作物的重要研究课题。将非加性遗传效应考虑进GS模型进行杂交种预测,也是当前基因组预测在作物育种中研究的热点之一。
当然,杂种优势效应的组成也是随性状而变化的,不同性状的基因组预测需要与鉴定杂优QTL位点结合起来。由于一般配合力GCA(加性效应的反映)和特殊配合力SCA(非加性效应的反映)可能来自不同遗传效应,所以预测杂交种F1应该分别考虑GCA和SCA。GCA模型可以基于GBLUP,重点在基因型亲缘关系矩阵构建。SCA模型有两种方法:一是将杂优SNP位点的Panel作为固定效应整合进GBLUP模型中;二是使用非线性模型,如贝叶斯和机器学习方法。据报道,对于加性模型的中低遗传力性状,机器学习和一般统计模型比较一致。但在非加性模型中,机器学习方法表现更优。
多变量模型
传统的GS模型往往只针对单个环境中的单个表型性状,忽略了实际情况中多性状间或多环境间的相互关系。一些研究通过对多个性状或多个环境同时进行建模,也能提高基因组预测的准确性。以多性状(Multi-trait,MT)模型为例,多变量模型(Multivariate model,MV)可用如下公式表示:
式中y = [y1T,y2T,…,ysT ]T; b = [b1T,b2T,…,bsT ]T; a = [a1T,a2T,…,asT ]T; ε = [ε1T,ε2T,…,εsT ]T,s表示s个性状。非遗传效应b作为固定效应,加性效应a和残差ε作为随机效应,并服从多变量正态分布:a ~ N(0,Ga0 ⨂ Gσa2) ,ε ~ N(0,Rε ⨂ Imσε2 ),其中G为G矩阵,⨂为克罗内克矩阵乘积,m为表型观测值数,Im为m×m单位矩阵,X和Za分别为固定效应和随机加性效应关联矩阵。Ga0和Rε的加性效应协方差矩阵可表示为:
式中σai2和 σεi2分别是第i个性状的加性和残余方差。ρaij 和ρij分别是第i与j性状相关性的加性和残余方差。
多性状选择一般用于性状间共有某种程度的遗传构建,即在遗传上是相关的。尤其适用于对低遗传力性状(伴随高遗传力性状相关)或者难以测量的性状。
农作物的环境条件不如动物容易控制,而且大部分性状都是数量性状,很容易受到环境影响。多环境(Multi-environment,ME)试验发挥了重要作用,基因型与环境互作(Genotype by Environment,G × E)效应也是当前基因组选择关注的焦点。
除了GBLUP,多变量模型也可基于贝叶斯框架的线性回归,或者基于非线性的机器学习方法。
多组学
我们知道,基因经过转录翻译以及一系列调控后才能最终体现在表型特征上,它只能在一定程度上反映表型事件发生的潜力。随着多组学技术的发展,整合多组学数据用于基因组预测也是目前GS研究的一个重要方向。
在植物育种中,除基因组外,转录组学和代谢组学是当前GS研究相对较多的两个组学。转录组将基因表达量与性状进行关联预测,代谢组则将调控表型的小分子含量与性状进行关联预测,对于某些特定的性状而言,可能会提高预测能力。最好的方法是将各个组学的数据共同整合进模型,但这样会大大增加模型的复杂度。
表型测定的准确性直接影响模型的构建。对于一些复杂性状,单凭肉眼观察记录显然已不可取,而且表型调查费时费力,成本很高。因此,高通量表型组也是GS发展的重要方向。表型的范畴非常之广,当个体性状不可简单测量时,我们也可采用多组学数据,如蛋白组、代谢组等数据来替代。
考虑到成本效益问题,多组学技术在动植物育种中仍处于研究阶段,但代表了未来的应用方向。
小结
到这里,GS的主要模型基本上已经介绍完了。最后,我们对前面的内容做一个小结。
1)GS模型多种多样,可按不同角度进行分类,比如直接法和间接法,参数、半参数和非参数法,线性和非线性方法,BLUP、Bayes和机器学习,加性和非加性效应模型等。2)ABLUP、GBLUP和SSBLUP的区别仅在于亲缘关系矩阵构建的信息不同,GBLUP仍是目前GS模型的基础和主流。3)传统GS模型中,GBLUP以个体为单位,通过基因型亲缘关系矩阵直接估算育种值,计算快;RRBLUP以标记为单位,通过迭代法估算标记效应,再进行累加求得育种值,运行速度慢;不同Bayes方法具有不同的先验分布,产生不同程度的收缩,其准确性略高于GBLUP,但运算慢;机器学习方法无太多条件限制,适用性广,但稳健性较差,预测能力视不同性状的遗传结构而定。4)新模型的开发主要在GBLUP和Bayes方法的基础上改进,以及深度学习方法上的优化和探索。GWAS辅助GS、非加性效应和多变量模型是植物育种中的研究热点。多组学数据整合模型是未来GS应用的重要方向。5)没有一个通用的模型,育种家应该根据自己的实际需求合理设计育种方案,针对特定群体和性状构建相应的GS模型,模型需要在准确性、鲁棒性以及时效性等多方面取得平衡。
下图展示了GS模型应用于作物育种中的路线:
参考资料
- McGowan M et al, Ideas in Genomic Selection with the Potential to Transform Plant Molecular Breeding: A Review. Preprints 2020, 2020100460.
- Xin Wang et al. Genomic selection methods for crop improvement: Current status and prospects. The Crop Journal, Volume 6, Issue 4, August 2018, Pages 330-340.
- Jingjing Bao et al. Research progress on genomic selectino methods in livestock and poultry. China Animal Husbandry & Veterinary Medicine. 2020, 47(10): 3297-3304.
- Lilin Yin et al. The Progress and Prospect of Genomic Selection Models. Acta Veterinaria et Zootechnica Sinica, 2019, 50(2): 233-242.
- J. Yang et al. Common SNPs explain a large proportion of the heritability for human height, Nat. Genet. 42 (2010) 565–569.
- M.E. Goddard et al. Using the genomic relationship matrix to predict the accuracy of genomic selection, J. Anim. Breed. Genet. 128 (2011) 409–421.
- Jiabo Wang et al. Expanding the BLUP alphabet for genomic prediction adaptable to the genetic architectures of complex traits. Heredity. 2018,121(6): 648-662.
上一篇:
相关推荐
百奥繁育 | 良种选育的信息管理系统
8月25日,江西省水稻种质资源创新交流及智能育种技术研讨会在江西省农科院顺利召开。江西农业大学、江西师范大学、广东省农科院、江西省农科院、中国水稻所江西早稻中心、南昌市农科院、赣州市农科所有关专家代表以及省内种企代表共约40人参与了本次交流会议。
育种4.0时代,比拼的是科技创新,关键是通过数字化、信息化、智能化让育种过程缩短周期、提升效率、降低风险,而这也是长沙百奥云数据科技有限公司(百奥云)的创业初衷。
有人说,植物育种的过程就像工厂流水线。挑选的种质即原材料,根据市场需求进行设计与加工,送入田间生产线后,一代代优中选优,还得经过严格的产量、品质、抗性测试,过五关斩六将,最终拿到审定编号,成为可以推广的成熟产品。 虽然流程相似,但育种工作远不及工厂生产那样标准。田间环境气候复杂、真实性状判断困难、水肥条件难以统一……种种困难下,选育良种成了概率事件,育种家们都有种“尽人事听天命”的无奈感。
1. 利用PopGenomics快速对基因组实现高质量组装 基因组组装是将全基因组测序的小片段(reads长度100 bp-100 kb)通过算法拼接成尽量长的片段(contig 和scaffold,长度几十kb 到Mb 不等)或者整条染色体的过程。获得包含基因组全序列的参考基因组是对动植物进行基因组学研究和育种利用的前提[1]。 由于植物基因组具有非常丰富的多样性,参考已发表的少数物种组装新的物种,有时却无法达到理想的组装效果。测序技术发展提供了短序列测序、单分子测序、光学图谱、Hi-C 图谱等多种测序技术及其组合的组装方案,到目前为止,已经有上千个植物基因组被组装(图1)。然而,如何以最低成本快速获得满足需求的高质量基因组,仍然是科研人员和育种数据分析人员普遍面临的一个问题。
7月26日,顶着炎炎夏日 在公司CSO桂進老师的带领下 举行了一场别开生面的劳动体验。