【GS专栏】2-全基因组选择模型之BLUP
知识/政策规划
2021-01-12
1.前言
上一篇:【GS专栏】1-全基因组选择介绍,我们简单介绍了全基因组选择的概念,本篇我们重点介绍GS的核心部分——模型。我们将分为BLUP类、贝叶斯类和机器学习等三类方法分别进行介绍,这一次先来谈谈BLUP方法。
在介绍GS模型之前,有必要先了解一下混合线性模型(Mixed Linear Model,MLM)。混合线性模型是一种方差分量模型,既然是线性模型,意味着各量之间的关系是线性的,可以应用叠加原理,即几个不同的输入量同时作用于系统的响应,等于几个输入量单独作用的响应之和(公式1)。
𝒚=Xβ+e=𝒃𝟎+𝒃1𝒙1+𝒃2𝒙2+⋯+𝒃𝒌𝒙𝒌+𝒆 (公式1)
式中𝒚表示响应变量的测量值向量,X 为固定效应自变量的设计矩阵, β 是与X 对应的固定效应参数向量;𝒃𝟎、𝒃1、⋯、𝒃𝒌是未知参数;𝒙𝟎、𝒙1、⋯、𝒙𝒌是影响各因素的观察值;𝒆是残差。同时需要满足条件:E(y)=Xβ,Var(y)=σ2I, y 服从正态分布。
既然是混合效应模型,则既含有固定效应,又含有随机效应。所谓固定效应是指所有可能出现的等级或水平是已知且能观察的,如性别、年龄、品种等。所谓随机效应是指随机从总体中抽取样本时可能出现的水平,是不确定的,如个体加性效应、母体效应等(公式2)。
y=Xβ+Zμ+𝒆(公式2)
式中y 为观测值向量;β 为固定效应向量;μ 为随机效应向量,服从均值向量为0、方差协方差矩阵为G的正态分布μ ~ N(0,G);X 为固定效应的关联矩阵;Z 为随机效应的关联矩阵;𝒆为随机误差向量,其元素不必为独立同分布,即𝒆 ~ N(0,R)。同时假定Cov(G,R)=0,即G与R间无相关关系,y的方差协方差矩阵变为Var(y)=ZGZ+R。若Zμ不存在,则为固定效应模型。若Xβ不存在,则为随机效应模型。
在传统的线性模型中,除线性关系外,响应变量还有正态性、独立性和方差齐性的假定。混合线性模型既保留了传统线性模型中的正态性假定条件,又对独立性和方差齐性不作要求,从而扩大了适用范围,目前已广泛应用于基因组选择。
2. BLUP方法
很早以前C.R.Henderson就从理论上提出了最佳线性无偏预测(Best Linear Unbiased Prediction,BLUP)的统计方法,但由于计算技术滞后限制了应用。直到上世纪70年代中期,计算机技术的发展为BLUP在育种中的应用提供了可能。BLUP结合了最小二乘法的优点,在协方差矩阵已知的情况下,BLUP是分析动植物育种目标性状理想的方法,其名称含义如下:
- 最佳:估计误差最小,估计育种值与真实育种值的相关性最大;
- 线性:估计是基于线性模型(估计值与观察值呈线性关系);
- 无偏:估计值的数学期望为真值(固定效应)或被估计量的数学期望(随机效应);
- 预测:预测一个个体的种用价值(随机遗传效应)。
在混合线性模型中,BLUP是对随机效应中随机因子的预测,BLUE(Best Linear Unbiased Estimation)则是对固定效应中的固定因子的估算。在同一个方程组中既能对固定效应进行估计,又能对随机遗传效应进行预测。
ABLUP
BLUP方法最初应用在动物育种上。传统的动物模型是基于系谱信息构建的亲缘关系矩阵(又称A矩阵)来求解混合模型方程组(Mixed Model Equations,MME)的,因此称之ABLUP或PBLUP。Henderson提出的MME如下所示:
式中X为固定效应矩阵,Z为随机效应矩阵,Y为观测值矩阵。其中R和G:
其中A为亲缘关系矩阵,因此可转化公式为:
进一步可转化为:
式中,X、Y、Z矩阵均已知,亲缘关系逆矩阵A-1可计算得到,k值计算如下:
通过求解方程组,计算残差和加性方差的方差组分,即可得到固定因子效应值和随机因子效应值
作为传统BLUP方法,ABLUP完全基于系谱信息来构建亲缘关系矩阵,进而求得育种值,此方法在早期动物育种中应用较多,现在已基本不单独使用。
GBLUP
VanRaden于2008年提出了基于G矩阵的GBLUP(Genomic Best Linear unbiased prediction)方法,G矩阵由所有SNP标记构建,公式如下:
式中pi 表示位点i 的最小等位基因频率,Z 表示个体基因型矩阵。
GBLUP通过构建基因组关系矩阵G代替基于系谱信息构建的亲缘关系矩阵A,进而直接估算个体育种值。
GBLUP求解过程同传统BLUP方法,仅仅在G矩阵构建不同。除了VanRaden的基因组关系构建G矩阵外,还有其他G矩阵构建方法,但应用最多的还是VanRaden提出的方法。如Yang等提出的按权重计算G矩阵:
Goddard等提出的基于系谱A矩阵计算G矩阵:
GBLUP的实现只需要构建G矩阵,因此运算快,相比于A阵,G矩阵能真实反映个体间遗传信息的差异,降低了孟德尔抽样造成的偏差,因此相比于ABLUP具有更高的准确性。目前GBLUP已经广泛应用于动植物育种中,并且因为它的高效、稳健等优点,现在仍饱受青睐。GBLUP假设所有标记对G矩阵具有相同的效应,而在实际基因组范围中只有少量标记具有主效应,大部分标记效应较小,因此GBLUP仍有很大的改进空间。
SSBLUP
在动物育种中,由于各种各样的原因导致大量具有系谱记录和表型信息的个体没有基因型,单步法GBLUP(single-step GBLUP,SSGBLUP或SSBLUP)就是解决育种群体中无基因型个体和有基因型个体的基因组育种值估计问题。
SSGBLUP将传统BLUP和GBLUP结合起来,即把基于系谱信息的亲缘关系矩阵A和基因组关系矩阵G进行整合,建立新的关系矩阵H,达到同时估计有基因型和无基因型个体的育种值。
H矩阵构建方法:
式中A、G分别为A矩阵和G矩阵,下标1、2分别为无基因型个体和有基因型个体。由于G为奇异矩阵时无法求逆,VanRaden又提出将G定义为Gw= (1-w)G + wA22,则H逆矩阵可转化为:
式中w为加权因子,即多基因遗传效应所占比例。
构建H矩阵后,其求解MME过程也是与传统BLUP一样:
SSBLUP由于基因分型个体同时含有系谱记录和表型数据,相对于GBLUP往往具有更高的准确性。该方法已成为当前动物育种中最常用的动物模型之一。在植物育种中,往往缺乏较全面的系谱信息,群体中个体的基因型也容易被测定,因此没有推广开来。
RRBLUP
如果把GBLUP中构建协变量的个体亲缘关系矩阵换成SNP标记构成的关系矩阵,构建模型,然后对个体进行预测,这就是RRBLUP(Ridge Regression Best Linear Unbiased Prediction)的思路。
为什么不直接用最小二乘法?最小二乘法将标记效应假定为固定效应,分段对所有SNP进行回归,然后将每段中显著的SNP效应相加得到个体基因组育种值。该方法只考虑了少数显著SNP的效应,很容易导致多重共线性和过拟合。
RRBLUP是一种改良的最小二乘法,它能估计出所有SNP的效应值。该方法将标记效应假定为随机效应且服从正态分布,利用线性混合模型估算每个标记的效应值,然后将每个标记效应相加即得到个体估计育种值。
一般而言,基因型数据中标记数目远大于样本数(p>>n)。RRBLUP因为是以标记为单位进行计算的,其运行时间相比GBLUP更长,准确性相当。
GBLUP是直接法的代表,它把个体作为随机效应,参考群体和预测群体遗传信息构建的亲缘关系矩阵作为方差协方差矩阵,通过迭代法估计方差组分,进而求解混合模型获取待预测个体的估计育种值。RRBLUP是间接法的代表,它首先计算每个标记效应值,再对效应值进行累加,进而求得育种值。下图比较了两类方法的异同:
直接法估计,间接法估计标记效应之和
。当K=M’M且标记效应g服从独立正态分布(如上图所示)时,两种方法估计的育种值是一样的,即
好了,本期基因组选择的BLUP模型分享就到这里啦,下期由小百老师继续介绍贝叶斯类方法,敬请期待!
参考资料
- McGowan M et al, Ideas inGenomic Selection with the Potential to Transform Plant Molecular Breeding: AReview. Preprints 2020, 2020100460.
- VANRADEN P M. Efficient methodsto compute genomic predictions. J Dairy Sci, 2008, 91(11): 4414–4423.
- Jingjing Bao et al. Researchprogress on genomic selectino methods in livestock and poultry. China AnimalHusbandry & Veterinary Medicine. 2020, 47(10): 3297-3304.
- Lilin Yin et al. The Progressand Prospect of Genomic Selection Models. Acta Veterinaria et ZootechnicaSinica, 2019, 50(2): 233-242.
- CHRISTENSEN O F, LUND M S.Genomic prediction when some animals are not genotyped. Genet Sel Evol, 2010,42: 2.
- M.E.Goddard et al. Using the genomic relationship matrix to predict the accuracy ofgenomic selection, J. Anim. Breed. Genet. 128 (2011) 409–421.
下一篇:
相关推荐
百奥繁育 | 良种选育的信息管理系统
8月25日,江西省水稻种质资源创新交流及智能育种技术研讨会在江西省农科院顺利召开。江西农业大学、江西师范大学、广东省农科院、江西省农科院、中国水稻所江西早稻中心、南昌市农科院、赣州市农科所有关专家代表以及省内种企代表共约40人参与了本次交流会议。
育种4.0时代,比拼的是科技创新,关键是通过数字化、信息化、智能化让育种过程缩短周期、提升效率、降低风险,而这也是长沙百奥云数据科技有限公司(百奥云)的创业初衷。
有人说,植物育种的过程就像工厂流水线。挑选的种质即原材料,根据市场需求进行设计与加工,送入田间生产线后,一代代优中选优,还得经过严格的产量、品质、抗性测试,过五关斩六将,最终拿到审定编号,成为可以推广的成熟产品。 虽然流程相似,但育种工作远不及工厂生产那样标准。田间环境气候复杂、真实性状判断困难、水肥条件难以统一……种种困难下,选育良种成了概率事件,育种家们都有种“尽人事听天命”的无奈感。
1. 利用PopGenomics快速对基因组实现高质量组装 基因组组装是将全基因组测序的小片段(reads长度100 bp-100 kb)通过算法拼接成尽量长的片段(contig 和scaffold,长度几十kb 到Mb 不等)或者整条染色体的过程。获得包含基因组全序列的参考基因组是对动植物进行基因组学研究和育种利用的前提[1]。 由于植物基因组具有非常丰富的多样性,参考已发表的少数物种组装新的物种,有时却无法达到理想的组装效果。测序技术发展提供了短序列测序、单分子测序、光学图谱、Hi-C 图谱等多种测序技术及其组合的组装方案,到目前为止,已经有上千个植物基因组被组装(图1)。然而,如何以最低成本快速获得满足需求的高质量基因组,仍然是科研人员和育种数据分析人员普遍面临的一个问题。
7月26日,顶着炎炎夏日 在公司CSO桂進老师的带领下 举行了一场别开生面的劳动体验。