【GS专栏】3-全基因组选择模型之Bayes

知识/政策规划

2021-01-18


  上一篇:【GS专栏】2—全基因组选择模型之BLUP,我们介绍了全基因组选择模型的BLUP方法,这一次我们继续来分享GS的Bayes方法。

  基于BLUP理论的基因组选择方法假定所有标记都具有相同的遗传方差,而实际上在全基因组范围内只有少数SNP有效应,且与影响性状的QTL连锁,大多数SNP是无效应的。当我们将标记效应的方差假定为某种先验分布时,模型变成了贝叶斯方法。常见的贝叶斯方法也是Meuwissen提出来的(就是提出GS的那个人),主要有BayesA、BayesB、BayesC、Bayesian Lasso等。

  BayesA

  BayesA假设每个SNP都有效应且服从正态分布,效应方差服从尺度逆卡方分布。BayesA方法事先假定了两个与遗传相关的参数,自由度v和尺度参数S。它将Gibbs抽样引入到马尔科夫链蒙特卡洛理论(MCMC)中来计算标记效应。

  BayesB

  BayesB假设少数SNP有效应,且效应方差服从服从逆卡方分布,大多数SNP无效应(符合全基因组实际情况)。BayesB方法的标记效应方差的先验分布使用混合分布,难以构建标记效应和方差各自的完全条件后验分布,因此BayesB使用Gibbs和MH(Metropolis-Hastings)抽样对标记效应和方差进行联合抽样。

  BayesB方法在运算过程中引入一个参数π。假定标记效应方差为0的概率为π,服从逆卡方分布的概率为1-π,当π为1时,所有SNP都有效应,即和BayesA等价。当遗传变异受少数具有较大影响的QTL控制时,BayesB方法准确性较高。

  BayesC/Cπ/Dπ

  BayesB中的参数π是人为设定的,会对结果带来主观影响。BayesC、BayesCπ、BayesDπ等方法对BayesB进行了优化。BayesC方法将π作为未知参数,假定其服从U(0,1)的均匀分布,并假设有效应的SNP的效应方差不同。BayesCπ方法在BayesC的基础上假设SNP效应方差相同,并用Gibbs抽样进行求解。BayesDπ方法对未知参数π和尺度参数S进行计算,假设S的先验分布和后验分布均服从(1,1)分布,可直接从后验分布中进行抽样。下图较为形象地说明了不同方法的标记效应方差分布:

 

 

  Bayesian Lasso

  Bayesian Lasso(Least absolute shrinkage and selection operator)假设标记效应方差服从指数分布的正态分布,即拉普拉斯(Laplace)分布。其与BayesA的区别在于标记效应服从的分布不同,BayesA假设标记效应服从正态分布。Laplace分布可允许极大值或极小值以更大概率出现。

  从以上各类贝叶斯方法可看出,贝叶斯方法的重点和难点在于如何对超参的先验分布进行合理的假设。

  Bayes模型相比于BLUP方法往往具有更多的待估参数,在提高预测准确度的同时带来了更大的计算量。MCMC需要数万次的迭代,每一次迭代需要重估所有标记效应值,该过程连续且不可并行,需消耗大量的计算时间,限制了其在时效性需求较强的动植物育种实践中的应用。

  为提高运算速度和准确度,很多学者对Bayes方法中的先验假设和参数进行优化,提出了fastBayesA、BayesSSVS、fBayesB、emBayesR、EBL、BayesRS、BayesTA等。但目前最常用的Bayes类方法还是上述的几种。

  各种模型的预测准确度较大程度的取决于其模型假设是否适合所预测表型的遗传构建。一般而言,调参后贝叶斯方法的准确性比BLUP类方法要略高,但运算速度和鲁棒性不如BLUP。因此,我们应根据自身需求权衡利弊进行合理选择。

  本期基因组选择的Bayes模型分享就到这里啦,下期由小百老师继续介绍机器学习方法及其他GS模型研究热点,敬请期待!

 

  参考资料

  • T. H. E. Meuwissen et al. Prediction of Total Genetic Value Using Genome-Wide Dense Marker Maps. GENETICS April 1, 2001 vol. 157 no. 4 1819-1829.
  • McGowan M et al. Ideas in Genomic Selection with the Potential to Transform Plant Molecular Breeding: A Review. Preprints 2020, 2020100460.
  • Xin Wang et al. Genomic selection methods for crop improvement: Current status and prospects. The Crop Journal, Volume 6, Issue 4, August 2018, Pages 330-340.
  • Jingjing Bao et al. Research progress on genomic selectino methods in livestock and poultry. China Animal Husbandry & Veterinary Medicine. 2020, 47(10): 3297-3304.
  • Lilin Yin et al. The Progress and Prospect of Genomic Selection Models. Acta Veterinaria et Zootechnica Sinica, 2019, 50(2): 233-242.

相关推荐

新品发布 | 百奥云推出基因组局部组装服务

百奥云基于二代/三代测序数据以及中间结果文件(如fq/bam),自研局部组装算法与流程,并结合了大数据产品基因云湖(GenoLake)的海量数据管理、查询与分析等功能,为用户提供个性化的局部组装服务。通过百奥云的局部组装方案,用户可以快速获取基因/蛋白全长序列信息,避免传统实验所带来的时间和资源浪费,加快决策周期,提高研究和生产效率。同时,还可有效地解决大规模测序数据存储、查询和分析等问题,提高数据利用率,获取更全面的基因组信息,助力动植物研究和育种生产的顺利进行。

04-07

2024

AI大数据 | 百奥云育种数据科学家顾林林发表一种高效精准的集成学习基因组选择方法ELPGV

是否存在一种方法可以整合各种模型的结果以期望获得更加精准的预测呢?

04-03

2024

百奥云为南繁种业发展注入新动力,水稻基因体检服务首次参展

百奥云本次大会携水稻基因体检服务首次参展,诚邀各位专家、老师及同仁共同探讨探讨未来农业发展的新趋势和技术创新。

03-21

2024

喜讯 | 百奥云助力湖南农大解析水稻耐盐杂种优势之谜

近日,湖南农业大学刘次桃/段美娟团队在国际著名期刊《Journal of Integrative Plant Biology》上发表研究论文:The OsWRKY72–OsAAT30/OsGSTU26 module mediates reactive oxygen species scavenging to drive heterosis for salt tolerance in hybrid rice。百奥云大数据部门负责人彭建祥以共同作者身份为本研究提供了个性化的数据分析支持。

03-21

2024

水稻智能育种联盟 | 水稻种质资源、品种观摩暨育种创新提升工程恳谈会圆满举行

2024年3月21日上午,水稻智能育种联盟2024水稻种质资源、品种观摩暨育种创新提升工程恳谈会圆满举行,本次会议共有三十余名水稻种业同仁参会,分别来自十余家种企及科研单位,就如何充分利用数字化能力,将我国的种质资源优势进一步转化为育种创新优势的问题齐聚一起,共商水稻种质资源交流与合作共赢,探索水稻品种自主创新能力提升路径

03-21

2024