【百奥云GS专栏】4-全基因组选择模型之机器学习

知识/政策规划

2021-01-25


  上一篇我们介绍了全基因组选择模型的Bayes方法,这一次我们继续来分享GS的机器学习方法。

  除了基于BLUP和Bayes理论的参数求解方法外,基因组选择还有半参数(如RKHS,见下篇)和非参数,如机器学习(Machine Learning, ML)等方法。机器学习是人工智能的一个分支,其重点是通过将高度灵活的算法应用于观察到的个体(标记的数据)的已知属性(特征)和结果来预测未观察到的个体(未标记的数据)的结果。结果可以是连续的,分类的或二元的。在动植物育种中,标记的数据对应于具有基因型和表型的训练群体,而未标记的数据对应于测试群体,用于预测的特征是SNP基因型。相比于传统统计方法,机器学习方法具有诸多优点:

  1)能处理“p>>n”的问题;

  2)机器学习是个黑箱,无需事先知道变量的分布或目标性状的遗传效应,打破了混合线性模型和贝叶斯假设的限制;

  3)考虑了多个体互作或特征间的相关性;

  4)准确性高,允许重定义训练和验证集以及交叉验证。

 

  支持向量机

  支持向量机(Support Vector Machine,SVM)是典型的非参数方法,属于监督学习方法。它既可解决分类问题,又可用于回归分析。SVM基于结构风险最小化原则,兼顾了模型拟合和训练样本的复杂性,尤其是当我们对自己的群体数据不够了解时,SVM或许是基因组预测的备选方法。

  SVM的基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。在支持向量回归(Support Vector Regression,SVR)中,通常使用近似误差来代替像SVM中那样的最佳分离超平面和支持向量之间的余量。假设ε为不敏感区域的线性损失函数,当测量值和预测值小于ε时,误差等于零。SVR的目标就是同时最小化经验风险和权重的平方范数。也就是说,通过最小化经验风险来估计超平面。

  下图1比较了SVM中回归(图A)和分类(图B)的差别。式中ξ和ξ*为松弛变量,C为用户定义的常数,W为权重向量范数,ϕ表示特征空间映射。

 

 

  当SVM用于预测分析时,高维度的大型数据集会给计算带来极大的复杂性,核函数的应用能大大简化内积,从而解决维数灾难。因此,核函数的选择(需要考虑训练样本的分布特点)是SVM预测的关键。目前最常用的核函数有:线性核函数、高斯核函数(RBF)和多项式核函数等。其中, RBF具有广泛的适应性,能够应用于训练样本(具有适当宽度参数)的任何分布。尽管有时会导致过拟合问题,但它仍是使用最广泛的核函数。

  集成学习

  集成学习(Ensemble Learning)也是机器学习中最常见的算法之一。它通过一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器更好的效果。通俗地说,就是一堆弱学习器组合成一个强学习器。在GS领域,随机森林(Random Forest,RF)和梯度提升机(Gradient Boosting Machine,GBM)是应用较多的两种集成学习算法。

  RF是一种基于决策树的集成方法,也就是包含了多个决策树的分类器。在基因组预测中,RF同SVM一样,既可用做分类模型,也可用做回归模型。用于分类时,注意需要事先将群体中个体按表型值的高低进行划分。RF算法可分为以下几个步骤:

  1)从整个原始数据集中随机取样,将每个自举样本的子集作为根节点;

  2)设置一定数量(mtry)的输入变量(SNPs),然后选择第j个SNP使损失函数最小化。分类问题用熵约束准则,而回归问题用均方误差;

  3)根据第j个SNP的基因型,将当前节点分为两个新的子集;

  4)对每个新节点重复上述2-3步,直到最小节点大小(即个体数)出现为止,通常在5以下;

  5)利用新的自举样本重复上述1-5步构建新树,树的大小一般为ntree > 50-100。

  最后,RF会结合分类树或回归树的输出进行预测。在分类中,通过计算投票数(通常使用每个决策树一票)并分配投票数最高的类别来预测未观察到的类别。在回归中,通过对ntree输出进行求平均。

  有两个影响RF模型结果的重要因素:一是每个节点随机取样的协变量数量(mtry,即SNP数目)。构建回归树时,mtry默认为p/3(p是构建树的预测数量),构建分类树时,mtry为;二是决策树的数量。很多研究表明树并非越多越好,而且构树也是非常耗时的。在GS应用于植物育种中,通常将RF的ntree设置在500-1000之间。

 

  当GBM基于决策树时,就是梯度提升决策树(Gradient Boosting Decision Tree,GBDT),和RF一样,也是包含了多个决策树。但两者又有很多不同,最大的区别在于RF是基于bagging算法,也就是说它将多个结果进行投票或简单计算均值选出最终结果。而GBDT是基于boosting算法,它通过迭代的每一步构建弱学习器来弥补原模型的不足。GBM通过设置不同的损失函数来处理各类学习任务。

  深度学习

  虽然已经有不少研究尝试了将多种经典机器学习算法应用于基因组预测中,但提升的准确性仍然有限,而且比较耗时。在无数的机器学习算法中,没有一种方法能够普遍地提高预测性,不同的应用程序及其最优方法和参数是不同的。相比于经典的机器学习算法,深度学习(Deep Learning,DL)或许是未来应用于基因组预测更好的选择。

  传统的机器学习算法如SVM,一般是浅层模型。而深度学习除了输入和输出层,还含有多个隐藏层,模型结构的深度说明了它名字的含义。DL的实质是通过构建具有很多隐藏层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。DL算法的建模过程可简单分为以下三步:

  1)定义假设函数:定义一个合理的假设函数来描述自变量和应变量之间的关系;

  2)设计损失函数:设计一个合理的损失函数来描述假设函数的好坏,评估参数的优劣;

  3)选择最优函数:通过训练,如用梯度下降来不停地优化损失函数,找到对应的参数,使其对应的误差达到最小 。

  在GS领域,研究较多的DL算法,包括多层感知器(Multi-layer Perceptron,MPL)、卷积神经网络(Convolutional neural network,CNN)和循环神经网络(Recurrent Neural Networks,RNN)等。

  MLP是一种前馈人工神经网络(Artificial Neural Network,ANN)模型,它将输入的多个数据集映射到单一的输出数据集上。MLP包括至少一个隐藏层,如下图2中所示,除了一个输入层和一个输出层以外,还包括了4个隐藏层,每一层都与前一层的节点相连,并赋予不同权重(w),最后通过激活函数转化,将输入映射到输出端。

 

 

  CNN是一类包含卷积计算且具有深度结构的前馈神经网络,通常具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。CNN的隐藏层中包含卷积层(Convolutional layer)、池化层(Pooling layer)和全连接层(Fully-connected layer)三类,每一类都有不同的功能,比如卷积层的功能主要是对输入数据进行特征提取,池化层对卷积层特征提取后输出的特征图进行特征选择和信息过滤,而全连接层类似于ANN中的隐藏层,一般位于CNN隐藏层的最末端,并且只向全连接层传递信号。CNN结构如下图3所示。

 

 

  需要注意的是,深度学习不是万能的。使用DL的前提是必须具有足够大和质量好的训练数据集,而且根据GS在动植物方面的研究表明,一些DL算法和传统的基因组预测方法相比,并没有明显的优势。不过有一致的证据表明, DL算法能更有效地捕获非线性模式。因此,DL能够根据不同来源的数据通过集成GS传统模型来进行辅助育种。总之,面对将来海量的育种数据,DL的应用将显得越来越重要。

  好啦,今天的GS模型之机器学习就分享到这里了。我们下期再继续介绍GS的其他常见模型,最后会对整个GS模型做一个小结,敬请期待哦!

 

  参考资料

  • Miguel Pérez-Enciso et al. A Guide for Using Deep Learning for Complex Trait Genomic Prediction. Genes (Basel). 2019 Jul 20;10(7): 553.
  • Xin Wang et al. Genomic selection methods for crop improvement: Current status and prospects. The Crop Journal, Volume 6, Issue 4, August 2018, Pages 330-340.
  • Osval Antonio Montesinos-López et al. A review of deep learning applications for genomic selection. BMC Genomics volume 22, Article number: 19 (2021).
  • juan Manuel González-Camacho et al. Applications of Machine Learning Methods to Genomic Selection in Breeding Wheat for Rust Resistance. Plant Genome. 2018 Jul; 11(2).
  • Wenlong Ma et al. A deep convolutional neural network approach for predicting phenotypes from genotypes. Planta, 2018, 248(5): 1307-1318.

相关推荐

新品发布 | 百奥云推出基因组局部组装服务

百奥云基于二代/三代测序数据以及中间结果文件(如fq/bam),自研局部组装算法与流程,并结合了大数据产品基因云湖(GenoLake)的海量数据管理、查询与分析等功能,为用户提供个性化的局部组装服务。通过百奥云的局部组装方案,用户可以快速获取基因/蛋白全长序列信息,避免传统实验所带来的时间和资源浪费,加快决策周期,提高研究和生产效率。同时,还可有效地解决大规模测序数据存储、查询和分析等问题,提高数据利用率,获取更全面的基因组信息,助力动植物研究和育种生产的顺利进行。

04-07

2024

AI大数据 | 百奥云育种数据科学家顾林林发表一种高效精准的集成学习基因组选择方法ELPGV

是否存在一种方法可以整合各种模型的结果以期望获得更加精准的预测呢?

04-03

2024

百奥云为南繁种业发展注入新动力,水稻基因体检服务首次参展

百奥云本次大会携水稻基因体检服务首次参展,诚邀各位专家、老师及同仁共同探讨探讨未来农业发展的新趋势和技术创新。

03-21

2024

喜讯 | 百奥云助力湖南农大解析水稻耐盐杂种优势之谜

近日,湖南农业大学刘次桃/段美娟团队在国际著名期刊《Journal of Integrative Plant Biology》上发表研究论文:The OsWRKY72–OsAAT30/OsGSTU26 module mediates reactive oxygen species scavenging to drive heterosis for salt tolerance in hybrid rice。百奥云大数据部门负责人彭建祥以共同作者身份为本研究提供了个性化的数据分析支持。

03-21

2024

水稻智能育种联盟 | 水稻种质资源、品种观摩暨育种创新提升工程恳谈会圆满举行

2024年3月21日上午,水稻智能育种联盟2024水稻种质资源、品种观摩暨育种创新提升工程恳谈会圆满举行,本次会议共有三十余名水稻种业同仁参会,分别来自十余家种企及科研单位,就如何充分利用数字化能力,将我国的种质资源优势进一步转化为育种创新优势的问题齐聚一起,共商水稻种质资源交流与合作共赢,探索水稻品种自主创新能力提升路径

03-21

2024

会议邀请 | 百奥云与您相约2024中国种子(南繁硅谷)大会

百奥云参加此次大会并在B11展台进行展示,现场还有产品讲解及抽奖小礼品。欢迎广大业界同仁前来展台交流,共谋发展,我们在此真诚期待您的到来。

03-08

2024