【百奥云GS专栏】4-全基因组选择模型之机器学习

知识/政策规划

2021-01-25


  上一篇我们介绍了全基因组选择模型的Bayes方法,这一次我们继续来分享GS的机器学习方法。

  除了基于BLUP和Bayes理论的参数求解方法外,基因组选择还有半参数(如RKHS,见下篇)和非参数,如机器学习(Machine Learning, ML)等方法。机器学习是人工智能的一个分支,其重点是通过将高度灵活的算法应用于观察到的个体(标记的数据)的已知属性(特征)和结果来预测未观察到的个体(未标记的数据)的结果。结果可以是连续的,分类的或二元的。在动植物育种中,标记的数据对应于具有基因型和表型的训练群体,而未标记的数据对应于测试群体,用于预测的特征是SNP基因型。相比于传统统计方法,机器学习方法具有诸多优点:

  1)能处理“p>>n”的问题;

  2)机器学习是个黑箱,无需事先知道变量的分布或目标性状的遗传效应,打破了混合线性模型和贝叶斯假设的限制;

  3)考虑了多个体互作或特征间的相关性;

  4)准确性高,允许重定义训练和验证集以及交叉验证。

 

  支持向量机

  支持向量机(Support Vector Machine,SVM)是典型的非参数方法,属于监督学习方法。它既可解决分类问题,又可用于回归分析。SVM基于结构风险最小化原则,兼顾了模型拟合和训练样本的复杂性,尤其是当我们对自己的群体数据不够了解时,SVM或许是基因组预测的备选方法。

  SVM的基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。在支持向量回归(Support Vector Regression,SVR)中,通常使用近似误差来代替像SVM中那样的最佳分离超平面和支持向量之间的余量。假设ε为不敏感区域的线性损失函数,当测量值和预测值小于ε时,误差等于零。SVR的目标就是同时最小化经验风险和权重的平方范数。也就是说,通过最小化经验风险来估计超平面。

  下图1比较了SVM中回归(图A)和分类(图B)的差别。式中ξ和ξ*为松弛变量,C为用户定义的常数,W为权重向量范数,ϕ表示特征空间映射。

 

 

  当SVM用于预测分析时,高维度的大型数据集会给计算带来极大的复杂性,核函数的应用能大大简化内积,从而解决维数灾难。因此,核函数的选择(需要考虑训练样本的分布特点)是SVM预测的关键。目前最常用的核函数有:线性核函数、高斯核函数(RBF)和多项式核函数等。其中, RBF具有广泛的适应性,能够应用于训练样本(具有适当宽度参数)的任何分布。尽管有时会导致过拟合问题,但它仍是使用最广泛的核函数。

  集成学习

  集成学习(Ensemble Learning)也是机器学习中最常见的算法之一。它通过一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器更好的效果。通俗地说,就是一堆弱学习器组合成一个强学习器。在GS领域,随机森林(Random Forest,RF)和梯度提升机(Gradient Boosting Machine,GBM)是应用较多的两种集成学习算法。

  RF是一种基于决策树的集成方法,也就是包含了多个决策树的分类器。在基因组预测中,RF同SVM一样,既可用做分类模型,也可用做回归模型。用于分类时,注意需要事先将群体中个体按表型值的高低进行划分。RF算法可分为以下几个步骤:

  1)从整个原始数据集中随机取样,将每个自举样本的子集作为根节点;

  2)设置一定数量(mtry)的输入变量(SNPs),然后选择第j个SNP使损失函数最小化。分类问题用熵约束准则,而回归问题用均方误差;

  3)根据第j个SNP的基因型,将当前节点分为两个新的子集;

  4)对每个新节点重复上述2-3步,直到最小节点大小(即个体数)出现为止,通常在5以下;

  5)利用新的自举样本重复上述1-5步构建新树,树的大小一般为ntree > 50-100。

  最后,RF会结合分类树或回归树的输出进行预测。在分类中,通过计算投票数(通常使用每个决策树一票)并分配投票数最高的类别来预测未观察到的类别。在回归中,通过对ntree输出进行求平均。

  有两个影响RF模型结果的重要因素:一是每个节点随机取样的协变量数量(mtry,即SNP数目)。构建回归树时,mtry默认为p/3(p是构建树的预测数量),构建分类树时,mtry为;二是决策树的数量。很多研究表明树并非越多越好,而且构树也是非常耗时的。在GS应用于植物育种中,通常将RF的ntree设置在500-1000之间。

 

  当GBM基于决策树时,就是梯度提升决策树(Gradient Boosting Decision Tree,GBDT),和RF一样,也是包含了多个决策树。但两者又有很多不同,最大的区别在于RF是基于bagging算法,也就是说它将多个结果进行投票或简单计算均值选出最终结果。而GBDT是基于boosting算法,它通过迭代的每一步构建弱学习器来弥补原模型的不足。GBM通过设置不同的损失函数来处理各类学习任务。

  深度学习

  虽然已经有不少研究尝试了将多种经典机器学习算法应用于基因组预测中,但提升的准确性仍然有限,而且比较耗时。在无数的机器学习算法中,没有一种方法能够普遍地提高预测性,不同的应用程序及其最优方法和参数是不同的。相比于经典的机器学习算法,深度学习(Deep Learning,DL)或许是未来应用于基因组预测更好的选择。

  传统的机器学习算法如SVM,一般是浅层模型。而深度学习除了输入和输出层,还含有多个隐藏层,模型结构的深度说明了它名字的含义。DL的实质是通过构建具有很多隐藏层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。DL算法的建模过程可简单分为以下三步:

  1)定义假设函数:定义一个合理的假设函数来描述自变量和应变量之间的关系;

  2)设计损失函数:设计一个合理的损失函数来描述假设函数的好坏,评估参数的优劣;

  3)选择最优函数:通过训练,如用梯度下降来不停地优化损失函数,找到对应的参数,使其对应的误差达到最小 。

  在GS领域,研究较多的DL算法,包括多层感知器(Multi-layer Perceptron,MPL)、卷积神经网络(Convolutional neural network,CNN)和循环神经网络(Recurrent Neural Networks,RNN)等。

  MLP是一种前馈人工神经网络(Artificial Neural Network,ANN)模型,它将输入的多个数据集映射到单一的输出数据集上。MLP包括至少一个隐藏层,如下图2中所示,除了一个输入层和一个输出层以外,还包括了4个隐藏层,每一层都与前一层的节点相连,并赋予不同权重(w),最后通过激活函数转化,将输入映射到输出端。

 

 

  CNN是一类包含卷积计算且具有深度结构的前馈神经网络,通常具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。CNN的隐藏层中包含卷积层(Convolutional layer)、池化层(Pooling layer)和全连接层(Fully-connected layer)三类,每一类都有不同的功能,比如卷积层的功能主要是对输入数据进行特征提取,池化层对卷积层特征提取后输出的特征图进行特征选择和信息过滤,而全连接层类似于ANN中的隐藏层,一般位于CNN隐藏层的最末端,并且只向全连接层传递信号。CNN结构如下图3所示。

 

 

  需要注意的是,深度学习不是万能的。使用DL的前提是必须具有足够大和质量好的训练数据集,而且根据GS在动植物方面的研究表明,一些DL算法和传统的基因组预测方法相比,并没有明显的优势。不过有一致的证据表明, DL算法能更有效地捕获非线性模式。因此,DL能够根据不同来源的数据通过集成GS传统模型来进行辅助育种。总之,面对将来海量的育种数据,DL的应用将显得越来越重要。

  好啦,今天的GS模型之机器学习就分享到这里了。我们下期再继续介绍GS的其他常见模型,最后会对整个GS模型做一个小结,敬请期待哦!

 

  参考资料

  • Miguel Pérez-Enciso et al. A Guide for Using Deep Learning for Complex Trait Genomic Prediction. Genes (Basel). 2019 Jul 20;10(7): 553.
  • Xin Wang et al. Genomic selection methods for crop improvement: Current status and prospects. The Crop Journal, Volume 6, Issue 4, August 2018, Pages 330-340.
  • Osval Antonio Montesinos-López et al. A review of deep learning applications for genomic selection. BMC Genomics volume 22, Article number: 19 (2021).
  • juan Manuel González-Camacho et al. Applications of Machine Learning Methods to Genomic Selection in Breeding Wheat for Rust Resistance. Plant Genome. 2018 Jul; 11(2).
  • Wenlong Ma et al. A deep convolutional neural network approach for predicting phenotypes from genotypes. Planta, 2018, 248(5): 1307-1318.

相关推荐

百奥繁育 | 良种选育的信息管理系统

百奥繁育 | 良种选育的信息管理系统

09-06

2023

江西种业也刮智能育种风

8月25日,江西省水稻种质资源创新交流及智能育种技术研讨会在江西省农科院顺利召开。江西农业大学、江西师范大学、广东省农科院、江西省农科院、中国水稻所江西早稻中心、南昌市农科院、赣州市农科所有关专家代表以及省内种企代表共约40人参与了本次交流会议。

08-28

2023

百奥繁育 | 育种田间的信息流水线

有人说,植物育种的过程就像工厂流水线。挑选的种质即原材料,根据市场需求进行设计与加工,送入田间生产线后,一代代优中选优,还得经过严格的产量、品质、抗性测试,过五关斩六将,最终拿到审定编号,成为可以推广的成熟产品。 虽然流程相似,但育种工作远不及工厂生产那样标准。田间环境气候复杂、真实性状判断困难、水肥条件难以统一……种种困难下,选育良种成了概率事件,育种家们都有种“尽人事听天命”的无奈感。

08-22

2023

百奥云 & 火山引擎 | 为现代农业的“芯片”增添新科技

育种4.0时代,比拼的是科技创新,关键是通过数字化、信息化、智能化让育种过程缩短周期、提升效率、降低风险,而这也是长沙百奥云数据科技有限公司(百奥云)的创业初衷。

08-22

2023

百奥云新品发布 | 高质量基因组极速拼接服务

1. 利用PopGenomics快速对基因组实现高质量组装 基因组组装是将全基因组测序的小片段(reads长度100 bp-100 kb)通过算法拼接成尽量长的片段(contig 和scaffold,长度几十kb 到Mb 不等)或者整条染色体的过程。获得包含基因组全序列的参考基因组是对动植物进行基因组学研究和育种利用的前提[1]。 由于植物基因组具有非常丰富的多样性,参考已发表的少数物种组装新的物种,有时却无法达到理想的组装效果。测序技术发展提供了短序列测序、单分子测序、光学图谱、Hi-C 图谱等多种测序技术及其组合的组装方案,到目前为止,已经有上千个植物基因组被组装(图1)。然而,如何以最低成本快速获得满足需求的高质量基因组,仍然是科研人员和育种数据分析人员普遍面临的一个问题。

08-22

2023

夏风又绿田间草,除草劳动正当时

7月26日,顶着炎炎夏日 在公司CSO桂進老师的带领下 举行了一场别开生面的劳动体验。

08-04

2023