育种专栏 | 5-基因分型之低深度重测序

前沿分享

2022-10-21


今天小编继续和大家聊一聊

利用重测序进行基因分型降低成本的另一种策略——

全基因组低深度重测序

(low-coverage whole-genome sequencing, LcWGS)

  使用高深度重测序的方法检出的基因型无疑是最全面的,但目前应用于动植物育种的成本过高,尤其是对那些具有复杂的、庞大基因组的物种而言。上期我们提到,研究人员通常利用独特的文库构建方法来进行简化基因组测序(RAD-seq),从而降低基因分型成本。但简化基因组数据量一般只有全部基因组的1~10%,仍然丢失了大量信息。混池测序(Pool-seq)虽说也是群体研究一种有效降低成本的方式,但无法对个体进行分析,这对于动植物育种而言作用不大。

  LcWGS策略兼具RAD-seq、Pool-seq的优点,同时避免了二者缺点,如图1所示。既能在群体水平对整个基因组进行研究(同时考虑了基因组深度与广度),又保留了个体的信息,且费用与二者相当。所以,通过LcWGS结合算法来获得全基因组基因型是近几年比较流行的做法

  LcWGS基本介绍

  那么,全基因组低深度测序的深度究竟有多低?据小编了解,一般少于5x,甚至在1x以下,具体要视在给定预算的情况下,权衡样本数量和测序深度而定。LcWGS首先对群体中所有个体进行全基因组低深度重测序和变异检测,然后利用算法根据变异间的连锁不平衡(LD)对缺失基因型进行推断和填充(Imputation),最终获取大规模样本全基因组水平的高密度遗传标记。

  近年来,大样本的LcWGS已从理论上证明能够以极低的成本获取全基因组高密度SNP标记,进而增加QTL定位的精度,并更好地挖掘各类疾病的遗传机制(Zan et al., 2019; Homburger et al., 2019)。LcWGS也被用于关联分析(Cai et al., 2015)和群体遗传研究(Rustagi et al., 2017)。研究发现将低密度数据填充到全基因组测序水平进行育种值预测的优势高度依赖于致因突变的频率分布。在中性模型下填充数据的优越性很小,当所有致因突变最小等位基因频率都很低时,采用填充数据进行遗传评估的准确性能够提高30%(Druet et al., 2014)。

  LcWGS预处理流程与WGS是类似的,但一个重要的不同之处在于需要使用基因型可能性来解释基因型不确定性的概率,如利用等位基因频率谱(site frequency spectrum,SFS)进行下游分析(图2)。

  基因型填充

  基因型填充基因型填充(或填补,或插补)是根据参考面板(reference panel)中的单倍型和基因型,预测和填充缺失基因型的过程。它基于这样的假设:即便两个明显无关的个体,在其基因组中也有共享来自共同祖先的片段。这样就可以利用包含大量标记的panel来推断一个样本中未观察到的基因型,从而有效增加SNP密度(图3)。基因型填充(或填补,或插补)是根据参考面板(reference panel)中的单倍型和基因型,预测和填充缺失基因型的过程。它基于这样的假设:即便两个明显无关的个体,在其基因组中也有共享来自共同祖先的片段。这样就可以利用包含大量标记的panel来推断一个样本中未观察到的基因型,从而有效增加SNP密度(图3)。

  在基因组方法学领域,人类研究总是领先于动植物。目前绝大部分LcWGS软件和算法也是针对人类基因组开发,动植物基因组可以参考。LcWGS的难点在于如何准确地推断和填充个体基因型,现在大多数基因型填充软件采用的是隐马尔可夫模型框架,从reference panel中估计单倍型推断基因型。

  基因型填充可以分为两种。一种是大家更为熟悉的基于变异文件的填充,如通过reference panel对vcf进行填充,最终使变异数与reference panel相同。另一种就是基于LcWGS,利用比对后的bam文件以及reference panel对样品直接分型,最终获得与reference panel相同的位点数(图4)。由于变异文件vcf只包含检测群体的变异位点(不意味着在其他群体中无变异),而LcWGS通过bam文件填充,其reads覆盖基因组更广,且同时考虑了reads1和reads2的相位信息(这对填充很重要),相对而言LcWGS具有更好的填补效果。

  图片说明:

  高世代样本的高深度重测序数据用于确定SNP参考数据集,低深度重测序数据经过滤和比对参考基因组后获得中间Bam文件,随后以可信变异位点集(highly credible sites, HCS)为基础进行填充,同时利用随机个体的深度重测序数据进行准确性评估,最终获得可以用于基因组育种的SNP数据集。

  以上看出,reference panel对基因型填充似乎是必需的,如何获得特定物种的refrence panel呢?人类的参考面板已经非常全面,如1000 Genomes,Haplotype Reference Consortium (HRC)等,这里就不介绍了。动植物领域近年也有研究人员开发了相应数据库,提供reference panel的下载:

  动物Animal-ImputeDB(http://gong_lab.hzau.edu.cn/Animal_ImputeDB/#!/)包含了13个物种的2265个样本。

  植物Plant-ImputeDB(http://gong_lab.hzau.edu.cn/Plant_imputeDB/#!/)包含了12个物种的34244个样本。

  如果研究的物种没有reference panel怎么做填充?小编认为一是可以自己构建,但群体材料需要有足够的代表性。二是可以用无需reference panel的软件,如STITCH(Davies et al., 2016)。

  常用工具

  用于LcWGS填充的工具很多,这里举几个代表性例子。对软件使用和算法感兴趣的同学可与小编交流。

  ANGSD。应该是使用最多的软件之一(Korneliussen et al., 2014)。如图2的workflow中SFS展示的就是ANGSD的算法。具体可参考综述:A beginner’s guide to low-coverage whole genome sequencing for population genomics。文章作者也开设了相应教程,资料在Github:https://github.com/nt246/lcwgs-guide-tutorial。

  Meta-imputation。不局限于单一reference panel,而是根据特定研究群体构建一个组合参考面板,允许将使用不同参考面板生成的多个填充结果合并到一起,生成一致填充数据集(Yu et al., 2022)。该软件最近开发,目前仅用于人类。

  STITCH。影响力也很大,2016年发表在NG上(Davies et al., 2016)。如14万中国人无创产前检测(NIPT)的低深度重测序(0.06-0.1x),利用了华大开发的BaseVar结合STITCH填充,2018年发表在Cell上(Liu e t al., 2018)。同样地,中国农业大学胡晓湘老师联合MGI对杜洛克公猪的LcWGS育种流程也是采用的BaseVar-Stitch流程(Yang et al., 2021),示意图5所示:

  其他常见的基因型填充软件如Beagle、Impute2、Shapeit2+Impute2、MACH+Minimac3等,由于不是专门用于LcWGS中,此处就不介绍了。

  LcWGS特点

  与小编之前介绍的几种基因型分型策略相比,LcWGS的优点很明显。几种技术从不同维度的比较如下:

  LcWGS WGS Array RAD-seq
Sequencing depth low high -- high
Number of variants more more less less
New variant detection yes yes no no
Accuracy moderate high high high
Reference genome yes yes yes yes/no
Cost low high low low

尽管LcWGS有很多优势,但仍存在以下方面的不足:

  • 流程相对复杂,缺乏用户友好的软件界面和文档;
  • 需要定相与填充,对计算要求比较高;
  • 当前的软件存在一定缺陷,导致基因型判读不一致;
  • 不适合调用已知基因型的分析,且易受批次效应影响;
  • 在没有reference panel时不能准确定相(即不能基于单倍型分析);
  • 不适合小样本量和复杂基因组的情况。

  总体而言,小编认为LcWGS是动植物育种领域值得探索的一种新方法。其实早在2010年,韩斌老师发表的首篇水稻GWAS研究(517个水稻地方品种 ~1x 重测序与填充)就是利用LcWGS,只是填充采用的是最经典而简单的K近邻算法(KNN)(Huang et al., 2010)。在商业化育种实践方面,以色列NRGene公司做过一些尝试。但如何通过合理的设计试验,将LcWGS嵌入到整个育种计划与流程中,仍然是一项重大的难题。研究人员需要设定育种目标,根据物种基因组及育种材料数进行系统设计,采用合适的测序策略,利用优秀的算法,控制好预算,找到适当的平衡点。关于如何优化特定的实验设计,也可以参考模拟流程(https://github.com/therkildsen-lab/lcwgs-simulation)。

  本次分享到此结束,下期见。


相关推荐

百奥繁育 | 良种选育的信息管理系统

百奥繁育 | 良种选育的信息管理系统

09-06

2023

江西种业也刮智能育种风

8月25日,江西省水稻种质资源创新交流及智能育种技术研讨会在江西省农科院顺利召开。江西农业大学、江西师范大学、广东省农科院、江西省农科院、中国水稻所江西早稻中心、南昌市农科院、赣州市农科所有关专家代表以及省内种企代表共约40人参与了本次交流会议。

08-28

2023

百奥云 & 火山引擎 | 为现代农业的“芯片”增添新科技

育种4.0时代,比拼的是科技创新,关键是通过数字化、信息化、智能化让育种过程缩短周期、提升效率、降低风险,而这也是长沙百奥云数据科技有限公司(百奥云)的创业初衷。

08-22

2023

百奥繁育 | 育种田间的信息流水线

有人说,植物育种的过程就像工厂流水线。挑选的种质即原材料,根据市场需求进行设计与加工,送入田间生产线后,一代代优中选优,还得经过严格的产量、品质、抗性测试,过五关斩六将,最终拿到审定编号,成为可以推广的成熟产品。 虽然流程相似,但育种工作远不及工厂生产那样标准。田间环境气候复杂、真实性状判断困难、水肥条件难以统一……种种困难下,选育良种成了概率事件,育种家们都有种“尽人事听天命”的无奈感。

08-22

2023

百奥云新品发布 | 高质量基因组极速拼接服务

1. 利用PopGenomics快速对基因组实现高质量组装 基因组组装是将全基因组测序的小片段(reads长度100 bp-100 kb)通过算法拼接成尽量长的片段(contig 和scaffold,长度几十kb 到Mb 不等)或者整条染色体的过程。获得包含基因组全序列的参考基因组是对动植物进行基因组学研究和育种利用的前提[1]。 由于植物基因组具有非常丰富的多样性,参考已发表的少数物种组装新的物种,有时却无法达到理想的组装效果。测序技术发展提供了短序列测序、单分子测序、光学图谱、Hi-C 图谱等多种测序技术及其组合的组装方案,到目前为止,已经有上千个植物基因组被组装(图1)。然而,如何以最低成本快速获得满足需求的高质量基因组,仍然是科研人员和育种数据分析人员普遍面临的一个问题。

08-22

2023

夏风又绿田间草,除草劳动正当时

7月26日,顶着炎炎夏日 在公司CSO桂進老师的带领下 举行了一场别开生面的劳动体验。

08-04

2023