育种专栏 | 5-基因分型之低深度重测序

前沿分享

2022-10-21


今天小编继续和大家聊一聊

利用重测序进行基因分型降低成本的另一种策略——

全基因组低深度重测序

(low-coverage whole-genome sequencing, LcWGS)

  使用高深度重测序的方法检出的基因型无疑是最全面的,但目前应用于动植物育种的成本过高,尤其是对那些具有复杂的、庞大基因组的物种而言。上期我们提到,研究人员通常利用独特的文库构建方法来进行简化基因组测序(RAD-seq),从而降低基因分型成本。但简化基因组数据量一般只有全部基因组的1~10%,仍然丢失了大量信息。混池测序(Pool-seq)虽说也是群体研究一种有效降低成本的方式,但无法对个体进行分析,这对于动植物育种而言作用不大。

  LcWGS策略兼具RAD-seq、Pool-seq的优点,同时避免了二者缺点,如图1所示。既能在群体水平对整个基因组进行研究(同时考虑了基因组深度与广度),又保留了个体的信息,且费用与二者相当。所以,通过LcWGS结合算法来获得全基因组基因型是近几年比较流行的做法

  LcWGS基本介绍

  那么,全基因组低深度测序的深度究竟有多低?据小编了解,一般少于5x,甚至在1x以下,具体要视在给定预算的情况下,权衡样本数量和测序深度而定。LcWGS首先对群体中所有个体进行全基因组低深度重测序和变异检测,然后利用算法根据变异间的连锁不平衡(LD)对缺失基因型进行推断和填充(Imputation),最终获取大规模样本全基因组水平的高密度遗传标记。

  近年来,大样本的LcWGS已从理论上证明能够以极低的成本获取全基因组高密度SNP标记,进而增加QTL定位的精度,并更好地挖掘各类疾病的遗传机制(Zan et al., 2019; Homburger et al., 2019)。LcWGS也被用于关联分析(Cai et al., 2015)和群体遗传研究(Rustagi et al., 2017)。研究发现将低密度数据填充到全基因组测序水平进行育种值预测的优势高度依赖于致因突变的频率分布。在中性模型下填充数据的优越性很小,当所有致因突变最小等位基因频率都很低时,采用填充数据进行遗传评估的准确性能够提高30%(Druet et al., 2014)。

  LcWGS预处理流程与WGS是类似的,但一个重要的不同之处在于需要使用基因型可能性来解释基因型不确定性的概率,如利用等位基因频率谱(site frequency spectrum,SFS)进行下游分析(图2)。

  基因型填充

  基因型填充基因型填充(或填补,或插补)是根据参考面板(reference panel)中的单倍型和基因型,预测和填充缺失基因型的过程。它基于这样的假设:即便两个明显无关的个体,在其基因组中也有共享来自共同祖先的片段。这样就可以利用包含大量标记的panel来推断一个样本中未观察到的基因型,从而有效增加SNP密度(图3)。基因型填充(或填补,或插补)是根据参考面板(reference panel)中的单倍型和基因型,预测和填充缺失基因型的过程。它基于这样的假设:即便两个明显无关的个体,在其基因组中也有共享来自共同祖先的片段。这样就可以利用包含大量标记的panel来推断一个样本中未观察到的基因型,从而有效增加SNP密度(图3)。

  在基因组方法学领域,人类研究总是领先于动植物。目前绝大部分LcWGS软件和算法也是针对人类基因组开发,动植物基因组可以参考。LcWGS的难点在于如何准确地推断和填充个体基因型,现在大多数基因型填充软件采用的是隐马尔可夫模型框架,从reference panel中估计单倍型推断基因型。

  基因型填充可以分为两种。一种是大家更为熟悉的基于变异文件的填充,如通过reference panel对vcf进行填充,最终使变异数与reference panel相同。另一种就是基于LcWGS,利用比对后的bam文件以及reference panel对样品直接分型,最终获得与reference panel相同的位点数(图4)。由于变异文件vcf只包含检测群体的变异位点(不意味着在其他群体中无变异),而LcWGS通过bam文件填充,其reads覆盖基因组更广,且同时考虑了reads1和reads2的相位信息(这对填充很重要),相对而言LcWGS具有更好的填补效果。

  图片说明:

  高世代样本的高深度重测序数据用于确定SNP参考数据集,低深度重测序数据经过滤和比对参考基因组后获得中间Bam文件,随后以可信变异位点集(highly credible sites, HCS)为基础进行填充,同时利用随机个体的深度重测序数据进行准确性评估,最终获得可以用于基因组育种的SNP数据集。

  以上看出,reference panel对基因型填充似乎是必需的,如何获得特定物种的refrence panel呢?人类的参考面板已经非常全面,如1000 Genomes,Haplotype Reference Consortium (HRC)等,这里就不介绍了。动植物领域近年也有研究人员开发了相应数据库,提供reference panel的下载:

  动物Animal-ImputeDB(http://gong_lab.hzau.edu.cn/Animal_ImputeDB/#!/)包含了13个物种的2265个样本。

  植物Plant-ImputeDB(http://gong_lab.hzau.edu.cn/Plant_imputeDB/#!/)包含了12个物种的34244个样本。

  如果研究的物种没有reference panel怎么做填充?小编认为一是可以自己构建,但群体材料需要有足够的代表性。二是可以用无需reference panel的软件,如STITCH(Davies et al., 2016)。

  常用工具

  用于LcWGS填充的工具很多,这里举几个代表性例子。对软件使用和算法感兴趣的同学可与小编交流。

  ANGSD。应该是使用最多的软件之一(Korneliussen et al., 2014)。如图2的workflow中SFS展示的就是ANGSD的算法。具体可参考综述:A beginner’s guide to low-coverage whole genome sequencing for population genomics。文章作者也开设了相应教程,资料在Github:https://github.com/nt246/lcwgs-guide-tutorial。

  Meta-imputation。不局限于单一reference panel,而是根据特定研究群体构建一个组合参考面板,允许将使用不同参考面板生成的多个填充结果合并到一起,生成一致填充数据集(Yu et al., 2022)。该软件最近开发,目前仅用于人类。

  STITCH。影响力也很大,2016年发表在NG上(Davies et al., 2016)。如14万中国人无创产前检测(NIPT)的低深度重测序(0.06-0.1x),利用了华大开发的BaseVar结合STITCH填充,2018年发表在Cell上(Liu e t al., 2018)。同样地,中国农业大学胡晓湘老师联合MGI对杜洛克公猪的LcWGS育种流程也是采用的BaseVar-Stitch流程(Yang et al., 2021),示意图5所示:

  其他常见的基因型填充软件如Beagle、Impute2、Shapeit2+Impute2、MACH+Minimac3等,由于不是专门用于LcWGS中,此处就不介绍了。

  LcWGS特点

  与小编之前介绍的几种基因型分型策略相比,LcWGS的优点很明显。几种技术从不同维度的比较如下:

  LcWGS WGS Array RAD-seq
Sequencing depth low high -- high
Number of variants more more less less
New variant detection yes yes no no
Accuracy moderate high high high
Reference genome yes yes yes yes/no
Cost low high low low

尽管LcWGS有很多优势,但仍存在以下方面的不足:

  • 流程相对复杂,缺乏用户友好的软件界面和文档;
  • 需要定相与填充,对计算要求比较高;
  • 当前的软件存在一定缺陷,导致基因型判读不一致;
  • 不适合调用已知基因型的分析,且易受批次效应影响;
  • 在没有reference panel时不能准确定相(即不能基于单倍型分析);
  • 不适合小样本量和复杂基因组的情况。

  总体而言,小编认为LcWGS是动植物育种领域值得探索的一种新方法。其实早在2010年,韩斌老师发表的首篇水稻GWAS研究(517个水稻地方品种 ~1x 重测序与填充)就是利用LcWGS,只是填充采用的是最经典而简单的K近邻算法(KNN)(Huang et al., 2010)。在商业化育种实践方面,以色列NRGene公司做过一些尝试。但如何通过合理的设计试验,将LcWGS嵌入到整个育种计划与流程中,仍然是一项重大的难题。研究人员需要设定育种目标,根据物种基因组及育种材料数进行系统设计,采用合适的测序策略,利用优秀的算法,控制好预算,找到适当的平衡点。关于如何优化特定的实验设计,也可以参考模拟流程(https://github.com/therkildsen-lab/lcwgs-simulation)。

  本次分享到此结束,下期见。


相关推荐

新品发布 | 百奥云推出基因组局部组装服务

百奥云基于二代/三代测序数据以及中间结果文件(如fq/bam),自研局部组装算法与流程,并结合了大数据产品基因云湖(GenoLake)的海量数据管理、查询与分析等功能,为用户提供个性化的局部组装服务。通过百奥云的局部组装方案,用户可以快速获取基因/蛋白全长序列信息,避免传统实验所带来的时间和资源浪费,加快决策周期,提高研究和生产效率。同时,还可有效地解决大规模测序数据存储、查询和分析等问题,提高数据利用率,获取更全面的基因组信息,助力动植物研究和育种生产的顺利进行。

04-07

2024

AI大数据 | 百奥云育种数据科学家顾林林发表一种高效精准的集成学习基因组选择方法ELPGV

是否存在一种方法可以整合各种模型的结果以期望获得更加精准的预测呢?

04-03

2024

喜讯 | 百奥云助力湖南农大解析水稻耐盐杂种优势之谜

近日,湖南农业大学刘次桃/段美娟团队在国际著名期刊《Journal of Integrative Plant Biology》上发表研究论文:The OsWRKY72–OsAAT30/OsGSTU26 module mediates reactive oxygen species scavenging to drive heterosis for salt tolerance in hybrid rice。百奥云大数据部门负责人彭建祥以共同作者身份为本研究提供了个性化的数据分析支持。

03-21

2024

水稻智能育种联盟 | 水稻种质资源、品种观摩暨育种创新提升工程恳谈会圆满举行

2024年3月21日上午,水稻智能育种联盟2024水稻种质资源、品种观摩暨育种创新提升工程恳谈会圆满举行,本次会议共有三十余名水稻种业同仁参会,分别来自十余家种企及科研单位,就如何充分利用数字化能力,将我国的种质资源优势进一步转化为育种创新优势的问题齐聚一起,共商水稻种质资源交流与合作共赢,探索水稻品种自主创新能力提升路径

03-21

2024

百奥云为南繁种业发展注入新动力,水稻基因体检服务首次参展

百奥云本次大会携水稻基因体检服务首次参展,诚邀各位专家、老师及同仁共同探讨探讨未来农业发展的新趋势和技术创新。

03-21

2024