基因组选择育种实施路径
公司动态
2023-05-17
随着人工智能的快速发展,“智能育种”的概念已广为人知,并逐步走向应用。究竟什么是智能育种?不同人可能有不同的定义。从图像识别到建模预测,有多个维度让育种变得更“智能”。本文重点介绍智能育种的一项核心技术--基因组选择(Genome Selection, GS),探讨下在我国实际育种工作中如何应用该技术,提升育种的效率。
顾名思义,基因组选择是指通过基因组的信息来预测育种材料(及其后代)的表现,从而达到育种选择的目的。GS 最早由挪威生命科学大学的 Theo Meuwissen 教授于 2001 年提出,在动物育种中首先得到应用,随后成为杜邦先锋和孟山都等国际种业巨头植物育种流程中的关键技术。GS 具有节约田间测试成本,缩短育种周期以及提升整体遗传增益等优点。GS 首先对部分材料(训练群体)开展全基因组分子标记检测和表型数据采集,应用统计、机器学习或神经网络等方法构建二者之间的模型,再根据其它育种材料(测试群体)的基因型数据,应用该模型对其表型进行预测,并根据预测的结果进行育种选择。GS 流程如图1所示:
图1:基因组选择的流程,包括构建训练模型和预测选择等步骤Heffner et al, 2009
杜邦先锋是世界领先的植物育种公司,在其玉米育种流程中,GS 起到了基础性的作用。根据其资深的育种负责人 Mark Cooper 的一篇文章描述,每年杜邦先锋筛选几百万个玉米杂交组合。但在早期筛选时,几乎全部依靠基因型数据对这些材料进行评估,预测表现好的几万个杂交组合才能进入田间测试环节。而且在初级测试阶段,GS 预测筛选也占很重要的比重。随着测试晋级的推进,田间表型评估所占的比重逐步加大,最后到商业化时所有的品种都需要经过严格的田间测试才能上市销售。如图2所示,通过 GS 的大规模应用,杜邦先锋得以持续提升其玉米品种的遗传增益。
图2:杜邦先锋玉米测试流程与评估技术Cooper et al. Crop & Pasture Science, 2014
要开展基因组选择,首先得有基因组的信息。随着高通量自动化检测和测序技术的发展,基因型检测越来越便宜。现在检测一个玉米样品 1000 个 SNP 位点只需要 30 元人民币左右,检测1万个位点也只需要 100 元人民币左右。那么 GS到底需要多高密度的分子标记检测数据呢?我们以一套水稻杂交种的公共数据做了初步研究。如图3所示,对于不同性状,我们发现标记数目对预测精度的影响趋势是非常一致的。所有性状的预测精度都随着标记数增加而提升。一般需要至少 2500-5000 个标记才能达到一个较好的预测能力,而当标记数达到 1 万个以后,预测精度的提升幅度就已经很小了。因此我们认为,1 万个在基因组上均匀分布的分子标记对于水稻 GS 是比较合适的。对于玉米 GS,隆平高科也是使用了 1 万个 SNP 位点检测的数据,获得了较好的效果。详见报道:杂交组合晋级率提升46.21%,隆平高科玉米全基因组选择育种获实质性突破
图 3:分子标记数目对于不同性状 GS 预测力的影响(百奥云内部研究)
相比之下,开展一个品种的田间测试,按 3 个地点,每个地点 3 次重复来计算,每个品种的田间测试成本也超过 100 元。当然,大部分育种家早期测试可能不设置重复,但玉米杂交种的基因型可以从其亲本材料的基因型推测出来,而一个亲本可以与多个测验种配组合,所以杂交种的基因型检测的成本实际上已经低于田间测试的成本了。
要获得好的预测能力,需要有一定规模的训练群体。而训练群体的大小对于 GS影响比较复杂。我们用了同一套水稻数据进行模拟,发现针对大部分性状,训练群体需要有 500 个材料才有较好的预测力,大部分性状在训练群体大小为1000 时,预测力达到平缓增长阶段。不过有些性状(如株高)的预测力随着训练群体扩大呈直线上升的趋势,详见图 4。对于玉米 GS,训练群体大小也有不同的说法。有两篇文献建议训练群体和测试群体的大小比例应为1:4,而 CIMMYT 在其有些育种项目中按照1:1的比例开展训练和测试。据隆平高科林海艳博士介绍,玉米训练群体大小应当在1000个材料以上才比较可靠。CGIAR EiB 模拟了 GS 用不同训练群体大小在连续20年的遗传增益比较,表明3000个体相比500个体提供了1.28倍增益,而5000个体相比500个体提供了1.52倍增益。虽然训练群体越大,GS 预测会越准确,从性价比的角度来看,我们建议玉米 GS 训练群体的大小为1000个材料。
图 4:训练群体大小对于不同性状 GS 预测力的影响(百奥云内部研究)
随着技术的发展,GS 已经不再是一个遥不可及的概念,而是实实在在可以提升育种效率的神器。育种团队应当如何开展和实施 GS 育种呢?这些年我们通过跟多家育种单位在不同作物上的合作,摸索出了一套符合我国育种实际的解决方案。对于玉米育种家,我们建议从以下几个方面着手开始实施 GS:基因型检测这是 GS 必不可少的一个环节。不少育种家对手头的材料还没有做基因型检测,建议尽快开展。基因型检测数据不仅可以作为 GS 的基础,更能作为保护自有品种和育种材料权益的分子数据库。不同类型的材料,我们建议用不同方法开展基因型检测。核心材料可以用全基因组测序的方法,深入分析到功能基因水平上的差异。亲本材料可以用较高密度(1万个以上)SNP 标记的靶向芯片进行检测,而 DH 系则可以用较低密度(1000个)的 SNP 标记检测。我们可以通过生物信息的方法对低密度的芯片数据进行填补,得到较高密度的基因型数据,既不影响实际 GS 的应用,又可大幅节约基因型检测的成本。训练群体表型采集不少育种家每年都会开展上千份杂交组合测试。虽然这些组合种到了田间,但遗憾的是绝大部分组合并没有采集其表型数据,只有少部分表现较好的组合有测产的数据。如果能多花点精力,把这些杂交组合的产量,含水量,生育期,抗病性等重要农艺性状都采集上(不要只采集那些表现好的组合的数据),这将是一个非常好的训练群体数据集。GS 育种并不需要额外建立训练群体,只要育种家把杂交组合测试工作做细致,认真记录好表型数据就可以了。每家育种单位的材料都不一样,因此也无法用其它单位的数据和模型来预测自己的材料表现,所以除了踏踏实实的做好测试工作和表型采集外,并没有别的捷径可走。育种信息化管理和分析好育种数据是 GS 应用的基础,用 EXCEL 表格无法实现几千万到几亿条基因型数据的有效管理,表型数据的采集和记录也需要标准化,以减少人为错误。无论是 GS 建模还是基因型和表型数据的深入分析,都需要专业的分析工具,而这些都可以通过育种软件来实现。百奥云智能育种平台是我们开发的一款面向智能育种时代的软件,功能涵盖资源管理,材料繁育,表型数据采集和分析,基因型数据管理和分析,以及全基因组选择等,可以满足大部分育种家的需求,也将随着技术的发展而不断优化提升,欢迎各位老师们试用(点击文末【阅读原文】,即可注册申请)。点击了解更多:百奥E采、表型数据系统、基因型大数据系统、种质资源系统GS 模型构建与应用如果从现在开始记录好上千份杂交组合品比测试的表型数据,并同步开展亲本材料的基因型检测,我们就具备了开展 GS 的基础。通过使用相应的软件,很快就可以建立一个初步的 GS 模型,用于第二年杂交组合田间表现的预测。将第二年的预测数据和实测数据结合起来,验证 GS 模型的预测准确性,同时优化 GS 模型,我们就可以实际应用 GS 来扩大杂交组合的筛选范围,提前预判后续材料的田间表现了。虽然 GS 看起来并不神秘,但需要长期和较大量的数据积累,才能充分发挥其价值。不积跬步无以至千里,不开始永远到不了目的地,现在已经到了生物技术和信息技术都高度发展的时代,传统育种也必将通过应用这些技术而获得提质增效。让育种变轻松是我们共同的梦想,相信未来一定会实现!
上一篇:
下一篇:
相关推荐
百奥繁育 | 良种选育的信息管理系统
8月25日,江西省水稻种质资源创新交流及智能育种技术研讨会在江西省农科院顺利召开。江西农业大学、江西师范大学、广东省农科院、江西省农科院、中国水稻所江西早稻中心、南昌市农科院、赣州市农科所有关专家代表以及省内种企代表共约40人参与了本次交流会议。
育种4.0时代,比拼的是科技创新,关键是通过数字化、信息化、智能化让育种过程缩短周期、提升效率、降低风险,而这也是长沙百奥云数据科技有限公司(百奥云)的创业初衷。
有人说,植物育种的过程就像工厂流水线。挑选的种质即原材料,根据市场需求进行设计与加工,送入田间生产线后,一代代优中选优,还得经过严格的产量、品质、抗性测试,过五关斩六将,最终拿到审定编号,成为可以推广的成熟产品。 虽然流程相似,但育种工作远不及工厂生产那样标准。田间环境气候复杂、真实性状判断困难、水肥条件难以统一……种种困难下,选育良种成了概率事件,育种家们都有种“尽人事听天命”的无奈感。
1. 利用PopGenomics快速对基因组实现高质量组装 基因组组装是将全基因组测序的小片段(reads长度100 bp-100 kb)通过算法拼接成尽量长的片段(contig 和scaffold,长度几十kb 到Mb 不等)或者整条染色体的过程。获得包含基因组全序列的参考基因组是对动植物进行基因组学研究和育种利用的前提[1]。 由于植物基因组具有非常丰富的多样性,参考已发表的少数物种组装新的物种,有时却无法达到理想的组装效果。测序技术发展提供了短序列测序、单分子测序、光学图谱、Hi-C 图谱等多种测序技术及其组合的组装方案,到目前为止,已经有上千个植物基因组被组装(图1)。然而,如何以最低成本快速获得满足需求的高质量基因组,仍然是科研人员和育种数据分析人员普遍面临的一个问题。
7月26日,顶着炎炎夏日 在公司CSO桂進老师的带领下 举行了一场别开生面的劳动体验。