【GS专栏】文献:基因组选择和全基因组关联分析联合解析玉米杂种优势

知识/政策规划

2021-05-17


1.前言

 

  今天与大家分享的是华中农业大学严建兵和中国农业大学王向峰教授等多个团队合作,2021年5月10日发表在著名国际学术期刊《Genome Biology》上的一项研究:**The genetic mechanism of heterosis utilization in maize improvement**。该研究基于一个玉米人工合成群体(CUBIC)创建了迄今为止作物中最大的杂交设计群体。结合基因组预测(GP)和全基因组关联分析(GWAS),系统解析了玉米杂种优势和特殊配合力形成的遗传学基础,鉴定了在营养-生殖转换中响应的候选基因位点,为完善杂种优势假说、基因组设计育种提供了新的视角。玉米是世界上最早利用杂种优势,也是利用最彻底的作物之一。近百年来,大量研究人员在水稻、玉米和油菜等作物中,对杂种优势进行了大量研究。但这些研究往往基于单一遗传群体,对杂种优势的理解存在一定局限性。

 

2.材料和方法

 

  母本群为玉米CUBIC 群体的1428 个自交系,包括我国旅大红骨、四平头和自330等优势群。父本群为 30个具有国外血缘的优良自交系,包括Lancaster、Reid和Tropical等优势群,此外还加入了中国广泛使用的商业自交系郑58(Zheng58)和京724(Jing724)。按不完全双列杂交NCⅡ设计(简言之,就是父母本两组,只进行组间杂交,不进行组内杂交),共产生42840个F1杂交种,其中8652(20.2%)个用于基因组选择的模型训练,34188(79.8%)个用于预测(图1 A&B)。

  PS:考虑表型成本和预测精度间的平衡,训练集:预测集=1:4在玉米GS辅助育种中已经是一种常用的策略。

 

图1 试验设计与杂种优势

 

  性状包括株高(plant height, PH)、抽穗天数(days to tasseling, DTT)和单株穗重(ear weight, EW)。为消除两年和五个地点带来的环境效应,采用混合线性模型计算F1杂交种和亲本的BLUP值来代替表型,R包lme4计算。图1 C显示有较明显的群体结构,为了消除群体结构为GS带来的系统偏差,将BLUP值进行z-score标准化处理。中亲优势(Mid-parent heterosis,MPH) 指F1杂交种的表现值与双亲(P1和P2)同一性状的平均值差值的比率。公式表示为:中亲优势(%)= [F1- (P1+P2)/2]/ (P1+P2)/2*100%。全基因组关联分析采用GEMMA,加入亲缘关系矩阵控制结构,分析30个F1群体的三个性状及其MPH。基因组选择采用GBLUP模型,sommer包分析。预测性指标采用实测表型和预测表型的皮尔逊相关性系数。

 

3.主要结果

 

  3.1 30组F1群体的杂种优势表型

  基于NCⅡ设计的42820个F1杂交种,实际上是30组半同胞F1群体。该群体母本群包含适应中国环境的等位基因,父本群则包含来自改良国外种质的各种有利等位基因,最大程度提高了F1杂种的遗传互补性,具有广泛的多样性,是研究杂种优势的理想材料。如图1 E所示,30组F1群体中三个性状的杂种优势表现不同:DTT的杂种优势表现为早期开花;PH和EW的所有F1表型比亲本都高出2-3倍,表现出很强的中亲优势。和商业对照品种郑单958相比,有554(6.4%)个杂交种表现出更早开花,更矮株高以及更高穗重,这说明了该F 1杂种群体具有培育出开花早、高产和紧凑品种的潜力。

  3.2 GP提高了GWAS检测能力

  使用GBLUP模型来预测没有表型的34188个F 1组合。由于亲本表型和F1表型表现出强相关性(图2),将之作为固定效应来减少群体结构带来的影响。

 

图2 父母本表型与F1表型相关性

 

  使用两种方法来划分训练样本和测试样本。第一种方法是用28组F1群体中的27组(对应207x27=5589个F1群体)用于训练,剩余的1组(对应207x1=207个F1群体)用于测试。如此重复28次,计算相关性系数。小编理解这样做类似于28折交叉验证,目的是为了消除群体结构带来的影响。28组F 1群体的三个性状平均可预测性分别为0.76(DTT)、0.81(PH)和0.66(EW),对应中亲优势的估计值分别为0.61(MPH.DTT)、0.805(MPH.PH)和0.89(MPH.EW)。

 

表1 30组F1群体的GP预测能力

 

Heterotic group LineID DTT PH EW MPH.DTT MPH.PH MPH.EW
X-population MG1534 0.797 0.793 0.744 0.704 0.825 0.901
X-population MG1547 0.791 0.874 0.698 0.7 0.891 0.904
X-population MG1543 0.787 0.814 0.594 0.691 0.817 0.838
X-population MG1544 0.776 0.852 0.707 0.683 0.885 0.885
X-population MG1545 0.759 0.868 0.671 0.673 0.875 0.898
X-population MG1546 0.735 0.851 0.641 0.59 0.813 0.839
Waxy MG1532 0.782 0.764 0.665 0.664 0.811 0.912
Waxy MG1531 0.643 0.678 0.599 0.372 0.717 0.902
Tropic MG1540 0.778 0.84 0.64 0.502 0.814 0.923
Tropic MG1541 0.766 0.701 0.588 0.648 0.717 0.904
Tropic MG1538 0.587 0.674 0.575 0.285 0.605 0.878
Reid MG1533 0.815 0.856 0.676 0.707 0.824 0.89
Reid MG1520 0.811 0.848 0.673 0.691 0.849 0.888
Reid MG1526 0.808 0.823 0.728 0.617 0.839 0.913
Reid MG1523 0.808 0.849 0.647 0.591 0.851 0.889
Reid MG1521 0.807 0.888 0.701 0.662 0.847 0.873
Reid MG1548 0.773 0.818 0.743 0.632 0.688 0.912
Reid MG1535 0.768 0.84 0.686 0.559 0.865 0.907
Reid MG1527 0.744 0.867 0.694 0.636 0.857 0.89
P-population MG1524 0.796 0.839 0.653 0.699 0.806 0.9
P-population MG1525 0.746 0.786 0.703 0.567 0.726 0.905
P-population MG1539 0.736 0.771 0.518 0.648 0.732 0.87
Lancaster MG1519 0.811 0.857 0.634 0.647 0.868 0.891
Lancaster MG1529 0.796 0.859 0.728 0.721 0.837 0.935
Lancaster MG1530 0.758 0.708 0.641 0.552 0.788 0.926
Lancaster MG1536 0.754 0.871 0.683 0.64 0.827 0.89
Lancaster MG1528 0.668 0.811 0.695 0.6 0.761 0.909
Lancaster MG1518 0.617 0.803 0.604 0.446 0.803 0.844
Average_r   0.75775 0.8143929 0.66175 0.6116786 0.8049286 0.8934286

 

  可以看出,不同组的GP预测能力是随群体而变化的。其中, Tropical 和 Waxy组的预测能力最低,X-population 和 Reid 的预测能力最高(图3 A)。另一种模型测试方法是评估Zheng58和Jing724杂交种的预测能力,即采用6210(207x30)个杂种加上1221个Zheng58的杂种来训练模型,预测1221个Jing724杂种的表现。然后反之,用Jing724来预测Zheng58杂种。在GBLUP模型中将亲本表型视为固定效应,Jing724杂种的可预测性分别为0.695(DTT)、0.67(PH)和0.44(EW),而Zheng58杂种的预测性分别为0.70(DTT)、0.72(PH)和0.47(EW)(图3 B)。

 

 

图3 GP与GWAS的结合

 

  通过基因组预测的方法可将有效群体数据集扩大5倍(即训练:预测=1:4),这可能会大大增强GWAS的检测能力。而事实上也是如此,当使用全部1428个母本的数据时,比只用207个母本的训练集,GWAS的信号显著上升了。这里,作者使用了两个示例说明:Zheng58的F1群体如果只用207个母本,DTT仅能检测到一个信号峰(MADS69)。但如果用1428个母本,还能检测到另一个显著峰(ZCN8),而MADS69-RAP2.7-ZCN8 通路正是重要玉米开花激活功能模块。而株高性状的信号更是从无到有,增加了检测能力。中亲优势不论是预测,还是实际测量表型,其检测效果是相当的(图3 C)。因此,基因组预测可在不牺牲GWAS功效的情况下大大减少表型调查的工作。GP和GWAS结合的内容基本上在这里告一段落。研究人员在此基础上,做了更多深入的研究。比如使用模拟数据对GWAS准确性做了一个定量的评价,鉴定了30组F1群体的杂种优势QTL,比较了母本与F1群体不同GWAS信号的遗传效应组成,并研究了这些杂优QTL的上位性效应,最终发现了一种全新的“基因互作”贡献杂种优势。研究很精彩,欢迎感兴趣的朋友查看原文。

 

4.后记

  毫无疑问,全基因组选择不论是对育种实践生产,还是用于科学研究,都是一把不可多得的利刃。虽然它仍有众多限制因素,但关键还是在于我们如何设计好试验,有效控制影响因素,合理利用好自己的数据。这篇文章为我们提供了一种新的思路:阻碍GS应用的或许不是什么完美的模型和算法,而是勇敢地迈出第一步。你看,这么一项顶级学术研究,只要一个经典的GBLUP模型就能胜任。


相关推荐

百奥繁育 | 良种选育的信息管理系统

百奥繁育 | 良种选育的信息管理系统

09-06

2023

江西种业也刮智能育种风

8月25日,江西省水稻种质资源创新交流及智能育种技术研讨会在江西省农科院顺利召开。江西农业大学、江西师范大学、广东省农科院、江西省农科院、中国水稻所江西早稻中心、南昌市农科院、赣州市农科所有关专家代表以及省内种企代表共约40人参与了本次交流会议。

08-28

2023

百奥云 & 火山引擎 | 为现代农业的“芯片”增添新科技

育种4.0时代,比拼的是科技创新,关键是通过数字化、信息化、智能化让育种过程缩短周期、提升效率、降低风险,而这也是长沙百奥云数据科技有限公司(百奥云)的创业初衷。

08-22

2023

百奥繁育 | 育种田间的信息流水线

有人说,植物育种的过程就像工厂流水线。挑选的种质即原材料,根据市场需求进行设计与加工,送入田间生产线后,一代代优中选优,还得经过严格的产量、品质、抗性测试,过五关斩六将,最终拿到审定编号,成为可以推广的成熟产品。 虽然流程相似,但育种工作远不及工厂生产那样标准。田间环境气候复杂、真实性状判断困难、水肥条件难以统一……种种困难下,选育良种成了概率事件,育种家们都有种“尽人事听天命”的无奈感。

08-22

2023

百奥云新品发布 | 高质量基因组极速拼接服务

1. 利用PopGenomics快速对基因组实现高质量组装 基因组组装是将全基因组测序的小片段(reads长度100 bp-100 kb)通过算法拼接成尽量长的片段(contig 和scaffold,长度几十kb 到Mb 不等)或者整条染色体的过程。获得包含基因组全序列的参考基因组是对动植物进行基因组学研究和育种利用的前提[1]。 由于植物基因组具有非常丰富的多样性,参考已发表的少数物种组装新的物种,有时却无法达到理想的组装效果。测序技术发展提供了短序列测序、单分子测序、光学图谱、Hi-C 图谱等多种测序技术及其组合的组装方案,到目前为止,已经有上千个植物基因组被组装(图1)。然而,如何以最低成本快速获得满足需求的高质量基因组,仍然是科研人员和育种数据分析人员普遍面临的一个问题。

08-22

2023

夏风又绿田间草,除草劳动正当时

7月26日,顶着炎炎夏日 在公司CSO桂進老师的带领下 举行了一场别开生面的劳动体验。

08-04

2023