棉属A基因组的起源与进化

Abstarct

在完成非洲棉 A1基因组、亚洲棉A2基因组、四倍体陆地棉(AD)1基因组组装后,表明A基因组可能起源于一个共同的A0基因组,同时在系统发生树上A1相比与A2更加接近于祖先A0基因组;同时异源四倍体的形成可能早于A1和A2基因组的分化。通过高斯密度分布函数估计表明,大约570万年前~61万年前出现的几次转座子爆发事件极大的促进了A基因组的扩张、物种的形成和进化。同时在基因区域大量的物种特异性的结构变异,改变了许多重要基因的表达,这些有可能是导致四倍体(AD)1中棉纤维品质得到改良。该研究不仅解决了长期以来颇具争议的概念:关于A基因组起源;同时为棉花的遗传改良提供了有价值的基因组资源。

背景

栽培棉花是世界上最重要的经济作物之一。其中异源四倍体陆地棉 G.hirsutum在世界棉花贸易中占据着主要地位,它是由旧世界的A基因组祖先和新世界D基因组组件杂交然后进过染色体加倍后形成。(AD)1的真正的A-genome 供体仍旧不确定,而世界上仅仅只存在两个二倍体A基因组分别是A1 非洲棉、A2亚洲棉。Stephens 第一个提出A2是异源四倍体中A基因组的供体,Gerstel则认为A1与At1关系更加接近。因此到现在为止对于四倍体中A基因组的起源仍旧具有争议。

在本研究中,作者基于PacBio测序技术、双末端测序技术、Hi-c技术,首次组装了A1基因组。并且重新组织了高质量的A2基因组、(AD)1基因组;揭示了A基因组的起源、转座子事件的爆发以及二倍体A基因组间的遗传差异;并且鉴定到大量的能够印象附近基因表达的结构变异,进一步的解释了不同棉种间的表型差异。

2.1组装高质量的棉花基因组

作者使用PacBio对A1基因组进行测序,其中N50长度达到13Kb,测序深度达到x138倍;contigs的N50达到1915Kb,同时使用二代测序数据对组装进行校正。最后使用Hi-c数据将contigs分成了13组scaffolds,对应13条染色体。同样作者对A2、(AD)1进行了从头组装,相比与之前发表的数据质量得到了提升,减少了 contigs 之间的gaps。对基因信息进行注释后,其中A1、A2、(AD)1分别包含了 43,952, 43,278 and 74,350 蛋白编码基因。这些基因主要分布在染色体的两端,同时由于基因组复含转座子,这些TES regions主要位于染色体中间区域。

2.2棉属间染色体的倒位和易位

通过比较A1和A2基因组发现,1号和2号染色体之间发生了相互易位,这种现象似乎是在两个物种形成之后才出现的并且在A2中被固定下来。将A1、A2分别与At1进行比较后发现一些染色体易位,并且有些只在At1中才出现,说明这些可能是在多倍化之后才出现的。大量的倒位现象同样也被检测到,其中有一些倒位只在某个基因组或者某两个基因组中才出现,例如只在A1中出现的倒位、只在A2和At1中才出现的倒位,说明这些倒位可能是在A1和A2分化之后才形成的。

2.3四倍体棉花的起源

基于单拷贝基因建立分子树,表明At和A1、A2起源于同一个进化枝,表明它们之间具有一定的亲缘关系。通过计算发现A1、A2之间分化的时间大致在0.7个百万年前,四倍体的形成估计在1~1.6个百万年前。全基因组系统发生树分析,表明拓扑结构1与分子树结构一样,拓扑2表明At与A1是姐妹关系、拓扑3表明A2和At也是姐妹关系。结合Ka/Ks分析表明A1与A2之间的差异时最小的。进一步作者选择了几个具有代表性的材料,用它们的SNP数据构建了系统发生树。同比较发现,A1与At间SNP的数目更少一些,相比与A2与At。作者提出A1、A2可能都不是At基因组的祖先,于是提出假设A1、A2、At共同的祖先基因组A0与D5基因组杂交后形成四倍体物种。这种假说也就解释了A2、A1与D5之间杂交为什么不能成功,是由于它们之间遗传距离相差比较大。

2.4对两个A基因组物种的研究

作者分别用了14份、67份具有代表性的A1、A2基因组材料。通过PCA主成分分析发现,这些材料分为2组分别对应了A1、A2。对材料进行聚类发现聚为了3类其中k=3和k=2之间存在一些差异,这可能是由于中国的A2是从印度引进,经过多年的地理隔离形成不独特的A2种族。通过分析也发现A1、和A2两个物种分别经历了独立的进化事件。

2.5基因组的扩张和进化

在已经测序的D5和Dt1基因组中,它们基因组的大小与与可可之间相差将近两倍,而与木棉几乎差不多大。两个A基因组和At1亚基因组同样的进行了进一步的两倍扩张,并且与转座子的爆发事件有着很高的相关性。在D基因组中有50%左右LTR( long terminal repeat ),而在A基因组中则达到70%多,在棉属中的LTR反转座子经历了多次扩增。通过高斯密度分别函数估计LTR扩增事件的发生时间,其中最早的插入时间大约在~5.7个百万年前,那个时间点之前被认为是分化为A、D基因组的时间。紧接着是At1与Dt1,表明多倍化形成大约在2百万年前,

2.6结构变异与纤维发育

大片段的插入或者删除,被报道驱动重要表型的变异。通过比较A基因组与At1基因组,发现大量的SVs。同时发现大量的结构变异在A1与A2中都存在,说明在物种A1、A2分化之前就已经形成了对应的SVs。将SVs与基因区域取交集,结合之前报道的与纤维性状有关的关联位点,找到一些SVs附近的基因,进行GO富集分析发现一些与纤维发育相关的关键基因和转录因子

参考

  1. Genome sequence of Gossypium herbaceum and genome updates of Gossypium arboreum and Gossypium hirsutum provide insights into cotton A-genome evolution

Last updated