当前位置:文档之家› 作物基因组学前沿与应用

作物基因组学前沿与应用

作物基因组学前沿与应用Crop genomics: advances and applications 摘要:一些重要作物模式基因组测序的完成和进行高通量重测序的能力为提高对植物驯化历史的理解以及加快作物改良提供机遇。

而这些数据以及新一代实验和计算方法正在改变作物比较基因组学。

作物改良的未来将集中在个体植物基因组的比较,最好的手段可能在于结合运用新的遗传图谱构建策略与进化分析方法来指导和完善遗传变异的发掘与利用。

这里我们回顾这些已然出现的策略与深刻见解。

一些重要作物和模式植物模式基因组测序的完成可能有助于实现长期存在的大大加快作物改良的植物基因组学研究要求(fig.1)。

早在上世纪60年代末期,就已实现了对一个植物基因组分子标记的开发,但是最近几十年较易检测的分子标记数目存在分辨率较低的限制,而这些问题可以通过实验遗传学方法或者比较遗传学方法解决。

仅仅几年前,高密度的遗传图谱需要对几千个标记进行费时费力地检测。

实验群体通常会受限于两个亲本间的简单杂交;更详尽的研究设计可能提供对农学上重要突变遗传分布的评定,但相关种质中突变频率受到标记技术和用于区分多亲本分布的分析方法所限制。

对群体间分子标记频率的分析,从而鉴定重要功能突变的比对方法已经提出,但是由于群体间预期的等位基因较高变异频率的存在,使得发掘研究的大量位点间重要功能突变显得相当的困难。

目前,已经报道了一些作物的模式基因组,并且在那些具有较大基因组的作物中引用取得进展。

此外,已经报道了其他一些模式植物系统的模式基因组,包括拟南芥和短柄草。

比较基因组学——传统上被认为是相关物种间同线性(基因顺序)的分析和序列的比对,目前由于报道的模式基因组数目的急速增加,源于高通量重测序的序列多样性的估计,大量缺失插入以及拷贝数变异(CNVs)基因组分布的鉴别,以及新一代实验和比较方法的出现而被重新定义。

从遗传图谱的构建到进化分析,作物改良的未来将主要围绕着个体植物基因组间的比较。

如果我们要继续提高作物产量,同时最低程度地减少农业生产对环境的影响,以面对不断增长的人口和变化的气候,那么最大限度地利用这些基因组数据对作物改良就显得至关重要了。

在这篇综述里,首先指出作物比较基因组学的挑战,这些挑战包括植物基因组的复杂结构以及在一些作物品种中发现的高水平核苷酸和结构的多样性。

然后讨论了解驯化的重要性,因为一个作物的起源和种群分布影响着农艺性状的遗传基础和全基因组核苷酸多样性的方式。

我们对农艺性状遗传学的理解由于基因组数据而发生根本性的变化。

高密度的遗传标记正在被用于全基因组关联分析(GWASs),也可以应用到基因组选择中。

对农艺性状的了解同样因为新一代的多亲本遗传图谱构建群体而得到提高。

正如我们所讨论的那样,更高通量的重测序技术和标记基因型分析将会使新的作物改良方法成为可能,比如对有害突变的鉴别与选择性剔除。

植物基因组学的挑战应用在植物中的基因组学研究工具通常会开发和测试其在哺乳动物或者其他模式生物中数据,比如果蝇和小鼠,但是植物基因组的规模和动态性增加或者加剧在其他模式生物中面临的挑战。

相对于哺乳动物来说,植物倾向于拥有大量的基因家族和更高频率的多倍性。

这使得旁系同源成为更加实质性的问题,因为典型的高通量测序的短序列阅读可能不能精确地定位到模式基因组中,并且不能从紧密相关基因家族成员的差异中分辨出等位基因变异(fig.2)。

由于存在的大量拷贝数变异,旁系同源的问题甚至出现在那些拥有高质量模式基因组的植物物种中。

例如,估计表明,玉米模式基因组只占存在于不同玉米自交系亲本低拷贝数序列的70%,并且这种拷贝数变异导致了高比例的假阳性变异。

序列阅读长度的不断改善,连同测定品系间等位基因的分离和利用连锁不平衡的局部模式的方法,都将有助于复杂作物基因组中旁系同源基因的识别阅读。

尽管还没有一种简单的方法来应对多倍体植物基因组的复杂性,但是对二倍体近缘种或者双单倍体系的测序可以给未来多倍体作物基因组水平研究提供参照。

一些作物基因组中高水平的核苷酸多态性对比较分析构成挑战,因为大量样本和模式基因组间的错配会导致序列阅读分析(Fig.2)的降低或者寡核苷酸阵列杂交的减少。

例如,玉米和人类的基因组大小相似,但是一对普通的玉米个体间差异都是任何两个人位点差异的十倍。

尽管许多植物并没有这样高水平的多样性,但是不同基因组的研究难点与远缘杂交物种的玉米是差别的:无性繁殖的葡萄,甚至像大麦这些自交物种,多样性水平也很高。

比较基因组学的另一个挑战就是基因组的大小(Fig.1)。

目前特征性植物物种基因组的大小差异超过三个数量级,主要是由于转座子的广泛存在。

独特的基因组大小使得基因组分析变得更加困难:鸟枪法测序读取能够对覆盖有四个果蝇基因组大小进行有效的识别——能够对杂合位点的和结构变异的识别——能够识别覆盖大概一个小麦基因组的大小。

植物基因组转座子的密度同样意味着很大一部分的鸟枪法测序数据不能在基于模式基因组分析上应用,因为图谱的阅读以相同的概率在模式基因组多位点进行的(Fig.2)。

这并不奇怪,所有已经测序得到数据的作物基因组都相对较小——已测序的最大的作物基因组,玉米,其比被子植物基因组平均一半的规模还要小(Fig.1;Table 1)。

尽管植物基因组对基因组分析来说有很多挑战,但是它们确实还是有很多优点的。

不像大多数的动物,作物可以进行无性繁殖或者保持自交系,并且许多物种的种子可以无限期的储存,那样就可以有效地保留有利的基因型。

这就使得对一个系测序一次但多次鉴定其表现型成为可能,同样可以在不同环境中重复试验。

自交系或者专门设计的双单倍体同样避免了对高度杂合的基因组测序的困难。

对葡萄基因组的测序为二倍体远缘杂交种或者自交系的测序的优势和困难提供了一个有用的比较。

作物起源与进化对作物起源与驯化的了解具有重要的进化意义,因为植物驯化为适应性研究提供了模式系统。

对作物起源的了解一直是作为鉴定作物改良有利遗传资源的主要手段。

驯化造成的遗传变异是现代育种家可利用的资源,因为它能影响核苷酸多样性和全基因组连锁不平衡的方式。

驯化的种群历史同样为我们提供对性状遗传结构的期望,因此我们能够辨别作物改良的遗传变异的原因。

种群历史与地理起源。

全基因组多态性使得研究作物的种群历史和地理起源成为可能。

驯化是一种当代的进化现象,并且驯化种和其野生祖先间任何位点都有相同的系谱学历史。

驯化的和野生的种群间和种群内的等位基因的比对会反映大大早于栽培种起源的分化时代,反映了品种最近共同祖先的时间,而不是驯化种分化的时间。

对驯化历史的详尽的研究需要大量的位点与种群统计模型的结合。

一些早期植物种群建模的工作是利用遗传多样性的一般方式来适合驯化的瓶颈模式,这种方法最后扩张到包括明确的似然框架。

此外,最近研究者已经利用包含更多详尽信息的方法,比如位点频谱,来区分不同的进化模式。

影响作物基因组农艺性状的遗传结构和遗传多样性水平的最根本性问题之一是品种已被驯化的次数。

单驯化(如玉米和大豆)和多驯化(如鳄梨,菜豆和大麦)就是很有说服力的例子,但对于大多数作物驯化事件的数量和位置还没有得到解决。

基于驯化间遗传多样性的对个体和群体聚类的简单统计学方法会造成误导,因为遗传组群的数目不是驯化历史必然反映。

例如,尽管遗传证据表明普通大豆的两次驯化历程,但是栽培群体的遗传漂变会造成多基因组群识别的假象。

即使最简单的驯化情景的细节也可能很复杂。

例如驯化种的地理扩散以及与野生近缘种的掺和可以掩盖地理起源。

水稻栽培亚种indica和japonica起源一直存在争论,广泛的搀和可能是关于起源的一个解释。

最近的全基因组测序分析未能对水稻驯化次数达成共识:遗传分化的模型支持独立分化是在重要农艺性状位点的基因渗入之后的,然而多重数据集的位点频谱和多态性分析反对单一起源说。

因为更多作物和其野生近缘种的全基因组数据变得可行,从全基因组中获取掺和的详尽的单倍体型结构和模式的额外信息,并对充分利用这些额外信息的方法的应用,将会提高对一些作物复杂的种群历史的了解。

驯化的基因组基础植物和动物的驯化激发了早期对进化和自然选择的思考和研究,并且过去几十年分子标记已经广泛应用于作物驯化和改良的研究中。

然而直到现在,依赖对有利表现型先验鉴定的遗传图谱构建方法限制了作物进化遗传学的研究。

研究主要集中在称之为“驯化综合症”的一系列性状,包括扩散能力的降低,分支的减少,种子休眠能力的丢失,自然抵抗力的降低和某个形态学特征大小的增加。

作图策略不能覆盖负责还未测定表现型的位点,勿论表现型的进化学意义,驯化涉及较少位点的观点可能就是这种限制导致的。

然而,群体遗传学的方法或许可以鉴别受到选择支配甚至表现型未知的位点。

这种方法同样可以发现那种遗传作图方法很难检测的极端频率的等位基因。

群体遗传学方法研究的结果表明作物进化可能涉及到许多位点。

一些最早的驯化群体基因组学分析鉴定出许多涉及各种各样功能的位点,而这些位点推测的代表的许多表现型并不能利用作图方法进行研究。

Wright等利用群体模型来鉴定由于单独的群体瓶颈造成的多样性遗失高于预期的位点。

他们估计玉米基因组中大概2-4%(约有1300个基因)的位点与驯化或者后来的改良相关。

一些作物全基因组重测序分析持续增加推定的选择位点的规模。

相反,尽管栽培种和野生种基因组中存在大量的拷贝数变异(CNVs),但是没有证据支持CNVs在作物驯化中的显著作用。

通过包含无意选择模型和许多驯化性状复杂特性的预测,驯化涉及大量位点。

例如开花时间的适应,也许受到许多基因的控制,对土壤养分变化的适应以及种子休眠性状的丧失就是典型的例子,这些性状不可能是早期农民有意识选择的结果。

尽管位点选择的分子证据对涉及适应性位点的确认很重要,但是我们认为许多农艺性状所反映复杂的进化历史也很重要。

例如基因渗入,会导致单个位点不同寻常的历史。

在大麦中,许多性状表现出多起源的迹象——这一发现符合这一物种的驯化历史——来自中亚独立驯化的大麦品种对欧洲栽培种开花时间位点的基因渗入导致其出现等位基因变异。

然而早期的群体遗传学推断主要集中在选择性剔除(selective sweeps)的鉴别上,但是有相当多的证据表明选择并不总是遵循简单的模型。

选择历史包含不完全剔除,局部适应性,多突变起源,多态性位点变异产生的适应性。

这些因素间的互作非常复杂,对适应性有利位点的鉴别或者重要的进化现象的分辨,例如来自多突变起源的局部适应性,将需要对来自一套地理多样性样本的全基因组数据进行分析。

最后,尽管物种间比较遗传作图研究表明,驯化综合症性状遗传基础上的一些相似点,但是断定作物进化中已被筛选的基因间存在强烈的共性可能过早。

即便如此,玉米和向日葵中筛选出的位点都表现氨基酸生物合成相关功能的增强。

相关主题