4期吴永升等:植物数量性状全基因组选择研究进展1511全基因组选择的概念和原理全基因组选择(Genome-wideselection,GWS),又称基因组选择(Genomicselection,GS),由Meu—wissen于2001年首先提出∞J。
主要是通过全基因组中大量的分子标记和参照群体(trainingpopula—tion)的表型数据建立BLUP模型估计出每一标记的育种值,然后仅利用同样的分子标记估计出后代个体育种值并进行选择[7】。
全基因组选择理论主要利用连锁不平衡信息,即假设标记与其相邻的QTL处于连锁不平衡状态,因而由相同标记估计的不同群体的染色体片段效应是相同的,这就要求标记密度足够高以使所有的QTL与标记处于连锁不平衡(LD)状态哺J。
而目前随着拟南芥、水稻、玉米等植物基因组序列图谱及SNP图谱的完成或即将完成,提供了大量的SNP标记用于基因组研究。
而随着SNP芯片等大规模高通量SNP检测技术的发展和成本的降低,使得全基因组选择应用成为可能。
2全基因组选择的基本方法及案例说明2.1全基因组选择的基本方法全基因组选择在实施过程中应该包括以下几个基本步骤:在需要实行选择的参照群体中获取参照群体的基因型数据和表现型数据;然后,通过BLUP程序估计出每个标记位点的标记效应值,从而获得育种值;最后,在接下来每一轮的选择中,不再需要表型数据,根据每一轮次群体基因型信息估计育种值,直接选择群体的优良单株【9j。
全基因组选择的核心过程就是用从参照群体中每一个体的表现型数据和基因型数据建立的数学模型来估算接下来的育种群体中仅有基因型数据的个体的GEBV值。
由既有表现型数据又有基因型数据的每一个体组成的群体被成为参照群体。
参照群体用来估计数学模型的参数,这个参数接着用来计算仅有基因型数据的育种个体GEBV值,然后根据计算的GEBV值对育种群体进行选择并提升到下一轮次的选择中。
因此,通过模型来预测个体的育种值,可以不进行表型鉴定就直接对育种群体的个体进行选择(Meuvissen,2001)。
为了使估算的GEBV值尽可能地准确,参照群体必须具有代表性,尽可能地代表接下来在育种过程中用全基因组选择方法来进行选择的分离群体。
2.2全基因组选择方法案例如图l所示,在这个例子中,笔者的目标是把外来种质中的优良性状基因(包括产量、矮杆、抗逆等)导入本地优良的自交系,从而实现种质的改良图1在玉米中利用全基因组选择方法导入外源种质Fig.1Genomewideselectiontointrogr%exotictraitsintoadaptedmaize西南农业学报25卷扩增。
首先利用优良自交系与外来OPV杂交,获得F。
,F。
自交获得F:,F2自交获得F,家系,F,家系与测验种杂交获得F,家系的测交种。
F2单株提取DNA进行基因型分析,F3家系测交种进行多点试验,根据获得的基因型信息和表型数据,利用BLUP对每一个SNP标记的效应进行估计得到育种值。
F,家系仅仅根据表型选择10个家系进行重组,获得的种子混合随机取180株进行下一轮选择,从这一轮开始,对这180株植株进行基因型分析,然后预测育种值,仅仅根据预测的育种值选择优良的10株进行重组,如此循环4次,基本达到改良效果。
2.3全基因组选择的影响因素尽管多个模拟试验的例子已经证实全基因组选择具有提高遗传增益的巨大潜力,但是在应用时必须充分考虑以下关键因素。
主要包括:标记密度和连锁不平衡;统计模型和不同的实施方法;估计染色体片段效应需要用的表型记录数目;非加性效应对选择准确性的影响;不同群体及品种间的全基因组选择;重新估计染色体片段效应u0|。
全基因组选择和当前应用的MAS是有较大区别的,M.AS是仅仅利用已知的与目标性状显著关联的标记进行选择,而在全基因组选择中,是利用BLUP模型对所有的标记估算每一个个体的育种值。
因此,需要大量覆盖全基因组的标记来进行分析,以使尽量多的QTL与至少一个标记处于连锁不平衡状态,同时让尽可能多的QTL能够用标记来表示它的效应。
预期需要的标记密度是由全基因组连锁不平衡衰退的速度来决定的,也就是说由标记之间的决定系数、r2和遗传距离来决定。
LD是由突变产生的多态性形成的,因重组的发生而被打破。
因此,突变和重组是影响LD的重要因素。
连锁不平衡衰退的速度和方式往往还受受遗传漂变、物种的异交率、群体大小、基因或染色体片段所受的选择强度等群体特性的影响H¨。
因此,不同物种的LD衰减距离不同,同一物种不同群体、同一群体不同基因组区域的LD衰减距离也不同。
人类的LD研究最广泛,一般认为人类LD衰减距离在60kb到500kb之间【12一副;而玉米农家种为1kb¨4l,具有广泛变异的玉米自交系大约为115kb【151,而优良玉米自交系则达100kb【l6|。
玉米不同座位的LD衰减距离也不同。
/dl、tbl、shl、d3等四个基因在来自全球玉米自交系群体中的LD衰减距离大约为115kb,而在同一群体中的嬲和sul两个基因的LD衰减距离较大,尤其是sul基因在10kb内几乎不衰减。
拟南芥属于自交物种,其LD模式不同于玉米。
Hagenblad等【171在控制拟南芥开花期的基因FR/附近400kb的范围内对14个短片段测序,发现LD衰减距离达250kb(约1cM)。
从上面的例子中可以粗鲁地估计各种物种LD衰退距离,但是影响LD的因素是多方面的,在具体育种研究中还需要对具体研究群体的LD衰退距离进行估计。
在GS中,可以用LD衰退的程度来估计预期需要的标记密度。
例如,CalusandVeerkamp¨引(2007)利用两个近邻标记的r2平均值来估计标记密度和LD衰退程度的关系。
研究发现,对于高遗传力的性状,两个近邻标记的r2平均值为0.15就足够了;对于遗传力低的性状,把r2平均值提高到0.2可以更准确地估计GEBV值。
但对于某些作物或者某些特殊群体来说,这样的标记密度无法达到。
着眼未来,随着高通量测序技术的发展,将有越来越多廉价的标记能直接用于各种物种的分析,基因型分析费用的降低将加速覆盖全基因组的高密度分子标记在各种作物GS中的应用¨9f。
研究表明,建立可靠的用于估计GEBV的预测模型,需要同时满足饱和的全基因组覆盖率并且至少一个标记与QTL处于连锁不平衡状态这两个条件。
然而,推测用于建立可靠预测模型至少需要多少分子标记仍然具有重要意义。
但是,影响用于建立可靠模型的分析标记数目的因素是多方面的,而且目前缺乏可借鉴的经验数据,因此,在这方面的很多猜测将是没有意义的,这个问题也将是未来研究的重点关注之处。
QTL分析的最大挑战就是选择合适的统计模型来进行QTL定位并对他们的效应进行估计啪J。
在全基因组选择育种项目中,需要用有限的表型数据来估计大量分子标记效应。
这种远远大于表型数据数目的解析变量(标记)往往会使分析缺少自由度,在选择过程中这个问题必须解决,也就是说必须要使用合适的统计模型,通过分析模型的复杂程度和计算需求使这个模型估计的GEBV值达到最高的准确性。
在评估模型的效果时,GEBV估计的准确性程度有严格的定义,也就是GEBV值与真正育种值(TBV)之间的相关性(Pearsoncorrelation)。
在利用GEBV值来进行选择过程中,定义的准确性程度是直接和选择增益相对应的,也就是说准确度越高,选择的效果越好。
3全基因组选择的应用自从20世纪80年代以来,植物遗传学家和育种家已经把分子标记技术应用到植物育种中。
技术的发展首先从数量性状QTL定位开始,接着研究者不断开展如分子标记辅助导人外来种质‘21l、标记辅植物数量性状全基因组选择研究进展作者:吴永升, 邵俊明, 周瑞阳, 黄开健, WU Yong-sheng, SHAO Jun-ming, ZHOU Rui-yang,HUANG Kai-jian作者单位:吴永升,WU Yong-sheng(广西大学农学院,广西南宁530005;广西农科院玉米研究所,广西南宁530227;广西作物遗传改良生物技术重点开放实验室,广西南宁530007), 邵俊明,SHAO Jun-ming(广西作物遗传改良生物技术重点开放实验室,广西南宁,530007), 周瑞阳,ZHOU Rui-yang(广西大学农学院,广西南宁,530005), 黄开健,HUANG Kai-jian(广西农科院玉米研究所,广西南宁,530227)刊名:西南农业学报英文刊名:Southwest China Journal of Agricultural Sciences年,卷(期):2012,25(4)1.Salvi S;Tuberosa R To clone or not to clone plant QTLs:present and future challenges 20052.Flint-Garcia S A;Thuillet A C;Yu J M Maize association population:a high-resolution platform for quantitative trait locus dissection 20053.The Arabidopsis Genome Initiative Analysis of the genome sequence of the flowering plant Arabidopsis thaliana 20004.Yu.A Draft Sequence of the Rice Genome (Oryza sativa L.ssp.Indica) 2002(02)5.Patrick S;Schnable The B73 Maize Genome:Complexity,Diversity,and Dynamics 20096.MeuwissenT H;Hayes B J;Goddard M E Prediction of total genetic value using genome-wide dense marker maps 20017.Bernardo R;Yu J Prospects for genome-wide selection for quantitative traits in maize 20078.Daetwyler H D;Villanueva B;Woolliams J A Accuracy of predicting the genetic risk of disease using a genome-wide approach 20089.Jannink J L;Lorenz A J;Iwata H Genomic selection in plant breeding:from theory to practice 2010(09)10.Luan T;woolliams J A;Lien S The accuracy of genomic selection in Norwegian red cattle assessed by cross validation[外文期刊] 2009(03)11.Stuber C W;Goodman M M;Moll R H Improvement of yield and ear number resulting from selection at allozymeloci in a maize population 198212.Reich D E;Cargill M;Bolk S Linkage disequilibrium in the human genome 200113.Taillon Miller P;Bauer Sardi;(A)a I Juxtaposed regions of extensive and minimal linkage disequilibrium in human Xq25 and Xq281 200014.Tenaillon M;Sawkins M C;Long A D Patterns of DNA sequence polymorphism along chromosome 1 of maize 200115.Remington D L;Thornsberry J M;Matsuoka Y Structure of linkage disequilibrium and phenotypic associations in the maize genome 200116.Jung M;Ching A;Bhattramakki D Linkage disequilibrium and sequence diversity in a 5002kbp region around the adhl locus in elite maize germplasm 200417.Hagenblad J;Nordborg M Sequence variation and haplotype structure surrounding the flowering time locus FRIin Arabidopsis thaliana 200218.Calus M;R.Veerkamp Accuracy of breeding values when using and ignoring the polygenic effect in genomic breeding value estimation with a marker density of one SNP per cM 200719.Zhu C M;Gore E S;Buckler Status and prospects of association mapping in plants 200820.Broman KW;T.P.Speed A model selection approach for the identification of quantitative trait loci in experimental crosses 200221.Hospital F L;Moreau coudre More on the efficiency of marker-assisted selection 199722.Bernardo R;Charcosset A Usefulness of gene information in marker-assisted recurrent selection:Asimulation appraisal 200623.Xu Y;Crouch J H Marker-assisted selection in plant breeding:from publications to practice 200824.HospitalF;Goldringer I;Openshaw S Efficient marker-based recurrent selection for multiple quantitative trait loci 200025.Melchinger A E;Utz H F;Schon C C Quantitative trait locus (QTL) mapping using different testers and independent population samples in maize reveals low power of QTL detection and large bias in estimates of QTL effects 199826.Schaeffer L R Strategy for applying genome-wide selection in dairy cattle 200627.Eathington SR;T.M.Crosbie;M.D.Edwards Molecular markers in a commercial breeding program 2007本文链接:/Periodical_xnnyxb201204078.aspx。