植物遗传资源学报2007,8(3):366~372JournalofPlantGeneticResources
关联分析在作物种质资源分子评价中的应用
王荣焕,王天宇,黎裕
(中国农业科学院作物科学研究所,北京100081)
摘要:发掘优异基因资源是作物种质资源分子评价的重要部分,对作物育种尤其是分子育种具有非常重要的实践意义。
基于连锁不平衡(LD)的关联分析是基因发掘也是等位基因发掘的有效途径。本文系统介绍了关联分析的基本理论、策略、特
点及应用现状,并探讨了其在作物种质资源新(等位)基因发掘中的发展趋势及展望。可以预见,与传统QTL作图及功能基因
组学相整合的关联分析必将大大加快我国作物种质资源的研究进程,实现我国种质资源优势向基因资源优势的转变。
关键词:作物种质资源;连锁不平衡;关联分析;基因发掘;等位基因发掘
收稿日期:20070131修回日期:20070509
基金项目:863项目(2006AA102188);国家自然科学基金项目(30571133)
作者简介:王荣焕,河北衡水人,在读博士通讯作者:王天宇,黎裕,Te:l01062131196;Emai:lyul@imai.lcaas.net.cnApplicationofAssociationAnalysisin
MolecularEvaluationofCropGermplasmResources
WANGRonghuan,WANGTianyu,LIYu
(InstituteofCropScience,ChineseAcademyofAgriculturalSciences,Beijing100081)
Abstract:Genediscoveryandalleleminingareimportantinmolecularevaluationofcropgermplasmresources
andareofgreatpracticalsignificanceincropbreeding,especiallyinmolecularbreeding.Linkagedisequilibrium
(LD)basedassociationanalysisisaneffectiveapproachtofindnewgenesandfavorablealleles.Inthispapercom
prehensivelybasictheories,strategies,characteristicsandcurrentsuccessfulapplicationsofassociationanalysisin
cropswerereviewed.Thetrendsandprospectsofassociationanalysiswerealsoproposed.Itisconcludedthatwith
theintegrationoftraditionalQTLmappingandfunctionalgenomics,associationanalysiswillcertainlyacceleratethe
molecularevaluationofcropgermplasmresources.
Keywords:Cropgermplasmresources;LD;Associationanalysis;Genediscovery;Allelemining
作物种质资源的鉴定评价是作物种质资源研究
的重要组成部分。近20年来,随着基因组学和分子
生物学的迅猛发展,在分子水平上对种质资源进行
评价已成为国内外的研究热点。从广义上来讲,对
作物种质资源的分子评价主要包括遗传多样性分
析、分子身份证构建和基因发掘等。
基因发掘是种质资源分子评价的重要内容。广
义的种质资源基因发掘包括两部分重要内容,一是
在特异种质资源中找到控制目标性状的基因(含数
量性状位点,QTL);二是找到不同种质资源中同一
基因的不同等位基因,并对其功能和效应进行鉴定。
狭义的基因发掘仅指前一部分内容,又称为基因发现(genediscovery),后一部分内容则可称为等位基
因发掘(allelemining)。目前发现新基因的方法主
要包括基于遗传作图和图位克隆的方法、基于比较
基因组学的方法、基于基因表达的方法、基于突变体
的方法、基于生物信息学技术的方法、基于蛋白组学
和代谢组学的方法等[1];发现新等位基因的方法则
主要是基于连锁不平衡(linkagedisequilibrium,LD)
的关联分析方法。
关联分析(associationanalysis),亦被称为LD作
图(LDmapping)或关联作图(associationmapping),
是一种基于LD的将标记或候选基因的遗传变异
(等位基因变异)与目标性状表型联系起来的分析3期王荣焕等:关联分析在作物种质资源分子评价中的应用
方法[2,3]。本文将对关联分析的统计学原理、策略、
特点及其应用现状和前景做一系统介绍。
1关联分析的统计学原理
关联分析以连锁不平衡为基础。关联分析最初
普遍应用于人类疾病,特别是Alzheimer病[4]和膀胱
纤维症[5]的研究中,仅是在近年来才开始应用于植
物的研究中,其主要原因之一是人们对许多植物物
种基因组中的LD结构缺乏了解所致[6]。
11连锁不平衡的遗传学意义
连锁不平衡,亦被称为等位基因关联(allelicas
sociation),指的是一个群体内不同位点等位基因之
间的非随机关联,包括两个标记间或两个基因或两
个QTL间或一个基因/QTL与一个标记位点间的非
随机关联[3,6]。如果两个不同位点的等位基因一起
出现的频率比理论上同时出现频率高时,那么这两
个位点处于LD状态。鉴于非连锁的位点同样能够
处于LD状态,因此,用配子相不平衡(gameticphase
disequilibrium,GPD)或简称配子不平衡(gameticdis
equilibrium)更确切些,即相关联的等位基因在配子
阶段一定是共同出现的。关联分析方法只是LD应
用的一种[3],其检测的是某群体内处于LD状态的
一些标记或候选基因的遗传变异即等位基因变异与
特定表型显著关联的频率是否比期望的要更高[6]。
12连锁不平衡的度量
所有LD统计的是实际观测到的位点间的单倍
型频率与期望单倍型频率之间的差异(D)。连锁不
平衡的度量依研究位点的性质和数目而异。在实际
应用中,经常计算的是两个等位基因的两位点间的
LD水平。
假设有两个连锁的位点A(其等位基因分别为
A、a)和B(其等位基因分别为B、b),4个等位基因
的频率分别为A、a、B、b,4种单倍型AB、aB、Ab
和ab的频率分别为AB、aB、Ab和ab,则Dab=
(AB-AB)。对于只有两个等位基因的位点,有
多种统计方法可以用来衡量两位点间的LD水
平[7],但最常用的是2和D[8,9]。2和D的计算
公式分别为:
2=(Dab)2
AaBb
|D|=(Dab)2
min(Ab,aB)forDab<0
|D|=(Dab)2min(AB,ab)forDab>0D仅包括样本的重组史,敏感度较高,即使对于
在实际应用中的稀有等位基因的D值可能会很大,
意味着其具有较高的LD水平[10]。另一方面,D虽
然能更准确地估测重组差异,但当样本较小时发现
低频率4种等位基因组合的可能性将大大减小,因
此不适宜研究较小样本。与之相比,2既包括样本
的重组史又包括突变史,并且可提供标记是否能与
QTL相关的信息,因此关联分析中通常采用2表示
群体的LD水平[11]。
2和D是两个位点间LD的度量。对于具有
大量标记的基因组某区域内LD的分布状况,通常
用LD衰退图和LD矩阵两种形象化的方式来表示。
LD衰退图以位点间的LD对遗传距离作图来表示
一个区域内的LD分布情况,同时也便于比较不同
物种中的LD水平。LD矩阵是某基因内或某染色
体上多态性位点间LD的线性排列。另外,也可以
通过对该区域内反映两两位点间LD水平的2或
D的均值来表示该区域内的LD水平[10]。
2关联分析的策略
关联分析主要包括两种策略[6],即基于全基
因组扫描和基于候选基因的关联分析。两种策略
的技术路线分别见图1和图2。全基因组扫描方
法中,通常采用一定数量分布于基因组染色体上
的标记对所选材料进行基因型鉴定;而基于候选
基因的关联分析仅涉及到对目标候选基因所进行
的序列分析。了解所研究目标群体的基因组LD
模式有利于我们选择适宜的关联分析方法。对于
具有高度LD水平的群体而言,全基因组扫描是最
好的关联分析方法,因为采用这种方法可以减少
所需标记的数量;而较低LD水平的群体适宜采用
基于候选基因检测的高分辨率作图方法。关联分
析的步骤如下。
第一步:种质材料的选择。种质资源的选择对
发掘优异等位基因非常关键。为了能够检测到最多
的等位基因,所选材料应尽可能地包括某物种全部
的遗传变异。对于已构建了核心种质的物种而言,
核心种质是进行关联分析的最佳选择。种质材料的
选择同样也决定了关联分析的分辨率。具有高度多
样性的种质材料能够包括历史上曾经发生过的更广
泛的重组事件,因此这样的群体具有较高的关联分
析分辨率。
第二步:群体结构分析。通过运用基因组范围
内的大量独立遗传标记(如SSRs、SNPs、RFLPs或367