全基因组关联分析(Genome-wide association study;GWAS)是应用基因组中数以百万计的单核苷酸多态性(single nucleotide ploymorphism ,SNP)为分子遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种新策略。
随着基因组学研究以及基因芯片技术的发展,人们已通过GWAS方法发现并鉴定了大量与复杂性状相关联的遗传变异。
近年来,这种方法在农业动物重要经济性状主效基因的筛查和鉴定中得到了应用。
全基因组关联方法首先在人类医学领域的研究中得到了极大的重视和应用,尤其是其在复杂疾病研究领域中的应用,使许多重要的复杂疾病的研究取得了突破性进展,因而,全基因组关联分析研究方法的设计原理得到重视。
人类的疾病分为单基因疾病和复杂性疾病。
单基因疾病是指由于单个基因的突变导致的疾病,通过家系连锁分析的定位克隆方法,人们已发现了囊性纤维化、亨廷顿病等大量单基因疾病的致病基因,这些单基因的突变改变了相应的编码蛋白氨基酸序列或者产量,从而产生了符合孟德尔遗传方式的疾病表型。
复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。
目前已经鉴定出的与人类复杂性疾病相关联的SNP位点有439 个。
全基因组关联分析技术的重大革新及其应用,极大地推动了基因组医学的发展。
(2005年, Science 杂志首次报道了年龄相关性视网膜黄斑变性GWAS结果,在医学界和遗传学界引起了极大的轰动, 此后一系列GWAS陆续展开。
2006 年, 波士顿大学医学院联合哈佛大学等多个研究机构报道了基于佛明翰心脏研究样本关于肥胖的GWAS结果(Herbert 等. 2006);2007 年, Saxena 等多个研究组联合报道了与2 型糖尿病( T2D ) 关联的多个位点, Samani 等则发表了冠心病GWAS结果( Samani 等. 2007); 2008 年, Barrett 等通过GWAS发现了30 个与克罗恩病( Crohns ' disrease) 相关的易感位点; 2009 年, W e is s 等通过GWAS发现了与具有高度遗传性的神经发育疾病——自闭症关联的染色体区域。
我国学者则通过对12 000 多名汉族系统性红斑狼疮患者以及健康对照者的GWAS发现了5 个红斑狼疮易感基因, 并确定了4 个新的易感位点( Han 等. 2009) 。
截至2009 年10 月, 已经陆续报道了关于人类身高、体重、血压等主要性状, 以及视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分裂症、风湿性关节炎等几十种威胁人类健康的常见疾病的GWAS结果, 累计发表了近万篇论文, 确定了一系列疾病发病的致病基因、相关基因、易感区域和SNP变异。
) 标记基因的选择:1)Hap Map是展示人类常见遗传变异的一个图谱, 第1 阶段完成后提供了4 个人类种族[ Yoruban ,Northern and Western European , and Asian( Chinese and Japanese) ] 共269 个个体基因组, 超过100 万个SNP( 约1SNP / 3kb ) 及连锁不平衡区域( linkage disequilibrium, LD ) 关系的图谱。
第二阶段增加了其它的人类种族数据。
基于Hap Map可以选择500 000 到1 000 000 个覆盖全基因组的SNP。
2)基因组拷贝数变异( copy number variations ,CNV ) 是20 世纪80年代发现的在人类基因组中存在的多种类型的染色体数目和结构变异。
是指与参考序列相比,基因组中? 1 kb 的DNA 片段插入、缺失和/ 或扩增,及其互相组合衍生的复杂染色体结构变异。
与SNP相似,部分CNV 在不同人群中以不同频率分离并具有显著性差异, 并可能影响基因表达和表型改变, 因此CNV也是一种引起疾病或增加复杂疾病发病风险的重要遗传变异。
GWAS采用的研究方式与传统的候选基因病例—对照(case-control) 关联分析一致, 即如果人群基因组中一些SNP与某种疾病相关联, 理论上这些疾病相关SNP 等位基因频率在某种疾病患者中应高于未患病对照人群。
动物重要经济性状即复杂性状GWAS分析方法的原理是,借助于SNP分子遗传标记,进行总体关联分析,在全基因组范围内选择遗传变异进行基因分型,比较异常和对照组之间每个遗传变异及其频率的差异,统计分析每个变异与目标性状之间的关联性大小,选出最相关的遗传变异进行验证,并根据验证结果最终确认其与目标性状之间的相关性。
GWAS的具体研究方法与传统的候选基因法相类似:1)单阶段方法,即选择足够多的样本,一次性地在所有研究对象中对目标SNP进行基因分型,然后分析每个SNP与目标性状的关联,统计分析关联强度和OR值(计算出的OR值等于1时,则该因素的疾病发生不起任何作用;大于1时,该因素为危险因素;小于1 时,该因素为保护因素。
)。
2)目前GWAS研究主要采用两阶段方法/ 多阶段方法。
第一阶段用覆盖全基因组范围的SNP进行对照分析,统计分析后筛选出较少数量的阳性SNP进行。
可以以个体为单位,也可以采用DNAp ooling 的方法(后者可大大降低及基因分型的成本和工作量)。
但是DNA pooling 的基因分型结果与对所有个体进行基因分型的结果仍有一定差异, DNA pooling 估计的等位基因频率标准差在1 % ~ 4% 的范围, 因而若单独以DNApooling 来估计等位基因频率, 那么这种误差对全基因组的病例—对照研究的检验效能( power of test) 有重要影响。
第二阶段或随后的多阶段中采用更大样本的对照样本群进行基因分型,然后结合两阶段或多阶段的结果进行分析。
这种设计需要保证第一阶段筛选与目标性状相关SNP的敏感性和特异性,尽量减少分析的假阳性或假阴性,并在第二阶段应用大量样本群进行基因分型验证。
结果的统计和分析:1)在GWAS用于病例- 对照研究设计时,比较病例和对照组中每个SNP等位基因频率差别多采用4 格表的卡方检验( chi-square test ) , 并计算OR及其95%的可信区间( confidence interval , CI) , 归因分数( attributable fraction , AF) 和归因危险度( attributable risk ,AR) ; 同时需对如年龄、性别等主要混杂因素采用Logistic 回归分析, 以基因型和混杂因素作为自变量, 研究对象患病状态为因变量进行分析。
2)GWAS用于研究随机人群的SNP与某一数量性状关联时( 如身高、体重、血压等) , 主要应用单因素方差分析( one-way ANOVA) 比较SNP 位点3 种基因型与所研究的数量性状水平的关系, 需要调整混杂因素时则采用协方差分析( analysis o f covariance) 或线性回归引起结果误差的主要原因有人群分层和多重假设检验调整。
无论是GWAS两阶段/ 多阶段设计, 还是采用Bonferroni 校正等遗传统计方法, 都难以解决人群分层及多重比较导致的假阳性或假阴性问题。
GWAS不能仅凭P 值判断某个SNP 是否与疾病真正关联, 多种族、多群体、大样本的重复验证研究(replication) 才是提高检验效能、确保发现真正疾病关联SNP的关键。
【例】全基因组关联分析在乳腺癌易感位点筛选的应用2007 年6 月,乳腺癌关联协作组( Breast Cancer Association Consortium ,BCAC) 首先报告了乳腺癌GWAS的结果,该研究共包括三个阶段:第一阶段: 408 例家族性乳腺癌患者和400 名对照,266 722 个SNP;第二阶段: 3990 例乳腺癌患者和3916 名对照,12 711 个SNP;第三阶段: 22 例病例-对照研究,合计21 860 例患者和22 578 名对照,30 个SNP。
研究结果最终发现了5 个乳腺癌的易感性位点,4 个位于已知基因: FGFR2 ( rs2981582) 、TNRC9 /LOC643714( rsl2443621 ) 、MAP3K1( rs889312) 和LSPl ( rs3817198) ,而rsl3281615 位于染色体8q24。
虽然GWAS结果在很大程度上增加了对复杂性状分子遗传机制的理解, 但也显现出很大的局限性。
首先,通过统计分析遗传因素和复杂性状的关系, 确定与特定复杂性状关联的功能性位点存在一定难度。
通过GWAS发现的许多SNP位点并不影响蛋白质中的氨基酸, 甚至许多SNP位点不在蛋白编码开放阅读框(open reading frame ,ORF) 内, 这为解释SNP 位点与复杂性状之间的关系造成了困难。
而且,就目前来说GWAS难以检测的部分可能主要集中在最小等位基因频(minor allele frequency ,MAF)介于0 . 5 % ~ 5 %之间的少见变异, 或者MAF<0 . 5 % 的罕见变异, 现有的基因分型芯片较难有效地发现这些遗传变异但是,由于复杂性状很大程度上是由数量性状的微效多基因决定的,SNP位点可能通过影响基因表达量对这些数量性状产生轻微的作用,它们在RNA的转录或翻译效率上发挥作用,可能在基因表达上产生短暂的或依赖时空的多种影响,刺激调节基因的转录表达或影响其RNA剪接方式。
因此,在找寻相关变异时应同时注意到编码区和调控区位点变异的重要性。
其次,等位基因结构( 数量、类型、作用大小和易感性变异频率) 在不同性状中可能具有不同的特征。
在GWAS研究后要确定一个基因型- 表型因果关系还有许多困难,由于连锁不平衡的原因,相邻的SNP之间会有连锁现象发生。
同样,在测序时同样存在连锁不平衡现象,而且即使测序的费用降到非常低的水平,要想如GWAS研究一般地获得大量样本的基因组数据还是非常困难的。
* llumina 宣布HiSeq X Ten 测序系统将会于1 月份重磅回归,该技术的早期运用还需要等待一段时间,然而GEN预测了Illumina X Ten在2015年可能会实现的6大应用。
Illumina X Ten的测序功能非常强大,一台机器一年能完成18000 个人类基因组测序,尽管大规模基因组测序还会面临一系列挑战,但是现在可以将这些顾虑暂时搁置,思考一下科学家们可以利用该技术完成哪些有趣的工作呢?下面就是GEN预测的6 大应用。
1 新生儿与儿科疾病预测新生儿重症监护病房和儿童医院每年都会收治大量患有严重疾病的患儿,而其中很多致命的疾病都存在其遗传基础。