全基因组关联分析(Genome-wide association study,GWAS) 是一种对
全基因组范围内的常见遗传变异: 单核苷酸多态性(Single
nucleotide polymorphism , SNP) 进行总体关联分析的方法, 即在全基因
组范围内选择遗传变异进行基因分型, 比较病例和对照间每个变异频率
的异差, 计算变异与疾病的关联强度, 选出最相关的变异进行验证并最终
确认与疾病相关。
单核苷酸多态性(英语:Single Nucleotide Polymorphism,简称
SNP,读作/snip/)指的是由单个核苷酸—A,T,C或G的改变而引起的
DNA序列的改变,造成包括人类在内的物种之间染色体基因组的多样
性。
在后GWAS时代,利用已有的GWAS数据在多个人群间进行meta分析
已经成为一种常用的分析手
段,这不仅可以进一步扩大样本量,更重要的是提高了统计效能。
GWAS meta分
析已经成功应该用在多种复杂疾病的遗传学研究,发现一批新的易感基
因。
全基因组关联水平(P_meta < 5.0×10-8)罕见等位基因(MAF <
5%),
基因型填补(imputation):依据已分型位点的基因型对数据缺失位点
或未分型位点进行基因型预测的方法。可用于精细定位(fine-
mapping),填补已确认的关联位点附近的位点,以便评价相邻SNP位
点的关联证据。加快复杂性疾病易感基因的定位。
连锁与连锁不平衡(linkage disequilibrium,LD):
连锁:如果同一条染色体上2个位点的位置比较近,则这2个位点上的
等位基因倾向于一起传递给下一代。
连锁不平衡:又称等位基因关联,是指同一条染色体上,两个等位基
因间的非随机相关。即当位于同一条染色体上的两个等位基因同时存在
的概率大于人群中因随机分布而同时出现的概率时,就称这两个位点处
于LD状态。所谓的连锁不平衡是一种遗传标记的非随机性组合。比
如,一个基因有两个位点,一个位点有两种基因型,那么子代应该有2
的2次方,即4种基因型。但是发现子代的基因型往往会少于4种,这就
是连锁不平衡现象。这是由于两个位点距离较近引起的两个位点上的等
位基因经常同时出现在同一染色体上。