当前位置:文档之家› 全基因组关联分析

全基因组关联分析


14
截止到2010年12月GWAS发现的与人类性状或复杂疾病关联SNP位点(p<5×10-8)
不同颜色圆点代表不同性状或疾病
15
2、进行 GWAS时需满足
病例必须携带导致疾病的遗传因素 选择覆盖全基因组的SNP或CNV
研究样本量达到足够的检验效能
采用高效可靠的数据分析方法以及进行重复验
解决此类问题
一种可能的策略是采用基于家系的关联研究 ,该方法可以避免 人群分层对关联分析结果的影响
23
2)多重假设检验
照分析,统计分析后筛选出较少数量的阳性SNP。
第二阶段或随后的多阶段中采用更大样本的病例对照
样本群进行基因分型,然后结合两阶段或多阶段的结 果进行分析。
这种设计需要保证第一阶段筛选与疾病相关的SNP的
敏感性和特异性,尽量减少分析的假阳性与假阴性的 发生,并在第二阶段应用大量样本人群,甚至在多种 人群中进行基因分型验证。
13
五、GWAS研究成果
1、“GWAS第一次高潮”
截止目前,已经陆续报导和公布了关于人类身高、 体重、血压等主要形状,以及视网膜黄斑、前列腺 癌、白血病、冠心病、肥胖症、糖尿病、精神分裂 症、风湿性关节炎等疾病GWAS的结果,累计发表 了近万篇论文。确定一系列疾病发病致病基因、相 关基因、易感区域和单核苷酸多态性 (SNP)的变异, 取得了很大成绩。
全基因组关联分析
目 录
一 、GWAS的概念 二、 与传统关联分析方法的比较 三 、研究基础
表型选择 研究对象——SNP与CNV 技术支持
四、 GWAS研究成果 五 、研究方式 六 、未来发展展望
2
一、概 念
全基因组关联分析——英文名 字叫Genome-wide association study简称——GWAS 全基因组关联分析——是指在人 类全基因组范围内找出存在的序 列变异,即单核苷酸多态性 (SNP),从中筛选出与疾病/性 状相关的SNPs,进行全基因组水 平上的对照分析或相关性分析, 通过比较发现影响复杂性状的基 因变异的一种新策略。
17
举例:
18
2、研究的方式
GWAS GWAS目前分为单阶段研究和多阶段研究 目前分为单阶段研究和多阶段研究
A:单阶段研究 即选择足够多的样本,一次性地在所有研究对 象中对目标SNP进行基因分型,然后分析每个 SNP与目标性状的关联,统计分析关联强度。
19
B:多阶段研究(一般也称两阶段)
在第一阶段:用覆盖全基因组范围的SNP进行病例对
证检验等条件
16
五、研究方式
1、研究原理
GWAS分析方法的原理:借助于SNP和CNV 分子遗传标记, 进行总体关联分析,在全基因组 范围内选择遗传变异进行基因分型,比较异常和 对照组之间每个遗传变异及其频率的差异,统计 分析每个变异与目标性状之间的关联性大小,选 出最相关的遗传变异进行验证,并根据验证结果 最终确认其与目标性状之间的相关性。
但对于复杂疾病,连锁分析的作用非常有限。
8
三、研究基础
1、表型选择
进行 GWAS时 ,选择的表型定义要准确和精确
应尽可能选择那些可定量反映疾病危险程度的指标、可用于分 析疾病临床亚型的特征 ,或可用于诊断和鉴别诊断疾病的表型特 征。
缺血性脑卒中可能涉及 血栓脱落或者脑动脉样 硬化等不同的发病机制, 但在人群中却常常同时 出现而难以区分 。
20
GWAS流程示意图
21
2、遗传统计分析
GWAS比较每个SNP等位基因频率差别多采用4格 表的卡方检验,同时需对如年龄、性别等主要混杂因 素采用Logistic回归分析 。
在GWAS中,人群分层(population stratification)和 多重假设检验调整 (multiple testing adjusting) 是引起 研究结果分析误差的最主要原因 。
9
2、单核苷酸多态性(SNP)和拷贝数变异 (CNV)—GWAS的遗传标记
随着人类基因组单体型计划的完成,收录了成千上百万的 SNP,SNP是人类基因组中最常见的遗传变异,现已被用 作遗传标识。 CNV是指与参考序列相比 ,基因组中 ≥1 kb 的 DNA 片段插 入、缺失和 /或扩增 ,及其互相组合衍生的复杂染色体结构 变异。发现了成千上万的基因组拷贝数变异 (copy number variations, CNV ) ,它们能显著影响基因的表达。
10
1)CNV概况
2004年, Iafrate 等和Sebat等首次描述了人 类基因组CNV, 2006年 Redon 等确定了覆盖12% (300 Mb) 人类基因组的1 447个CNV区域(CNV region, CNVR) 。 CNV可能通过数量作用和质量作用两种机制引起 的基因剂量改变导致表型改变 ,所以CNV全基因组关 联分析(CNV association analysis) 可能更容易检组范围内的SNP对某一 复杂疾病/性状的影响——关联
身高间的差异
4
二、与传统关联分析的比较
1、单基因遗传
利用家系连锁分析的定位
克隆方法,发现了大量单基 因疾病,如囊性纤维化病、 亨廷顿病性痴呆
囊性纤维化病
亨廷顿病性痴呆
5
单基因遗传性状
6
例:家系连锁分析的定位克隆
单基因家系连锁分析
7
11
基因组单倍体图谱计划(International Human HapMap Project) 的实施和基因连锁不平衡
12
3、基因分型技术和遗传信息学的发展— —技术支持
近年来,基因分型技术不断进步,分型成本 显著降低,以基因芯片技术为代表的超高通 量分型技术更是得到了飞速的发展。 全基因组测序商业化和公司之间的竞争使得基 因组测序成本越来越低。
22
1)人群分层
人群分层是导致样本研究出现假阳性或假阴性结
果的一个主要原因
如Campbell等(2005)采用欧裔美国人研究身高表型与 乳糖酶基因型的关联 ,其结果在其他人群难以重复的 原因即是受研究对象在不同地域存在极大差异引起 的人群分层影响
人群分层产生的问题即使在研究对象是同一种族人 群时也仍然存在 ,而且现有的研究方法尚未能有效地
相关主题