当前位置:文档之家› 关联分析

关联分析


2 关联分析模型:GLM、MLM
(1). GLM
y = marker effect + population structure + residual
使用TASSEL软件的GLM(General linear model)程序,是将各个体Q 值作为协变量,对标记变异分别与各个性状的表型变异进行回归分析。 GLM回归方程是:
其中Yj是第j个材料数量性状测定值,Ipj是第j材料第p等位变异出现的 指示变量,β是群体各位点各等位变异的平均效应,X1j~Xkj是第j材料 基因组变异源于第1~k群体的概率Q值,β1~βk是亚群体各位点各等 位变异的平均效应,ε是残差。
(2). MLM y = marker effect + population structure + K + residual
(a) ideal sample with subtle population structure and familial relatedness (b) multi-family sample
(c) sample with population structure
(d) sample with both population structure and familial relationships
不同的样本具有不同的群体结构特征。
(1).人类疾病的研究中一般选用TDT来分析基于数个较小家 系的样本的遗传基础(Corder et al. 1994),而对于数量性状 的检测则选用TDT (QTDT)来分析。 (2).GC和SA这两种方法常用于存在群体结构的样本,且通 用于人类和植物关联分析研究。当选用GC分析时,则先 假定群体结构对所有位点的影响相同,然后用一组随机标 记来评估群体结构对测验统计产生的影响程度(Devlin and Roeder 1999)。 (3).SA分析是用一组随机标记来计算材料相应的Q值(第个 材料的基因组变异源于第个群体的概率),然后将Q值作为 协变量纳入到随后的一般线性回归或逻辑回归统计分析中 (Pritchard et al. 2000; Falush et al. 2003)。
1. 当|D,|=1时,这两个位点处于完全连锁不平衡态;
2. 当|D,|<1时,表示祖先中的完全连锁不平衡被打破,在群体 演化过程中两个位点间发生了重组; 3. r2和|D,|数值越大,两基因座间的连锁不平衡性越强。
尽管|D,|可以测量连锁不平衡的强度,但|D,|值在很大程度上依 赖于样本的大小,当样本较小,特别是标记中有出现频率很小的 等位基因时,|D,|值将偏高。 因而很难比较不同样本间连锁不平衡的水平及衰减程度.当值 接近1时表示群体演化中几乎没有重组发生,而当|D,|值小于1 时,不管是用来测量连锁不平衡的大小还是比较不同研究之间 连锁不平衡的强度都需要谨慎使用。
GWAS也是植物研究的热点,可能会持续很长的 时间。其中的根本原因就是,genotyping的费用 大大降低了,如果要和育种关系起来,前途无量 啊
关联分析的步骤
(1)种质材料的选择。 种质资源的选择对发掘优异等位基因非常关键。为了能够检测到最多 的等位基因,所选材料应尽可能地包括某物种全部的表型和遗传变异 (Flint-Garcia, et al.,2005)。 (2)群体结构分析。 通过运用基因组范围内的大量独立遗传标记(如SSR、SNP、RFLP或 AFLP 等) 可以检测并校正种质材料的群体结构。理想的标记可以是 适量的SSR,或者是大量的SNP,但如果所选种质材料来源有限, AFLP 标记则是理想的选择(王荣焕等, 2007b; Zhu et al., 2008)。 (3)目标性状的选择及其表型鉴定。 目标性状的选择应兼顾性状的生物学重要性、性状评价的准确性、性 状相关数据采集的简易性及可重复性( Flint-Garcia et al., 2005)。 (4)关联分析。 基于全基因组扫描的关联分析中,分析了种质材料的群体结构、标记 间LD 水平和目标性状的表型数据后,即可进行关联分析;而在基于 候选基因的关联分析策略中,下一步是候选基因的选择及其核苷酸多 态性检测,然后进行关联分析(Zhu et al., 2008)。
目前新发展的关联分析统计方法主要有: (1)传递不平衡检测(Transmission disequili-brium test,TDT) (2)基因组对照(Genomic control,GC) (3)结构关联(Structured association,SA) (4)混合线性模型(Mixed liner model,MLM) (5)巢式关联作图(Nested association mapping,NAM) (6)上位性关联分析(Epistatic association mapping,EAM)
(Calculate by Genetic Power CalculatorPurcell et al. (2003) Bioinformatics, 19:149-150).
群体结构:the non-random distribution of genotypes among individuals within a population, 可能导致基因多态性位点与性状的相关性并非由功 能性等位基因引起,从而提供假阳性结果。
(Loiselleet al . 1995,American Journal of Botany 82:1420-1425)
Pla is the frequency of allele a at locus l in the reference sample, nl is the number of genes defined in the sample at locus l (the number of individuals times the ploidy level minus the number missing alleles)
i 1
k
其中y为表型值,b0为截距,bi为最终模型中第i个位点的效应,k为最终模型中显著位点 的个数,xi为对y的发生率,e为残差。
Q + K model had highest power to detect SNPs with true effects
3实验室关联分析的发展
Zhang等(2005)提出了基于品种系谱的QTL定位方法。 其主要思想是利用品种的系谱关系计算品种间的后裔同样(identity by descent,IBD) 值,并将IBD值嵌入回归模型或方差组分模型以检测QTL的位置与效应; Zhang等(2008)提出了基于同胞对的Haseman-Elston回归模型方法。 建立了由单点分析拓展到多QTL分析的全基因组多QTL定位Haseman-Elston回归 方法(MQHE)。 Lü等(2009)对(Grupe et al.在2001)年提出的“in silico”作图进行拓展,发展了多位点的 “in silico”作图(MLISM)。 Zhang等(2010)在MLM的基础上提出了一种压缩混合线性模型方法(cMLM)。 该方法通过引入聚类数和分组数两个模型参数,将个体先聚类为组来更好地 获得亚群间的品种相关,为MLM提供了额外的优化机会,提高了全基因组关 联分析的统计功效。 李梦(2011)基于压缩混合线性模型方法(cMLM),提出了改进压缩混合线性 模型方法(Enrished compressed MLM, ECMLM)。 Lü 等(2011)提出了整合全基因组所有标记信息量的上位性关联分析方法(epistatic
(Reich et al. 2001)
• 3.研究LD的衰减有什么用?
LD的衰减距离决定关联分析时所需标记密度,也在一定程 度上决定关联分析的精度
3.影响关联分析的因素
1.样本的遗传多样性 2.LD的衰减(decay of LD) 3.样本的大小 4.群体结构(population structure) 5.材料间亲缘关系(Kinship) 6.交配体系
生物在进化的过程中,对于某一特定基因座, 在自然选择、人工选择、重组、突变、遗传漂变、 迁移、群体扩张和瓶颈效应等因素的影响下,某 一“有利”变异(或等位基因)在正向选择的过程 中被保留下来,因而群体中具有此等位基因个体 的比例将会不断增加,成为优势变异而被固定下 来;同时,携带其它等位基因的个体则会逐渐减 少甚至消失。因此,该基因座的遗传多样性就会 急剧下降。由于存在连锁关系,该基因座两侧一 定范围内的序列(包括中性基因座)也会随着该 “有利”等位基因的固定而被大量保留下来,从 而使其遗传多样性也大大降低。
该方法利用标记信息计算每品种归属于各亚群的后验概率Q矩阵和品种间 亲缘关系K矩阵,将两矩阵嵌入混合线性模型中以矫正群体结构和遗传背 景对当前检测QTL的影响 Yu等(2005)
Yu等(2008)提出了同时整合连锁分析和关联分析二者优势的巢式关联分析方法, 其统计模型为:
y b0 xi bi e
(e) sample with severe population structure and familial relationships
Kinship definition and interpretation
In a generic way, kinship coefficients, also called coancestry coefficients, are based on the probability of identity of alleles for two homologous genes sampled. In some particular way. In the case of a kinship coefficient between two individuals, the two genes are randomly sampled within each of the two individuals.
相关主题