拷贝数变异及其研究进展摘要:拷贝数变异(Copy number variations, CNVs)主要指1kb-1Mb的DNA片段的缺失、插入、重复等。
文章主要介绍了CNVs的基本知识及其机理,着重介绍了其各种检测技术,并进一步阐明CNVs对人类疾病及哺乳动物疾病的影响。
此外,对其研究发展进行可行性展望。
关键词:拷贝数变异机理检测技术疾病2004年,两个独立实验小组几乎同时报道,在人类基因组中广泛存在DNA片段大小从1 kb到几个Mb范围内的拷贝数变异(CNVs)现象。
在2006 年的《Nature》杂志上,来自英国Wellcome Sanger研究所以及美国Affymetrk公司等多国研究人员组成的研究小组公布了第1张人类基因组的第1代CNV图谱,后续又有3篇文章陆续发表在《Nature Genetics》和《Genome Research》杂志上,聚焦这一重大发现。
受到检测手段的限制,这类遗传变异直到最近2年才为研究者所重视,并迅速成为当前人类遗传学研究的热点。
CNVs 最初在患者的基因组中发现,但后来发现CNVs也大量存在于正常个体的基因组内,主要引起基因(或部分基因)的缺失或增多。
拷贝数的变异过程既与疾病相关,也与基因组自身的进化有关。
针对CNVs的发现,美国遗传学家JamesR.Lupski提出“我们不能再将人与人之间的差异想当然地认为仅是单碱基突变的结果,因为还存在更复杂的来自于CNVs的结构性差异”。
Lupski认为,CNVs的发现将改变人类对遗传学领域的认知,并将影响19世纪被誉为“遗传学之父”的孟德尔及 1953年发现“DNA双螺旋”的弗兰西斯•克里克与吉姆•沃特森所确立的人类遗传学基准1 CNV概述1.1 CNV的概念基因组变异包括多种形式,包括SNPs,数目可变串联重复位点VNTRs (微卫星等),转座元件 (Alu序列等),结构变异(重复、缺失、插入等)。
CNVs指大小从1kb到1Mb 范围内亚微观片段拷贝数突变,这些拷贝片段的缺失、复制、倒置等的变异都统称为CNVs,但不包括由转座子的插人和缺失引起的基因变异(如0-6kb Kpn I重复)[1]。
由于多态是用于描述在一定人群中某个等位基因的频率不低于1%,但到目前为止,多数人类的CNVs 频率还未知[2]。
目前发现的CNVs 都收录在人类基因组变异数据库中,CNVs平均大小为118 kb。
全世界范围内的CNVs研究目标是:建立人类基因组的CNVs地图集,以及建立CNVs与表型、CNVs与SNPs等方面的关系。
1.2 CNV产生机理美国学者Redon等认为,CNV可以被认为是简单的DNA结构变化(如单一片段的扩增、缺失、插入),或者可能是复杂的染色体扩增、缺失和插入的各种组合形式。
在人类基因组的研究中发现,CNV在基因组中的分布似乎是有一定规律的,它常发生在同源重复序列或DNA重复片段之内或之间的区域,且CNV和基因组的DNA重复序列(SD)呈极显著正相关。
由此,学者们认为,CNV的发生或者说绝大多数CNV的发生是非等位基因同源重组(NAHR)的结果[3]。
NAHR机制认为在一条染色体上的基因片段重复有利于通过DNA序列的插入,使复制区重复片段的拷贝数目发生改变。
在正常个体CNV的形成过程中,通过NAHR机制基因组发生大片段基因结构变异和染色体重排,这就导致了基因组的不稳定和一些疾病的早发。
CNV的形成除了由DNA片段重复外,还有一些是由非同源突变造成的。
一些亚型的CNVs DNA为非p的结构,与经典的右手双螺旋不同,它包括Z型DNA和环形DNA 等。
这种类型的结构被认为更有利于染色体的重排和CNVs的形成。
除此外,转座和反转座也被认为可以产生CNVs。
并且CNV片段的大小与机制相关,大片段的CNVs相对于小片段而言,更多与DNA重复片段相关,而小片段CNVs起主要作用的是非同源突变机制。
2 CNV的检测方法2.1比较基因组杂交(aCGH)aCGH也称为分子核型技术,是一种高分辨率的在全基因组范围内扫描CNVs的方法。
传统的G带分析无法检测小于4 Mb的染色体重排;荧光原位杂交(FISH)虽然可以检测细微的染色体重排,却无法实现包括未知区域的全基因组扫描。
1992年,出现了一种崭新的研究染色体CNVS的分子细胞遗传学方法,称为比较基因组杂交。
随着技术的发展,近年来出现了基于比较基因组杂交的芯片技术,即aCGH[4]。
aCGH是在全基因组范围内筛査节段性CNVs的高分辨率检测技术,是一种重要的基因诊断工具,有逐渐取代传统细胞遗传学方法的趋势。
aCGH的检测步骤如下:①提取待测组织的DNA作为样本,aCGH试剂盒中的基因组DNA 作为对照;②荧光标记待测和对照基因组DNA,制备探针;③将已经标记好的待测和对照基因组DNA共同杂交于特制的芯片上;④扫描荧光信号,分析图像,寻找待测基因组中的CNVs及其在染色体中的位置。
与其他细胞遗传学技术比较,aCGH具有高分辨率、高通量、自动化、简便、重复性高等优点,可以检测出传统细胞遗传学方法所无法发现的染色体异常。
aCGH只需要微量的待测基因组DNA样本,而且不需要进行细胞培养,从而节省了检测时间。
此外,优于位点特异性分析技术的是, aCGH还可以检测出散布在人类基因组中许多功能不明确的CNVs。
然而,aCGH也有一些局限性。
目前,大多数的aCGH平台是为非整倍体、微缺失/微重复综合征、亚端粒或其他不平衡染色体重排的检测而设计的;但是,aCGH无法检测平衡的染色体重排,例如易位、倒位以及某些倍性异常。
此外,其分辨率仍然受限于固化在芯片上的DNA探针的大小和密度(1探针/6 kb)0此外,aCGH的价格也比较昂贵。
2.2多重连接探针扩增(aMLPA)aMLPA多重连接探针扩增是于2002年建立的一种快速、可靠的基因组CNVs检测方法。
在MLPA 技术中,并不是样本DNA而是与样本DNA结合的探针被扩增和定量分析,探针的扩增依赖于样本中与探针结合的目标序列的存在。
MLPA通过变性、杂交、连接、PCR扩增和毛细管电泳等步骤,同时检测多个位点,但是还存在检测能力不足的缺陷。
随后出现的aMLPA技术是将MLPA与芯片技术相结合,从而增加了MLPA的检测能力,并使检测更为简单快速[5]。
aMLPA是基于芯片技术的一种新型、高效的DNA拷贝数检测平台。
该技术所使用的芯片是一种高效、低密度的检测系统,采用新型氧化铝三维底板材料,这种多孔微流系统增加了杂交效率,使杂交时间明显缩短。
aMLPA具有高通量的检测能力,是简便、快速、可靠的新一代分子诊断技术,在染色体微小变化的检测中具有优势。
然而,aMLPA技术是一项建立在PCR技术上的分子检测方法,仅反映检测位点的数量信息,并不反映其位置信息。
因此,aMLPA无法检测不存在染色体量变的平衡易位。
此外,由于一个位点探针只检测几十个碱基,位点设计的数目也有限,所以可能遗漏某些染色体片段。
aMLPA目前尚不能完全替代传统的细胞遗传学技术而用于染色体的筛查。
2.3多重可扩增探针杂交(aMAPH)2000年,Armour等报道了一种可用于基因组已知或未知位点CNVs定量分析的多重可扩增探针杂交方法。
该方法把特定的PCR产物与固定在尼龙膜上的基因组DNA杂交,通过PCR和电泳技术检测杂交回收探针的量,从而实现基因组中对应的DNA拷贝数的检测。
这是一种实用的基因拷贝数检测技术;但是,该方法对与基因组DNA杂交的PCR产物探针组的定量回收效率偏低,且在多重扩增后通过比较电泳条带的相对强度而提供基因组DNA 拷贝数信息的方法仍存在检测通量的限制。
近年来,基于芯片技术的aMAPH则可以实现快速准确的高通量基因组CNVs检测[6]。
aMAPH的优点如下:(1)特异性:aMAPH探针未包含多态或其他重复序列,使“探针-目标序列”100%相符;(2)灵活性:aMAPH探针可以为各种各样的位点设计,例如整个基因组、整条染色体、端粒、着丝粒旁区、特异性的染色体区域或外显子,包括基因组中复杂的、不稳定的区域;(3)高分辨率:aMAPH探针的大小仅400 -600 bp,可以高密度地覆盖待测基因组区域,为微缺失、微重复等CNVs提供了一个高分辨率的检测方法;(4)敏感性:aMAPH 探针虽小,却比寡聚核苷酸长,因此产生的信号也较强;(5)简便:aMAPH技术不依赖于BAC、PAC或其他文库的克隆。
然而,aMAPH也有一些局限性。
aMAPH所需待测DNA的量较多,至少需要2 mg基因组DNA(基于凝胶的多重可扩增探针杂交技术仅需0.5 -1 mg,aCGH技术仅需0.5 mg, 单核苷酸多态性芯片技术仅需0. 25 mg),且所需待测DNA的浓度要求较高,至少需要0.2 mg/ml。
2.4其他目前,单核苷酸多态性(SNPs)芯片、髙密度寡聚核苷酸芯片、嵌合芯片等高分辨率的生物芯片技术均可用于检测CNVs。
由于CNVs的研究刚刚起步,上述技术方法的价值仍有待于进一步评价。
在CNVs的研究中,采用上述技术、并结合验证方法(定量PCR、直接测序法、FISH等),可提高CNVs检测的准确性。
3CNV的研究进展3.1CNV与人类疾病CNVs影响基因活性的最简单方式是敲除一个基因或基因的一个部分。
其次,CNVs通过破坏基因编码蛋白的活性部分,改变一个基因的表达量此外,CNVs可以通过破坏基因的调控区域影响基因的活性。
研究人员发现,CNVs可以引起至少 10%-20%的基因活性的变异。
2006年,研究结果显示,超过人类基因组10%的近2900个基因存在两条染色体 DNA片段配对数量上的差异;将近16%的与已知疾病相关基因都存在于这些CNVRs中,包括罕见的遗传性疾病,如DiGeorge综合征、Angelman 综合征、Prader-Will综合征、Pick-Wick综合征,以及其他普通疾病,如精神分裂、帕金森症、阿尔茨海默症和AIDS的易感性等。
研究者们推测拷贝数变化导致基因的表达水平改变主要是通过影响基因组中的基因调节区域,进一步影响结构基因表达水平,最终影响生物体的机能,导致疾病的发生或者对疾病具有不同易感性。
CNVs是人类基因组变异的主要原因这一重大发现,为重新探索人类基因变异与指导疾病临床提供了好的方向[7]。
近15年来,基因组研究主要集中在寻找一般疾病的主要致病因素方面,但结果令人失望。
直到最近,由于髙通量SNP芯片的引入,全基因组关联研究才得以开展。
但是,检测到的大多数致病因素只能解释所有遗传疾病的小部分,临床诊断价值不高。
我们有理由相信多基因疾病的复杂性主要是遗传异质性所致,即不同的基因缺陷导致同一种疾病。
我们同时认识到拷贝数变异也是导致包括智力低下在内的众多复杂疾病的主要原因之一,这些变异在研究复杂疾病的病源中曾经被忽略,推测机能与拷贝数量的改变所引起的剂量效应有关。