扫描:SNP和拷贝数注释
摘要:
全基因组关联研究(GWAS)生成成千上万的单核苷酸之间的关系多态性(snp)和复杂的表型。
的贡献传统的忽视了拷贝数变异(CNVs)复杂性状也正在积极研究。为了方便数据的解释和
后续的设计实验验证,我们开发了一个数据库使这些变异相结合的合理的优先级几种方法不
仅涉及物理和公开可用功能注释还表皮、连锁不平衡(LD)注释的注释表达数量性状基因座
(eQTLs)。
结果:
对于每个SNP,扫描数据库提供:(i)总结信息从eQTL映射的单体型基因单核苷酸多态性表达
式(评估和基因的外显子数组)的全套人类基因组单体型图CEU(美国白种人从UT)和套(约鲁
巴语的人从伊巴丹、尼日利亚)样本;(2)LD信息,在的情况下单体型SNP,包括基因变化强烈
LD(成对地或表皮、LD)的变体,以及如何做好SNP是由不同的高通量平台;(3)总结从公共数
据库(如物理和信息功能注释);和(iv)从其他汇总信息GWAS)。对于每一个基因,扫描提供了
注解:eQTLs(我)的基因(包括地方和遥远的SNPs)和(2)的报道所有变异在人类基因组单体型
图,在每个高通量基因平台。对于每个基因组区域,扫描提供注释:(我)物理和功能注释SNPs,
基因和已知的基因拷贝数异变在地区和(2)中的所有基因受eQTLs地区。
1介绍
复杂疾病的关联研究和机会研究和最新进展在我们调查的能力成千上万的单核苷酸多态性
(SNPs)在高通量基因分型平台上,突出的必要性描述和优先多态性可能的列表与疾病易感性
或治疗药物的反应。国际人类基因组单体型图计划推出一个国际努力目录常见的基因变异人
类的数量。人类基因组单体型图计划发布了基因型的信息> 3百万个270巴尔病毒的SNPs
转换lymphoblastoid细胞系显然源自健康个体的非洲、亚洲和欧洲血统。这个重要的发展
反映了everincreasing的基因型,独特的生育期单体型信息在人类基因组中公共领域的多态
性。
当前实现对一个特色基因的扫描,因此,集成的基因表达和LD的信息,而不是简单的物理和
功能公共数据库,注释特征的描述优先级的遗传变异。
2实现
扫描数据库已使用软件解决方案实现栈。缩略词是指使用Linux操作系统,Apache web服务
器,MySQL和SQL管理系统和PHP脚本语言。除了灯的web基础设施发达,额外的软件模
块和脚本是用Perl编写和c++离线处理数据集来自这些不同的公众域dbSNP,RefSeq数据
库Entrez基因、基因组变异的数据库和单体型(国际人类基因组单体型图协会)和美国昂飞
公司等商业实体基因表达协会数据不可用。
3方法
3.1 SNP查询
目前,我们的SNP查询支持RefSNP和Affymetrix SNP标识符输入的要求。自后续分析结
果集可能会执行,我们提供查询结果在各种有用的格式,以逗号分隔(. csv)或tabdelimite文本
文件。一个SNP的查询可以使用可选参数定义返回的注释。
3.2基因查询
我们的基因查询支持官方Entrez基因符号(不区分大小写)需要输入。在未来,我们将添加
RefSeq基因id作为支持输入。提供不同的输出格式,如SNP查询,可能在下游分析使用。
4 结论
总之,扫描数据库允许用户友好的查询结果GWAS HapMap联盟变异基因表达在指定的阈
值。扫描也使用表皮、不均衡的总结的一些措施报道LD SNPs和描述的范围之间的关系基
因的高通量基因分型平台。扫描注释目前单核苷酸多态性不仅与物理和功能信息分布在多个
公共数据库,还要与LD的程度和预测的能力成绩单表达式。当前版本扫描是建立在基因型
和表型数据的生成人类基因组单体型图LCLs,有一些固有的局限性。只有一个组织类型、样
本量有限,细胞株集合时间偏见,罕见的低覆盖率SNPs)。基于解释的结果在扫描可能需要考
虑这些因素。扩大扫描数据(目前在开发)和其他组织一些正在进行的研究工作,如千年的基因
组项目,以及整合其他基因调控机制如DNAmethylation和小RNA在未来提供一个更全面的
数据库。