当前位置:文档之家› 全基因组高分辨率中国(东亚)人群遗传变异图谱的绘制

全基因组高分辨率中国(东亚)人群遗传变异图谱的绘制

项目名称:全基因组高分辨率中国(东亚)人群遗传变异图谱的绘制首席科学家:王俊深圳华大基因研究院起止年限:2011.1至2015.8依托部门:深圳市科技局二、预期目标本项目的总体目标:全基因组高分辨率中国(东亚)人群遗传变异图谱的绘制项目旨在集中顶尖基因组中心的测序和数据分析能力,基于新一代测序技术平台,通过对400 个人类个体黄种人低深度全基因组重测序并结合少数个体和家系高深度测序的方法,绘制一张黄种人的人类遗传变异图谱,建立起一套基于重测序技术构建重大疾病分子标记集的研究思路和技术路线,极大加速人类常见复杂疾病的研究。

本计划目标包括检测基因组非基因区内几乎所有在人群中的出现频率不低于1 %的单核苷酸变异,基因区内几乎所有出现频率不低于0.5 %的单核苷酸变异,以及全基因组上的拷贝数变异、结构性变异等大片段变异。

这一数据资源将完全成为一个开放的公共资源,为各种疾病的关联分析提供详细的基础数据;为解释人类重大疾病发病机理、开展个性化预测、预防和治疗打下基础。

此外,该项目还将加深人类群体遗传学的理解,促进人类进化历史研究。

五年预期目标:在本项目中,我们将针对不少于400 个亚洲个体,共计不少于3Tb 的全基因组重测序数据,完成东亚代表人群频度低至1%的高分辨图谱,同时绘制包括拷贝数变异、倒位变化的遗传变异图谱。

设计可用于全基因组扫描的精细至1%频度的基因分型芯片。

建立起一套针对大规模重测序数据、低频度变异分析和结构性变异的分析流程和方法。

预计将申请5 个以上软件著作权,发表10 篇以上SCI 文章,其中包括Nature、Science 级别文章,培养20名研究生和一支年轻的、国际一流团队(百人以上),其中30名技术骨干。

1.制定规范化的大规模样品收集流程,表型定义清楚、收集方法规范统一、个人信息记录完整且保密。

为今后类似的大规模样品收集工作提供典范。

2.在目前已有测序生产平台的基础上,能够以较高的产量和稳定的质量,日产200Gb 数据,产出适用于不同研究目的的各类测序数据。

3.建立完善的数据质量控制系统,定义规范的数据格式,提供针对超大规模数据采集、传输、存储、分析的高性能计算解决方案。

4.开发识别基因组变异的生物信息学工具并完成相应变异多态性的检出,包括SNPs、CNV(拷贝数变异)、插入、删除以及其它结构性变异。

由于在人类单体型计划(HapMap)已经识别了许多常见的SNPs,该计划将重点挖掘在人群中发生频率较低的稀有多态性和基因组的结构变异,并估计各种变异的等位基因型的频率,确定稳定遗传的单体型结构,以及各变异之间的连锁遗传(LD)模式,最终提供更有代表性、更全面的SNP 集合,供基因分型芯片的探针设计作参考。

5.通过千人基因组计划研究和分析结果,完善现有公共数据库中人类基因组的参考序列。

6.为个体间、群体间的基因组变异研究提供支持。

进一步揭示人类基因组突变和遗传重组发生的内在机理。

7.提供大规模群体个人基因组重测序数据展示方案,构建公众可免费访问的数据库,提出具有可扩展性的大规模数据共享方案。

三、研究方案1)总体思路:人类基因组计划和人类单体型计划的完成,构建了第一代人类基因组遗传多态性图谱,并推动了基因分型技术的发展,为全基因组关联分析奠定了数据基础,极大地推动了复杂常见疾病的基因组学研究。

然而,由于当前遗传多态性标记的密度较低,全基因组关联性分析仍然只能解决一小部分与疾病相关联的多态性位点,且所找到的目标区域范围较大,需要大量额外验证工作。

唯有通过对更大的样本群体进行大量全基因组测序工作,进行科学探索,发现新的在人群中更加稀有的遗传多态性标记,构建高密度人类基因组遗传多态性精细图谱,才能突破当前复杂疾病研究的瓶颈。

自2006 年开始的测序技术革命使得基因组测序成本大幅降低,使得对大量人类个体进行测序并大规模发现遗传多态性位点成为可能。

通过模拟计算证明,对亚洲人随机选取不少于400个样本,这样的样本容量可以保证90%以上在人群中频率为0.5%-1%的多态性位点的出现。

如果对每个样本进行4倍基因组深度测序,在考虑测序错误率,序列比对错误率及分布均匀性等实际因素的情况下,仍然能够准确发现在人群中频率为1%的多态性位点;在基因区所能有效检测到的最低频率甚至可达0.5%。

在基本的群体基因组学结构的假定下,预期将发现至少1500 万例以上的单核甘酸多态性位点和100 万例以上的插入删除多态性位点。

这一精度可以大幅提高遗传多态性标记的密度,将当前分子标记密度从每一千碱基一个提高到每200bp 一个,从而发现与疾病关联性更强,风险更高的稀有位点,极大降低了医学基因组学研究的成本和技术门槛,对复杂疾病研究具有重大的推动作用。

通过对多个个体大量测序,还将发现大量基因组结构性变异,而这些结构性变异的特征和意义目前研究刚刚起步,属于未知领域。

利用当前的测序技术,可从预计在进一步深入探索疾病关联多态性位点的同时,还将首次获得基因组结构性多态特征及其与疾病之间的关系。

此外,通过对亚洲人族群的群体基因组学研究,对人类进化生物学和群体遗传学的理解也有着重大的作用。

2)技术途径:3)可行性分析:在测序技术获得历史性突破的2008 年,国际千人基因组计划顺时而生,我国作为发起国之一,将在其中承担黄种人的测序和数据分析工作。

经过本课题小组参与的前期先导实验的工作,证实了整个项目在数据产出,数据同步,数据分析及实现最终目标的可行性。

另一方面,2008 年11 月,本课题小组在世界著名的Nature 杂志上,以封面文章的形式发表了第一个亚洲人基因组的重测序和数据分析工作,发现了超过300 万SNP 位点13 万插入删除位点及2682 例结构性变异位点,也进一步证实了使用这一技术对人类个体进行测序并检出多态性的可行性。

通过第一个亚洲人基因组重测序项目(即“炎黄一号”)的顺利开展,目前我们课题组已经建立了一套针对新一代测序仪的数据产生、数据分析平台。

高通量的数据产出能力确保了该项目所需数据能够顺利产生,强大的数据分析能力为Tb 级别的数据处理和分析提供了保障。

先期发表的炎黄一号数据库也将作为数据展示的模型,添加入新的数据,成为一个中国人群基因组数据的展示平台,共各国科学家共享。

4) 创新点:本项目最大的创新之处在于利用新一代测序技术高速发展的契机,推出了针对中国人群的全基因组重测序计划,研究成果将极大的提升我国在国际基因组学研究领域的地位、深入理解和保护我国丰富的遗传资源、并为针对中国人群的疾病相关研究提供基础数据。

这一重大研究从规模和深度上都是史无前例的,是科研工作者对人类基因组学研究最大的一次努力。

1.高通量的测序平台。

以日产200Gb 碱基的速度,产生不少于3000Gb 的400 个个体全基因组重测序数据,这在整个基因组学历史上都是前所未有的创举。

2.高标准的数据质量控制和校正系统。

自主搭建专门的信息化管理系统,用于所有测序数据的电子信息化管理和质量控制。

及时反馈测序质量和结果,并记录备查。

3.高性能的大规模存储、计算平台。

针对大规模测序数据,我们将专门定制一套解决方案,用于数据的传输、存储、分析等。

具有专业性、可扩展性、可管理性等特点。

4.高水平的生物信息学分析。

针对新的数据类型,我们将自主开发在数据处理和分析过程中所涉及到的所有分析方法和流程。

包括质量控制、序列比对、SNP 检出、SV 检出、CNV 检出、indel检出等。

5.全面、详尽的新一代人类遗传多态性图谱。

通过数据分析,预计将发现超过1500 万例SNP 位点,500万例插入删除位点,100万例结构性变异多态性位点。

这一遗传多态性图谱的密度较之前的人类单体型计划提高了10倍,将极大促进基因组医学的研究。

课题设置课题1、中国(东亚)人群样品收集和大规模数据产出研究内容:1、收集需要的样本数,达到不少于400 份纯正的黄种人样品。

1)通过国际协商,制定统一的样品采集标准与流程。

2)以规范化的操作采集样品,保存个人信息并匿名处理,保存样品。

2、共需产出不少于3000Gb 符合质量标准的测序数据。

1)文库制备。

根据需求,将分别构建不同插入片段长度的文库,包括200~500bp,2~5kb 等。

2)cluster 生成及上机测序。

根据需求,对不同样品分别进行从35bp single-end 测序到100bp paired-end 测序。

预期目标:完成400个样品的收集工作。

产出3Tb 基因组重测序数据。

承担单位:深圳华大基因研究院课题负责人:李瑞强学术骨干:田埂、赵姣、李卓经费比例:32%课题2、多个体全基因组重测序数据生物信息分析方法开发研究内容:1)全基因组短序列比对软件开发。

实现将不同长度、不同插入片段的短序列比对到参考基因组上的功能。

2)全基因组序列组装软件开发。

实现独立于参考基因组,直接对特定数据进行组装的功能。

3)全基因组多态性检出软件开发。

基于比对和组装结果,生成一致序列。

综合考虑测序深度、测序质量、正反向信息等,实现多态性位点(SNP、SV、CNV、indel)检出。

预期目标:开发多个体全基因组数据的比对软件、多态性识别软件、组装软件。

承担单位:深圳华大基因研究院课题负责人:李英睿学术骨干:高扬、朱红梅、秦楠经费比例:27%课题3、生物信息学和群体遗传学分析研究内容:1、负责3000Gb 以上个人基因组数据的处理和分析工作。

包括利用自主开发完成的软件实现比对、多态性位点检出、相位分析、多态性位点注释、群体遗传学分析等。

2、针对生物信息学数据分析的特点,定制高性能计算机解决方案,事先大规模重测序数据的管理、展示与共享。

1)数据传输、存储与分析。

解决1018数量级数据传输可能存在的高I/O 问题,设计高效的数据存储、备份方案,便于数据分析和计算。

2)数据展示。

将个人基因组数据以数据库的形式存储、以web 页面的方式展示给用户,供用户查询和下载。

3)数据共享。

制定适用于大型合作项目的数据质控、共享、同步方案。

预期目标:完成不少于3Tb 数据的基因组比对、多态性检出工作。

完成群体遗传学分析。

提供超大规模数据的传输、展示与共享的解决方案。

承担单位:深圳华大基因研究院课题负责人:王俊学术骨干:杨国华、樊伟、方林经费比例:41%各课题间相互关系本项目的开展将完全由深圳华大基因研究院的团队完成。

课题设置分为三个主要部分:样品收集和数据产出、生物信息方法开发、数据分析以及数据管理和展示。

总负责人:王俊。

子课题一是整个课题的材料准备和数据产出部分。

产生的不少于3000Gb 多个体全基因组重测序将用于构建高分辨率的中国(东亚)人群遗传变异图谱。

目前世界上没有现成的软件和流程可用于处理如此大规模的数据,子课题二的设置主要是针对本项目中所产生的数据,开发相应的软件和分析方法,为子课题三提供分析流程。

相关主题