TCGA癌症数据库介绍专题
TCGA数据库介绍专题
/
上海尔云-云生信团队 2015.9.20
目录
1. 前言 2. 数据产生历程 3. barcode 4. Data types and data levels 5. 目前已有的癌症种类 6. 数据下载解读
01 前言
Grouper contiguous regions (in some cases) 根据probe的位置分组
Quantified association across classes of samples
Summary/Regio Associations based on two or more
/
TCGA- THE CANCER GENOME ATLAS
Genome
Proteome
cancer
Transcript ome
Epigenome
Clinic
癌症种类丰富,样本量大 34 kinds of cancer 325 samples on average
/
02 数据产生历程
/
/abouttcga/overview
TCGA数据的产生历程: 1. 组织样本和临床数据来源网站 (TSS)收集的数据发送到 Biospecimen核心资源(BCRs)。 2. BCRs提交临床数据和元数据到 数据协调中心(DCC)和测序中心 (GSCs),获取组织变异数据,然后 提交给DCC。 3. GSCs提交跟踪文件,序列比对 后文件到癌症基因组学中心 (CGHub)。 4. 提交给DCC和CGHub的数据可 供研究团队和基因组数据分析中 心(GDACs)使用。 5. 分析pipeline以及由GDACs产 生的数据结果通过DCC保存到研 究社区(community)中。
DATA TYPES
DATA LEVLES
Data Level 1
2
Level Type Raw
Processed
Description Low-level data for single sample Not normalized Normalized single sample data
单个样本的低级数据 未标准化 标准化的单个样本
06
数据下载及解读
/
最简单的方法: https:///tcga/tcgaHome2.jsp
Step4
第1封邮件通知下载申请已经提交 第2封给出下载链接
Step 4 文件内容
File_manifest.txt,对所下载文件的说明
05
目前已有的癌症种类
癌症种类丰富,样本量大 34 kinds of cancer 325 samples on average
详细见: TCGA publication guideline, /publications/publicationguidel nes
Interpreted for presence or absence of specific molecular abnormalities 解释异常的个体
Aggregate of processed data from single sample
单个样本整合在了一起
3
Segmented/ Interpreted
4
ns of Interest
(ROI)
Molecular abnormalities
Sample characteristics
Clinical variables
量化关联类的样本
两个或多个的关联 分子水平的异常 样本特性 临床变异
注意: 低水平的测序数据存储在CGHub https:///, 申请下 载时需要DUNS number. The Cancer Genomics Hub (CGHub) is a secure repository for storing, cataloging, and accessing cancer genome sequences, alignments, and mutation information from the Cancer Genome Atlas (TCGA) consortium and related projects.
临床数据解读
CDE:Common Data Elements https:///docs/dictionary/
THANKS
/
03
BARCODE解读
/
详细请见:https:///display/TCGA/TCGA+barcode
04
DATA TYPES AND LEVELS
/