当前位置:文档之家› 公用数据库基因组表达谱数据挖掘策略及分析方法-李曦(达人学社)

公用数据库基因组表达谱数据挖掘策略及分析方法-李曦(达人学社)


策略举例
影响阿糖胞苷药物敏感性的基因可能影响AML预后。 影响铂类药物敏感性的基因可能影响多种肿瘤的预后。 在高低肿瘤分级中存在差异的基因可能影响癌症预后。
……
研究策略如何确定
研究策略可以千变万化 研究策略决定了论文的上限 应根据自身专业选择有意义的研究策略
包含基因组表达谱数据的数据库
Datasets示例
芯 片 介 绍
芯片注释文件
样本描述
Limma法分析的TOP250结果
韦恩图
通路分析
生存分析验证
•Survexpress
KM Plotter
输入基因名
选择分析表型
GEO数据本机处理
• 统计分析+作图软件 ➢SPSS ➢Graphad ➢R
生物、医学、化学专业)
请关注达人学社微信 公众号
请注明个人信息: 单位、专业、姓名
甲骨文技术负责人 微信号
张常昕
夏艳东
讲座主办单位
•达人学社 •湖南甲骨文生物医药有限公司
•质量性状 分类变量,如:性别、疗效、等级等
•其他类型性状
时间依赖性变量,如:生存期,中位生存时间 等
数量性状常用统计分析方法
•参数检验(符合正态分布时) ➢T检验(独立样本或配对样本):两样本均数比 较 ➢方差分析:两个以上样本均数比较 ➢线性回归分析:多个因素对因变量的影响
•非参数检验(不符ቤተ መጻሕፍቲ ባይዱ正态分布时)
•逻辑回归:多个因素对因变量的影响
还有问题解决不了怎么办?
加入达人学社QQ群
(加群请注明信息:单位+专业+姓名,每人限加一个群)
、491043563 496353730、496740737 496974932、273757394
➢ 大神帮你解决高难文献
➢ 群内共享资源
➢ 资源获取技术教学视频
➢ 同行分享交流(主要为
数据挖掘案例
分析策略
核心思路:
➢ 影响脑胶质瘤发生发展的基因可能影响脑胶质瘤的预后
分析流程:
➢ 获取包含脑胶质瘤组织和正常脑组织的全基因组表达数据 的多个数据集
➢ 鉴定在脑胶质瘤组织和正常脑组织中差异表达的基因 ➢ 在自己收集的样本中验证这些基因 ➢ 分析这些基因与肿瘤分级以及总生存期之间的关系
➢Mann-Whitney U 检测:两独立样本 ➢Kolmogorov-Smirnov 检测:两独立样本 ➢McNemar检验:配对样本
质量性状常用统计分析方法
•卡方检验:单因素对因变量的影响
A:期望值>5且样本量>40,用 Pearson卡方。 B:1<期望值<5且样本量>40,用连 续校正。(仅用于四格表资料) C:期望值<5或样本量≤40,用Fisher 精确检验。
Nature Reviews Genetics 16, 85–97 (2015)
什么是数据挖掘
从海量数据中揭示潜在的生物学规律。
为什么要学习数据挖掘
把握自己的命运 最大化利用已有数据 寻找新的课题
数据挖掘的步骤
生物医学研究人员的优势
数据处理步骤、统计分析均有工具可以完成 数据挖掘表型的确定 数据的选择 数据挖掘结果的解读
•Gene Expression Omnibus (GEO) •ArrayExpress •The Cancer Genome Atlas (TCGA) •International Cancer Genome Consortium
GEO数据库关键名词
• Profile:数据库整理好的单个基因的概述 • Datasets:见GDS和GSE。 • GSM:单个样本的实验数据 • GDS:数据库整理好的关于某个话题的GSM集合。一个GDS中
生存分析
• Kaplan-Meier法 ➢单因素生存分析 ➢分类变量 ➢做生存曲线图
• Cox回归模型 ➢单因素或多因素生存分析 ➢分类或连续变量 ➢计算HR和95%CI
P值 HR
双击弹出
肿瘤靶向药物的个体化治疗
谢谢!
研究表型
•数量性状 连续变量,如:身高、体重、药物剂量等
生物医学数据挖掘所需技能
必备技能: ➢基本的生物信息学知识 • 各种数据库的使用、数据库信息的解读 ➢基本的生物统计学知识 • 分析方法的选择,分析软件的使用
可选技能: ➢R语言的基本操作 • R包的使用 ➢Linux系统的基本操作
基因组表达谱数据挖掘流程
确定研究策略 获取表达谱数据 处理表达谱数据 统计分析 验证分析
的所有GSM为同一平台。 • GSE:一个实验项目中的多个GSM合集,可能使用多个平台。 • GPL:芯片平台,如Affymetrix, Agilent等。
Profile示例
实验描述
实验结果展示
Value:归一化的相对表达量 Rank:探针表达值在所有表
达值中的排名的百分比。 Rank越高,表达越高。
相关主题