当前位置:
文档之家› 实验6 基因芯片数据处理分析与GO分析
实验6 基因芯片数据处理分析与GO分析
2、差异表达基因筛选与聚类分析
2.1、MeV 芯片数据分析的图形化显示 MutgiExperiment Viewer(MeV)是 TM4 软件包的子软件之一,其主要功能是实现芯片 数据分析的图形化显示。MeV 的最新版本在 TM4 主页(/mev.html)下获 取。此软件免安装,解压后即可使用。 解压后进入该软件所在的文件夹, 双击 TMEV.bat 文件打开软件的主界面 (Figure 6.10) , 由两个窗口组成,上方为应用程序窗口,下方为数据处理窗口。通过应用程序窗口可以新建 许多数据处理窗口从而实现多任务分析过程。
Figure 6.9 点击“Execution”按钮,并按照提示将结果文件保存,选好路径,软件会按照设计的流程 来处理数据。从界面下方“Process Status”处可以查看软件当前的运行情况。运行结束后,可 直接到之前选好的路径下查看结果文件 testdata_MDS.mev, 该文件中的数据已完成过滤和标 准化处理。 建议用 Excel 查看,打开文件后,计算 IB/IA 值(ratio) ,当 ratio=0.5~2.0 表示与探针杂 交时,基因表达没有显著差异。当 ratio>2 或 ratio<0.5 表示基因表达呈显著差异,分别称为 上调或下调。但这种方法比较粗略,不具有统计学意义,一般用于大规模初筛。
Figure 6.8 (4) 结果文件: 点击常用工具栏中最后 1 个图标 , 在流程窗口中显示写入数据“Write
Data”图标(Figure 6.9) ,这是将整个处理流程写到结果文件中。右侧的“Parameter”窗口有两 种选择: 勾选“Virtual Trim”表示结果文件中保留被过滤的探针, 但其信号值用零表示; 反之, 不保留被过滤的探针。勾选“Output Trimmed Data”则表示以单独文件列出被过滤的探针;反 之,则不单独列出。
Figure 6.11 ( 2 ) 数 据 导 入 : 点 击 “Browse” 按 钮 , 打 开 软 件 自 带 的 表 达 量 数 据 文 件 :
TDMS_format_sample.txt , 样 本 数 据 便 自 动 加 载 到 “Expression File Loader” 窗 口 下 方 的 “Expression Table”栏(Figure 6.12) 。实验数据类型有两个选项:双色芯片(Two-color Array) 和单色芯片(Single-color Array) ,本例选择双色芯片。单击“Load”按钮将数据导入。
Figure 6.10 MeV 支持常见的芯片数据格式,如 mev、geo、gpr 以及表格格式等。这里以表格格式 的数据文件为例说明,介绍使用 MeV 进行聚类分析和差异表达基因的筛选。 ( 1 )选择数据格式:在软件界面的 “Multiple Array Views” 窗口中选择 “File—>Load Data”,弹出“Expression File Loader”窗口(Figure 6.11) 。其中表格格式为默认设置,如采用 其他数据格式,需要在“Select File Loader”菜单中指定,另作调整。
1、芯片数据的获取与处理
芯片杂交试验完成后, 借助扫描仪将杂交信号形成 TIF 图像, 通过图像分析软件从中提 取原始杂交信号强度值, 并将其转换成数字文本文件。 但是不同扫描仪产生的数据格式不尽 相同,因此,需要对不同平台的数据进行转换和整合。 1.1、ExpressConverter 数据格式转换 TM4()的 ExpressConverter 可将其他格式的数据文件转换为 MEV 格式以供后续分析。由于该软件的运行需要 Java 运行环境支持,故第一次使用之前需要预 先安装 Java Runtime Environment() 。完成 ExpressConverter 安装后,在 开始菜单中找到 Expressconverter 并打开,出现软件主界面(Figure 6.1) 。
Figure 6.6 ,在流程窗口中显示过滤强度 ( 2 )数据过滤:点击常用工具栏中第 14 个图标 “Intensity Filter”图标(Figure 6.7) 。然后,在“Parameter”窗口中选择 Cy5 与 Cy3 的信号强度 阈值,默认值为 10000。
Figure 6.7 (3)数据标准化:分别点击常用工具栏中第 9 个 和第 13 个图标 ,在流程窗口中 显示“Locfit Normalization(Lowess)”和“Standard deviation regularization”图标(Figure 6.8) , 这两个数据标准化步骤均采取默认参数。
Figure 6.2 (3)在界面下方选择“Integrated”,然后在“File”菜单下选择“Start converting”,开始转 换格式,直到界面下方显示“Converting is successful”,完成转换。此时,在原目录中会出现 文件名相同但扩展名不同的.mev 和.ann 文件,它们可用记事本或 Excel(推荐)打开。 .mev 文件包含注释(comments)和数据(data) ,其中以“#”开头的注解部分包括文件版 本号、生成日期、数据的行数等基本信息,数据部分则详细地列出芯片中每个探针的位置、 信号强度等杂交信息(Figure 6.3) 。例如,UID 为探针标识号;IA、IB 分别表示 Cy3(对照) 和 Cy5(样本)的杂交信号强度;R 和 C、MR 和 MC、SR 和 SC 这三对数值指定了探针在 芯片中的位置;其他各列参数分别反映对照(A)和样本(B)的杂交背景、面积、信号强 度的中值等。
Figure 6.1
ExpressConverter 可以读取 Genepix、ImaGene、ScanArray、ArrayVision、Agilent、TAV、 Customized、Gal 等格式的数据并将其转换成 TM4 能够使用的 MEV 格式。这里以 Genepix 文件转换为例,说明 ExpressConverter 的使用过程。 (1)在”Input Format”菜单中选择“GenePix”,指定它为读入文件格式。 (2)在“File”菜单中选择“Select input files”,选定一个或多个需要转换的 GenePix 文件 (扩展名为.gpr) 。本例从该软件的默认安装目录下,即 C:\ExpressConverter\samples\中选择 testdata.gpr 文件(Figure 6.2) 。
Figure 6.5 这里以 ExpressConverter 转换产生的 testdata.mev 为例,介绍使用 MIDAS 进行双色(双 通道)芯片的数据处理过程。 (1)数据读取:点击常用工具栏中左起第 5 个“Read Single Data File”的图标 ,然后 在右侧参数(Parameters )窗口的“Data File Name” 项的 “Value”栏中指定读取 testdata.mev (Figure 6.6) ,并同时勾选 A 和 B 两个通道背景校正选项“ChannelA Background Checking” 和“ChannelB Background Checking”,信噪比阈值(Signal/Noise Threshold)设定为 2。通常 筛选差异表达基因时,只有当探针杂交的信号值大于背景值时,才能进入下游分析;如杂交 信号值低于阈值,其探针会被过滤。
Figure 6.12 (3)显示基因表达情况:通过 Multiple Array Viewer 窗口看热图(Heat map) ,了解每 个基因在不同样本中的相对表达量(Figure 6.13) 。
Figure 6.13
(4) SAM 参数设置: SAM 是差异表达分析的一种算法。 单击常用工具栏上的“Statistics” 按钮, 选择“Significance Analysis for Microarrays”,弹出“SAM Initialization”窗口 (Figure 6.14) 。 根据以下 5 个数据分别设置参数:两组不成对(Two-class unpaired) 、两组成对(Two-class paired) 、多组(Multi-class) 、一组(One-class) 、Censored Survival。本例选择两组不成对数 据,在“Group Assignments”选框中,将 10 个样本分成两组:将 Sample1~ Sample5 设定为 Group A, Sample6~ Sample10 设定为 Group B。单击“OK”按钮,完成 SAM 参数设置。
Figure 6.15 (6)结果分析图:主界面左侧的导航栏 SAM(1)查看或导出结果(Figure 6.16) 。有四 种不同类型:Expression Images、Centroid Graph、Expression Graphs、Table Views表达基因(Positive Significant Genes) 、显著负向表达 基因(Negative Significant Genes) 、正负向均为表达差异显著基因(All Significant Genes) 、 Non-significant Genes(正负向均为表达差异不显著基因)四种情况。
Figure 6.3
.ann 文件是一个芯片注释文件,用于存储每个探针的注释信息。其中 UID 表示探针的 标识号,R 和 C 分别表示探针在芯片中的位置,Name 和 ID 分别表示探针所代表的基因名 和检索号(Figure 6.4) 。
Figure 6.4 1.2、MIDAS 数据过滤和标准化 芯片杂交试验所产生的原始数据需要对低质量数据作过滤处理, 即表达水平是负值或很 小的数据或明显的噪音数据, 凡杂交信号值低于阈值的探针应予剔除, 使其对应的基因不再 进入下游的分析。由于芯片数据一般呈偏态分布,因此还需要对数据进行标准化处理,同时 还要消除实验操作造成的系统误差。 在 TM4 中 , 数 据 的 过 滤 标 准 化 通 过 MIDAS 软 件 完 成 , 下 载 地 址 为 : /midas.html。此软件免安装,下载后解压即可使用。进入该软件所在文件 夹,双击 Midas.bat 文件,便出现 MIDAS 软件主界面(Figure 6.5) 。