第十章基因芯片微阵列数据库
Agilent等芯片采用双荧光标记法检测和数据分 析。双荧光标记杂交技术中,两种不同样品的mRNA 被用不同的荧光标记。标记产物与芯片上的DNA探针
杂交后,在不同的激发波长和发射波长检测后,通过
激光共聚焦荧光扫描检测杂交信号。同一探针上的两
种不同荧光信号的相对强度被用于推算相应靶基因在
两种不同样品中的相对表达量。两个样品中通常一个 是对照样品,一个是待测样品。如果不同的芯片使用 相同对照样品,则不同芯片上的待测样品中基因表达 的水平也可被比较。
第十章 基因芯片微阵列数据库
基因芯片是所有生物芯片的佼佼者。其芯片制 作技术、数据分析方法及在各种生命科学领域内的 应用均遥遥领先于其他类型的生物芯片。
第一节 常用基因芯片及其数据库
一、Affymetrix芯片
Affymetrix基因芯片系同类产品的首创,
为最受欢迎的基因芯片之一,在生物各领域
应用广泛。
因芯片数据包括四项:
1、探针组代号。Affymetrix给每个探针组独特代号。
一般探针组代号与靶基因一一对应,但有例外。
2、表达值。经由MA55处理后得到的探针组表达值,
相当于靶基因表达值。
3、表达值预测。有三字母分别代表表达值是否真的存
在:P代表存在,A代表不存在,M代表介于两者之间。
基因表达的存在与否由统计学经分析探针组中每根探
芯片上的25核苷酸探针通过一种基于光刻合成 及组合化学的独特工艺直接在芯片上合成。芯 片设计的核心技术是探针对的使用:每一根匹 配探针(PM)均有一根相应的错误探针(MM) 与其相匹配。两个探针间的唯一区别在于第13 个核苷酸。PM的该位置核苷酸可同其靶基因完 全互补,MM则相反。这种设计利于对非特异杂 交作出修正。每一靶基因都有相应的多组探针 对。
原始基因芯片数据经过各种适当处理后即可用
于差异表达基因的筛选。筛选的核心是要回答
两个基本问题:一是对给定基因而言,其基因 表达程度是否有变化;二是若有变化,其差异 是否属实,即是否具有统计学意义。 计算基因的差异表达简单,但变化差异统 计学意义的衡量较复杂。
有多种建立已久的统计学方法可供选择,包 括参数类和非参数类。各种算法种类不少, 但多数最终均落点于衡量和比较组间差异与 组内差异。计算中产生的p值通常被用作衡 量统计学意义的指标。最常见的对p值为 0.05的解释是:相应的基因表达差异有5%
的统计参数,又能有效利用有限的样品。其基本方法是: 是从50个样品中随机选取45个样品,并用其建立一个预
测模型,然后用该模型来预测剩下的5个样品。如此多
次重复,最后对所有模型的预测效果做综合统计分析。
预测结果代表建立模型所选用的差异基因的综合预测效 果。
上(40%以上基因有表达)。
某些熟知的非调控基因的表达值也可被用
来检验数据质量。最常用的是GADPH及β -
actin。 Affmetrix的人基因芯片有这两个基
因的5’端和3’端的探针,每个基因5’端和3’
端表达值的比率应在1左右。0.2以下的比率表
示低质mRNA。
数据准备中另一个重要环节是异样样品探
筛选分析之前,来自微阵列的数据必须先被加
以清理,其中用到很多较为复杂的以统计学为 基础的数据处理方法,整个过程称数据准备。 数据准备必须先于任何数据分析。数据分 析是个复杂的过程,包括质量控制、异体探测 以及减少或除去系统误差为目的的数据调整。 此阶段研究人员必须根据其分析结果来决 定样品或数据的取舍。
样品有一一对应关系,则应选择做对应t检验。
对由t检验计算而来的p值应进行适当的调
整以纠正由于多重检验而带来的额外的假阳 性。可采用Bonferroni法及其改进的版本 (如Holm法或Hochberg法)。 差异倍数及从t检验而来的p值均可由微 软的Excel来计算。各种调节p值的算法则需 要用到较专业化的统计分析软件如R。
第三节 基因芯片数据分析的基本策略与方法
一、数据准备
首先从各种样品得来的原始表达值需要经过适 当比例的调整才能相互比较。这种调整称为数 据标准化,最常用的方法之一是比例缩放。 比例缩放的基本方法是将每枚芯片的所有原始 表达值放大或缩小一定倍数。最终使所有研究 中每个基因的中间值均为相等。
在实际数据处理中,目标中间值的选取往 往是由全部研究中芯片原始表达数据的总中间 值来决定。除按中间值缩放外,还可以按平均 值或平衡平均值进行按比例缩放。 平均值对异常超值的敏感度大大超过中间
针的表达值后决定。
4、表达之探测p值。统计学分析探针组每根探针的计
算结果,用来决定表达之探测所用的P或A或M。
Affmetrix的探针是依据GenBank,RefSeq及
dbEST数据库中的DNA序列设计而成,并利用
UniGene以及生物信息学中的片段组装技术来 获取探针的特异性。大多数探针的序列与DNA 正股序列相同(与mRNA序列相同),极少数与 DNA副股相同。探针多倾向位于基因的3’端, 但探针间有足够的距离以确保探针灵敏度。
双荧光标记芯片数据归一化处理:目的是消除
同一芯片上的两种荧光信号在标记、共聚焦扫
描和其他实验操作环节引入的系统误差。最简
单的方法就是将两种不同荧光信号各探针的平
均值或者中间值调整到相同。为进一步消除在
不同荧光强度范围内的标记差异的不同,常采
用LOWESS方法。经过归一化处理的信号强度
被综合而成代表两个样品中各个靶基因表达相
PCA分析会有一定程度的人为因素。尽管如 此,PCA分析应识别出明显的异样样品并指出可 能潜在的异样样品。 聚类技术是另一类有效的异样样品探测方 法。如果一个样品被归于异组,或其距组心的 距离大大超过同组其他成员的相应值,该样品 很可能会是异样样品,应对其进行进一步监测。
二、表达差异基因的筛选 表达差异基因的筛选通常涉及先计算某些统计 学数值,然后根据这些数值来决定基因的取舍。
值。实际工作中常用到平衡平均值(取平均值
之前除去异常超值-最大与最小的5%)。
下一步是检验数据的质量。数据质量会受到 mRNA样品质量及杂交技术操作质量的影响。 Affmetrix的MAS55处理过的数据包括一个代 表表达值是否真的存在的指标,其在所有基 因中的分布可在某种程度上反映出微阵列数
据的质量。P的百分比一般应在40%左右或以
型,模型证实。模型用变量即差异表达基因;
变量选择即差异表达基因选择。选择一个具 体算法来建立预测模型。算法可以是统计学 的,也可是人工智能的。具体算法选好后即 可用训练数据建立预测模型。
模型证实的目的是检测其实际预测效果,需用训练数据 以外的样品作为实际的预测对象。常用有效的模型证实 方法之一是交叉证实。其特点是既能获取模型证实所需 假如有两组样品A和B,每组25个样品。1/10交叉证实即
二、Agilent芯片和其他用于双荧光标记的芯 片及其数据分析 Agilent的长寡核糖核苷酸芯片是建立在 其母公司HP的喷墨打印技术上,把底物直接打 印到芯片上特定区域,在芯片上固相合成具有 特定核苷酸顺序的探针。探针长度60个核苷酸 残基,高于Affymetrix探针,大大提高了探针 特异性。每一靶基因通常只选一个探针。 Agilent也提供cDNA探针。
两个最常用的此类统计数值是差异倍数及从t检
验而来的p值。
差异倍数是基因表达变化量的衡量尺度。可
用算术平均值(a同b的算术平均值为(a+b)
/2)计算。亦可用几何平均值来计算( a同b的
几何平均值为10(
㏒ a+ ㏒ b
)/2或√ab)。
几何平均值受到个别超值的影响较小,常被用于组内
表达差异较强的微阵列数据。由t检验而来的p值是用
对强度的信号比值。
第二节 基因芯片数据处理与分析 所有相关的DNA微阵列数据分析按其目标所分 均可归两类:发现和预测。
发现:代谢调控中的新基因、潜在的新的药物
受体、新的致病基因。
预测:建立数学预测模型,用于药物毒性预测
及疾病诊断与分类。
发现和预测均需经过相同的基本分析途径:
有统计意义的差异表达基因的筛选。
来衡量基因表达差异的统计学意义的统计参数。P值
被用来估计两组看起来不等的平均值是否真的不一样。
P值越小,两组不等平均值的真的不同的几率越高, 表达差异越真实。做t检验要求数据的分布为正态分 布,而多数芯片数据不满足这一要求,因此要做数据 转换。t检验有独立或非对应及对应之分。其选择要
由具体的实验设计来决定。如对照组的样品和实验组
Concepts of Array Design
PM to maximize hybriegree of cross-hybridization
PM MM
Probe pair
Probe set
每根探针都会有一个相应的基因表达值。
但最终每个靶基因的表达值要通过独特的统计 学运算才能得到(如Affmetrix的MA55)。 对于Affmetrix的芯片,重要的是应懂得设 计核心是探针对;每个靶基因都有多组相应的 探针对,称探针组。 典型的经过MA55处理过的Affymetrix的基
的几率会是假的。统计学上称为假阳性。
建立数学预测模型是另一个基因数据分析的主要目标。
建立预测模型需要较多的样品。各组至少应有15个
以上。 预测模型的建立过程涉及两个主要步骤:模型建立与 模型证实。 模型建立的基本步骤包括从训练数据中选择变量,
采用一种统计学或人工智能的具体算法用所选的变量建
立预测模型,并利用训练样品对建立的预测模型作出初 步的检验。模型证实则需要用预测样品来衡量模型的实 际预测准确度。训练用样品和预测用样品不能等同,必 须是两组不同的样品。
三、差异基因的分组聚类 是常用的划分基因的分析手段,亦常用于样 品的划分与归类。将聚类技术用于微阵列数
据的分析,则是将基因或样品按其表达模式