确定基因表达的数据
基因表达数据之中隐含基因之间的相 互作用关系,因而可以通过分析基因 表达数据,构建基因调控网络。
几种基因调控网络模型
1、布尔网络模型
前一个状态 后一个状态
ABC ABC
作用规则 (1) A激活B (2) B激活A和C (3) C抑制A
系统运行轨迹
循环 A B C
1 110 2 111 3 011 4 001 5 000 6 000
一个基因网络由一组生物分子(如基因、蛋 白质)以及它们之间的相互作用构成,这些 生物分子共同完成一些特定的细胞功能任务。
在实际分析过程中,往往以图这种数据结构 表示基因网络,图中的节点代表基因或者蛋 白质,而节点之间的连线代表基因、蛋白质 之间的相互作用。基因网络描述了特定细胞 或组织中的功能路径,如代谢、基因调控, 信号传导等。
当一个基因通过转录、翻译形成功能 基因产物后,它将改变细胞的生化状 态,从而直接或间接地影响其它基因 的表达,甚至影响自身的表达。多个 基因的表达不断变化,使得细胞的生 化状态不断地变化。
一个基因的表达受其它基因的影响, 而这个基因又会影响其它基因的表达, 这种相互影响、相互制约关系构成了 复杂的基因表达调控网络。
聚类分析是模式识别中一种非常有吸 引力的方法,特别适用于模式分类数 不知道的情况。
从机器学习的角度来看,有两种基本 的聚类分析:
有教师聚类 无教师聚类
基因表达数据聚类分析一般包括以下 几个步骤:
(1)确定基因表达的数据
(2)计算相似性矩阵,各个矩阵元素代 表两个基因的表达是否相似 (3)选择算法进行聚类分析 (4)显示分析结果。
NACPH
表达
催化
ProCΒιβλιοθήκη 1-吡咯啉-5-羧基还原酶
反应
抑制
产生 脯氨酸
图9.17 代谢路径示例:脯氨酸的生物合成
NADP
基因表达实际上是细胞、组织、器官 受遗传和环境影响的结果。
一个基因的转录和表达由细胞的生化 状态所决定,在一个基因的转录过程 中,一组转录因子作用于该基因的启 动子区域,控制该基因转录,而这些 转录因子本身又是其它基因的产物。
5、基因调控网络实例
代表的基因归于第j类。按照上述办法处理所有的基 因;
• 经过上述处理,聚类可能发生变化,因此需要重新 计算K个新聚类中心:
1
Z j (l 1)
Nj
X
Xf j (l)
• 对于所有的聚类中心,如果Zj(l+1)=Zj(l)(j=1,2,…,K), 则迭代结束,得到最后的聚类结果;否则继续进行 迭代计算。
第九章 数据挖掘与基因表达调控信息分析(2)
主讲人:孙 啸 制作人 :刘志华
东南大学 吴健雄实验室
第四节 基因表达数据的聚类分析
基因表达数据主要来自于两个方面:
一是基因芯片,这是最主要的表达数据来 源,利用基因芯片技术可以大规模并行获 取基因转录结果mRNA的数据。
表达系列分析SAGE和差异显示、蛋白质芯 片等是快速检测蛋白质及其含量的另一类 技术。
2、线性组合模型
线性组合模型是一种连续网络模型,在这种 模型中,一个基因的表达值是若干个其它基 因表达值的加权和。基本表示形式为:
Xi (t t) wij X j (t)
j
3、加权矩阵模型
加权矩阵模型与线性组合模型相似,在该模 型中,一个基因的表达值是其它基因表达值 的函数。
ri (t) Wiju j (t)
表达
ProB
谷氨酰激酶
谷氨酸盐
ATP
底物 催化
反应 产生
底物 产生
谷氨酰磷酸脂
ADP
图9.16 基因表达在化学催化中的作用
抑制
谷氨酸盐
ATP
表达
ProB
谷氨酰激酶
催化
反应
产生
谷氨酰磷酸脂
ADP NADPH;H+
表达
催化
ProA
谷氨酰磷酸脂还原酶
反应
产生
NADP
谷氨酰半醛 自然产生
H2O
1-吡咯啉-羧基
4、自组织映射神经网络
图9.12 SOM聚类结果示意
5、模糊聚类分析方法
主要过程: (1)建立模糊相似矩阵 (2)生成模糊等价矩阵 (3)构建动态聚类图
6、聚类结果显示
图9.15 基因表达模式聚类结果图示
分类分析方法
有监督学习 疾病诊断、细胞类型识别
样本分类:(例) •急性淋巴细胞白血病(ALL) •急性髓性白血病(AML)
例:两类划分
问题:
基因的选择?
分类的方法?
• 贝叶斯分类法 • 支持向量机(SVM) • k最近邻法 • 神经网络方法 • 决策树方法 • 投票分类法(多分类器)
7、主成分分析PCA
图9.13 主元素对应特征值图示
分析基因表达数据 发现与疾病直接相关的基因 发现这些基因的活动规律
第五节 基因调控网络分析
j
4、互信息关联网络
可以用距离或相关系数作为基因表达模式之 间的相似性度量,还可以用另外一种度量形 式,即用熵和互信息描述基因与基因的关联。 一个基因表达模式的熵是该模式所含信息量 的度量。设X是一个基因表达模式,用下式 计算熵:
n
H ( X ) P(xi ) log 2 (P(xi )) i1
• 假设与第j类的距离Dij最小,并且Dij<T,则 将基因i分配到第j类;否则生成一个新类,该 类的中心为第i个基因的表达向量。
2、层次式聚类
3、K平均聚类
• 任意选取K个基因表达向量作为初始聚类中心
Z1, Z2,…, Zk • 反复迭代计算 • 如果||X-Zj(l)||< ||X-Zi(l)||(i=1,2,…,K,ij),则将X所
对数据进行聚类分析之前,必须将包含在基 因表达矩阵中的数据进行相似程度分析,并 且对分析结果进行量化。
通常情况下,相似往往被赋于一个较大的量 化的值,而不相似则由一个较小的量化的值 来表示。
在实际计算中,往往以距离代替相似的概念, 相似性度量被转化为两个基因表达模式之间 的距离。距离越小,表达模式越相近,反之, 则表达模式差异大。
几种常用的聚类方法
1.简单聚类 2.层次式聚类 3.K平均聚类 4.自组织映射神经网络 5. 模糊聚类分析方法 6、聚类分析结果的树图表示
1、简单聚类
假设有n个基因
表达数据向量分别为X1, X2,…, XN
• 令任意一个基因的表达向量为第一个聚类的中心
• 依次处理其它基因
• 在处理第i个基因时,首先计算该基因的表达 数据向量与现有各类中心的距离