当前位置:文档之家› 基因聚类分析和样品相关性分析

基因聚类分析和样品相关性分析

Rscript kmean_plot.R rpkm.xls kmeans 4
目录 聚类个数
更上一层楼
其他聚类/分类 算法:
PCA:主成分分析 KNN:K最近邻分类算法 SVM:支持向量机 ……
练习
根据基因的表达量进行相关性分析和聚类分析
相关性分析 回归分析 聚类分析
目录
Contents
相关性分析
相关系数间的比较 计算数 正态分布 样本容量
类型 精度
Pearson 2
必要 一定量 积差相关

Spearman 2
非必要 不限 等级相关 略低
计算公式和差别
计算相关系数
R 、Perl 、Python、 SPSS 、 Excel 、 CASIO…
两种主要计算方法: 1、层次聚类 2、K-Means聚类
层次聚类
层次聚类又称为系统聚类,首先要定义样本 之间的距离关系,距离较近的归为一类,较 远的则属于不同的类。
距离定义:欧式距离、马氏距离、 两项距离、明氏距离、相关系数等
K-means聚类
K均值聚类又称为动态聚类。 要指定聚类的分类个数N。
Rscript correlation.r rpkm.xls correlation.pdf
回归分析
散点图 一元线性回归
线性回归—简单散点图
Log2(y)= Log2(x) ± 1
如何进行线性回归分析
最小二乘法 线性拟合(使该直线与各点的纵向垂直距离最小) 拟合优度的好坏,R² 实例:重复是否OK
Rscript regression.r rpkm.xls regression.pdf
相关性分析和回归分析区别
用途 因果 预测
相关系数 统计相关性 不互为因果
不行
线性回归 统计相关性 一个因一个果
可以
聚类分析
层次聚类 K-means聚类
聚类分析
聚类分析(Cluster Analysis) 是根据“物以类聚”的道理,对样品或指 标进行分类的一种多元统计分析方法,它是在没有先验知识的情况下, 对样本按各自的特性来进行合理的分类。
相关主题