当前位置:文档之家› 机器学习算法的分类与选择

机器学习算法的分类与选择

➢ 采用聚类分析为早期帕金森疾病分亚型,对致病机制假说的 提出和治疗策略的制定有重大暗示
3. 疾病与模式基因之间的关联关系分析研究 4. 特征解释
CHIMA 201195
案例分享2
——利用层次聚类解释模型
长 老青幼小中中
寿 年年儿学年学
老 人人园生人生



肠道菌群与年龄之间的关系研究
从公共数据库中选用江苏地区923个健 康人(按照年龄被分为7组)粪便检材的 16S测序数据,从中获取5621个菌群的丰 度值,特征筛选后得到278个菌群的丰度值, 用来对不同年龄分组的样本做层次聚类。
K-means聚类(不断迭代过程)
K-modes(k众数聚类)
对分类型数据进行聚类 采用差异度(属性不相同的个数)来
代替k-means算法中的距离
CHIMA 201193
分层聚类
密度聚类
K-means 高斯混合聚类
聚类方法优缺点:
优点:让数据变得有意义 缺点:结果难以解读,针对不寻常的数据组,结果可 能无用
分组
幼儿园学生 小学生 中学生 青年人 中年人 老年人 长寿老人
年龄
3-6 8-12 13-14 19-24 30-50 60-79 >94
3项
6项
9项
76项
•性别 •年龄 •BMI
•呼衰 •肾衰 •脑梗 •冠心病 •糖尿病 •高血压
•射血分数 •缩短分数 •胸腔积液 •心包积液 •二尖瓣反 流 •……
•血常规类 15项 •血生化类 38项 •尿类化验 23项
特征分布情况ຫໍສະໝຸດ 心衰患者是否发生院内死亡预测
选取2015-2018年于解放军总医院住院 的心衰患者,根据是否发生院内死亡选择 正样本1094例,随机筛选负样本1094例, 选用94个特征用SVM做分类,利用5折交叉 验证法进行结果评估。
Linear Discriminant Analysis
回归
CHIMA 20139
01 02 03 04

征 降 维
聚 类
分 类
&




目 录
CHIMA 20149
特征降维
特征向量较多时使用SVM进行分类,结果并不理想; 随机删除几个特征后,准确率反而提升?
CHIMA 20159
特征降维 == 特征选择???
原型聚类
https:///stable/modules/clustering.html
➢ 分层聚类: ✓ 不需要预先制定聚类数,可以发现类的层 次关系; ✓ 耗时,受离群值影响大
➢ 密度聚类: ✓ 不需要输入类别数,可发现任意形状的聚 类簇,可识别离群值; ✓ 无法反映数据尺寸,对高维数据密度难以 定义
机器学习算法的 分类&选择
2019年7月4日
PCA DBSCAN
K-means Adaboost
LDA
KNN GBDT
决策树
SVM 逻辑回归
随机森林
Xgboost
神经网络
机 器 学 习 算 法
CHIMA 20129
聚类 分类
降 维 Dimension Reduction
Try PCA
Supervised
按照发散性或者相 关性对各个特征进 行评分,设定阈值 或者待选择阈值的 个数,选择特征。
如:移除低方差的 特征、移除相关性 较高的特征
根据目标函数(通 常是预测效果评 分),每次选择若 干特征,或者排除 若干特征。
如:递归地训练基 模型,移除对模型 贡献度较小的特征
使用某些机器学习 的算法和模型进行 训练,得到各个特 征的权值系数,根 据系数从大到小选 择特征。
应用:
• PCA是最常用的数据降维方法,可用于图像压缩等领域 • SVD可用于推荐系统、自然语言处理等领域,如电子病历文本
潜在语义分析 • LDA既可以用于降维也可用于分类
缺点:
• 经过降维后的数据与原特征不存在一一对应关系,较难解释
CHIMA 20199
案例分享1
——利用PCA对数据集去噪
基本信息 共病信息 检查信息 检验信息
SVM 5折交叉验证结果
未经过PCA降维
经过PCA降维到 90维
训练集AUC 0.9591 0.9009
测试集AUC 0.8436 0.8605
CHIMA 201190
聚类
想做一个分类问题,但是却没有分类标签? 如:疾病可能存在的亚型研究 如:疾病风险因素的归类分析
CHIMA 201191
聚类方法的类别
有监督的降维
相同类别在超平面上投 影之间的距离尽可能近, 不同类别投影之间的距 离尽可能远,最多降到 类别数-1的维数
CHIMA 20189
降维算法的注意事项:
➢ PCA、SVD、LDA均为线性降维方法,但可引入核函数实现非线 性降维,此外还有一些非线性降维方法如Isomap谱嵌入法等
➢ LDA作为有监督的降维方法,容易使后续的分类过程发生过拟合
➢ K-means聚类: ✓ 简单,最常用; ✓ 仅适用凸的样本集聚类,受离群值影响大
➢ 高斯混合聚类: ✓ 在各类尺寸不同、聚类间有相关关系时可 能比k-means聚类更合适;
✓ 需要初始化多个参数 CHIMA 201194
聚类方法在医学中的应用:
1. 无监督的医学图像分割 2. 疾病可能存在的亚型分类研究
如:基于随机森林 的特征选择方法
CHIMA 20179
特征降维
PCA(主成分分析)
SVD(奇异值分解)
LDA(线性判别分析)
A
无监督的降维
找到一个能最大保留数 据方差信息的子空间, 降维后的数据是原来特 征在新空间中的映射值
无监督的降维
将矩阵A分解为三个矩 阵UΣVT的乘积,选择Σ 中数值较大的几个奇异 值及U和VT中对应的奇 异向量,完成特征降维。
层次聚类
凝聚方法AGNES 分裂方法DIANA
聚类 密度聚类
DBSCAN
原型聚类
GMM
K-means
AGNES
DBSCAN
GMM
CHIMA 201192
K-MEANS(K均值聚类)
对数值型数据进行聚类 随机选取K个对象作为初始的聚类中
心,把每个对象分配给距离它最近的 聚类中心,根据聚类中现有的对象重 新计算聚类中心,不断重复此过程直 到满足终止条件
找一个高 维到低维 的映射!
特征降维
特征选择
删除若 干特征!
通过属性间的关系(如组合 不同的属性得新的属性)改 变原来的特征空间
从原始特征数据集中选择出 子集,是一种包含的关系, 没有更改原始的特征空间
CHIMA 20169
特征选择
Filter(过滤法)
Wrapper(包装法) Embedded(嵌入法)
相关主题