当前位置：文档之家› 机器学习算法的分类与选择

机器学习算法的分类与选择

➢ 采用聚类分析为早期帕金森疾病分亚型，对致病机制假说的提出和治疗策略的制定有重大暗示
3. 疾病与模式基因之间的关联关系分析研究 4. 特征解释
CHIMA 201195
案例分享2
——利用层次聚类解释模型
长老青幼小中中
寿年年儿学年学
老人人园生人生
人
学
生
肠道菌群与年龄之间的关系研究
从公共数据库中选用江苏地区923个健康人（按照年龄被分为7组）粪便检材的 16S测序数据，从中获取5621个菌群的丰度值，特征筛选后得到278个菌群的丰度值，用来对不同年龄分组的样本做层次聚类。
K-means聚类（不断迭代过程）
K-modes（k众数聚类）
对分类型数据进行聚类采用差异度（属性不相同的个数）来
代替k-means算法中的距离
CHIMA 201193
分层聚类
密度聚类
K-means 高斯混合聚类
聚类方法优缺点：
优点：让数据变得有意义缺点：结果难以解读，针对不寻常的数据组，结果可能无用
分组
幼儿园学生小学生中学生青年人中年人老年人长寿老人
年龄
3-6 8-12 13-14 19-24 30-50 60-79 >94
3项
6项
9项
76项
•性别 •年龄 •BMI
•呼衰 •肾衰 •脑梗 •冠心病 •糖尿病 •高血压
•射血分数 •缩短分数 •胸腔积液 •心包积液 •二尖瓣反流 •……
•血常规类 15项 •血生化类 38项 •尿类化验 23项
特征分布情况ຫໍສະໝຸດ 心衰患者是否发生院内死亡预测
选取2015-2018年于解放军总医院住院的心衰患者，根据是否发生院内死亡选择正样本1094例，随机筛选负样本1094例，选用94个特征用SVM做分类，利用5折交叉验证法进行结果评估。
Linear Discriminant Analysis
回归
CHIMA 20139
01 02 03 04
特
征降维
聚类
分类
&
总
回
结
归
目录
CHIMA 20149
特征降维
特征向量较多时使用SVM进行分类，结果并不理想；随机删除几个特征后，准确率反而提升？
CHIMA 20159
特征降维 == 特征选择？？？
原型聚类
https:///stable/modules/clustering.html
➢ 分层聚类： ✓ 不需要预先制定聚类数，可以发现类的层次关系； ✓ 耗时，受离群值影响大
➢ 密度聚类： ✓ 不需要输入类别数，可发现任意形状的聚类簇，可识别离群值； ✓ 无法反映数据尺寸，对高维数据密度难以定义
机器学习算法的分类&选择
2019年7月4日
PCA DBSCAN
K-means Adaboost
LDA
KNN GBDT
决策树
SVM 逻辑回归
随机森林
Xgboost
神经网络
机器学习算法
CHIMA 20129
聚类分类
降维 Dimension Reduction
Try PCA
Supervised
按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。
如：移除低方差的特征、移除相关性较高的特征
根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。
如：递归地训练基模型，移除对模型贡献度较小的特征
使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。
应用：
• PCA是最常用的数据降维方法，可用于图像压缩等领域 • SVD可用于推荐系统、自然语言处理等领域，如电子病历文本
潜在语义分析 • LDA既可以用于降维也可用于分类
缺点：
• 经过降维后的数据与原特征不存在一一对应关系，较难解释
CHIMA 20199
案例分享1
——利用PCA对数据集去噪
基本信息共病信息检查信息检验信息
SVM 5折交叉验证结果
未经过PCA降维
经过PCA降维到 90维
训练集AUC 0.9591 0.9009
测试集AUC 0.8436 0.8605
CHIMA 201190
聚类
想做一个分类问题，但是却没有分类标签？如：疾病可能存在的亚型研究如：疾病风险因素的归类分析
CHIMA 201191
聚类方法的类别
有监督的降维
相同类别在超平面上投影之间的距离尽可能近，不同类别投影之间的距离尽可能远，最多降到类别数-1的维数
CHIMA 20189
降维算法的注意事项：
➢ PCA、SVD、LDA均为线性降维方法，但可引入核函数实现非线性降维，此外还有一些非线性降维方法如Isomap谱嵌入法等
➢ LDA作为有监督的降维方法，容易使后续的分类过程发生过拟合
➢ K-means聚类： ✓ 简单，最常用； ✓ 仅适用凸的样本集聚类，受离群值影响大
➢ 高斯混合聚类： ✓ 在各类尺寸不同、聚类间有相关关系时可能比k-means聚类更合适；
✓ 需要初始化多个参数 CHIMA 201194
聚类方法在医学中的应用：
1. 无监督的医学图像分割 2. 疾病可能存在的亚型分类研究
如：基于随机森林的特征选择方法
CHIMA 20179
特征降维
PCA（主成分分析）
SVD（奇异值分解）
LDA（线性判别分析）
A
无监督的降维
找到一个能最大保留数据方差信息的子空间，降维后的数据是原来特征在新空间中的映射值
无监督的降维
将矩阵A分解为三个矩阵UΣVT的乘积，选择Σ 中数值较大的几个奇异值及U和VT中对应的奇异向量，完成特征降维。
层次聚类
凝聚方法AGNES 分裂方法DIANA
聚类密度聚类
DBSCAN
原型聚类
GMM
K-means
AGNES
DBSCAN
GMM
CHIMA 201192
K-MEANS（K均值聚类）
对数值型数据进行聚类随机选取K个对象作为初始的聚类中
心，把每个对象分配给距离它最近的聚类中心，根据聚类中现有的对象重新计算聚类中心，不断重复此过程直到满足终止条件
找一个高维到低维的映射！
特征降维
特征选择
删除若干特征！
通过属性间的关系（如组合不同的属性得新的属性）改变原来的特征空间
从原始特征数据集中选择出子集，是一种包含的关系，没有更改原始的特征空间
CHIMA 20169
特征选择
Filter（过滤法）
Wrapper（包装法） Embedded（嵌入法）

e商务文档

机器学习算法的分类与选择

相关文档推荐：