当前位置：文档之家› 郭秀花--医学大数据分析策略与数据挖掘

郭秀花--医学大数据分析策略与数据挖掘

37
STATA该软件是美国Computer Resource Center 研制的统计软件，目前的12、13版本就可以实现数据挖掘。 SAS for windows：国际权威的统计软件，有专门的数据挖掘模块。 SPSS for Windows ：该软件是一个统计专用软件，界面很友好。在19.0之前的版本需要加专门的 Clementine模块；19.0之后版本因有modeler，可直接做。
模拟式存量
2000年
数字式存量
Source: Researchers at the University of Southern California took four years -- 1986, 1993, 2000 and 2007 -- and extrapolated numbers from roughly 1,100 sources of information. Credit: Todd Lindeman and Brian Vastag/ The Washington Post
x x 1 x ,2 x ,...,l x
T
代替输入向量x，
则可以得到最优分类函数为： l f x sgn w x b sgn ai yi xi x b i 1
20
20
Monte Carlo模拟分析结果
纹理相关系数为0.1时，840个纹理值各预测模型拟合结果
21
纹理相关系数为0.2时， 840个纹理值各预测模型拟合结果
21
支持向量机
支持向量机（Support Vector Machine, SVM）是美国Vapnik 教授于1963年提出的。
在解决小样本、非线性和高维模式识别问题中表现出许多优势，并在一定程度上克服了“维数灾难” 和“过学习”等问题。在模式识别、回归分析、函数估计、时间序列预测等领域，都得到了长足的发展。
4. 综合法：合并轴状位、冠状位、矢状位数据集，建立一个预测模型，其结果作为最终结果。
27
病例基本信息分析结果
良恶性病例人口学特征分析
良性性别 N(Missing) 女性 n(%) 男性 n(%) 年龄 N(Missing) Mean(Std) 84(0) 50(59.52) 34(40.48) 84(0) 54.10(13.57) 恶性 252(0) 150(59.52) 102(40.48) 252(0) 59.90(12.68) 61(53~69.5) 25~83 3.45(秩和检验) 0.0006 统计值 0(卡方检验) P值 1.0000
3
在R的官方网址上，选择网站镜像 /mirrors.html
33
R软件
R Console：运行过程提示错误等
R编辑器：编辑程序选择运行
/
34
支持向量机R语言实现
library(kernlab) /加载支持向量机程序包/ setwd(“D:\\ku”) /设置当前数据库路径/ datayuce=read.csv(“a.csv”,header=T)/导入预测集数据/ dataxunlian=read.csv(“b.csv”,header=T) )/导入训练集数据/ svmModel <- ksvm(as.matrix(dataxunlian[1:5]), as.factor(dataxunlian$x), type=“C-svc”,kernel=“rbfdot”,C=10,cross=4) )/核函数选择/ pre=predict(svmModel,datayuce[1:5]) write.csv(data.frame(pre,class=datayuce$x, zu=datayuce$no),file="result.csv") )/输出结果到result.csv / table(pre,class=datayuce$x) /结果整理/
数据量规模巨大到无法通过人工，在合理时间
内达到截取、管理、处理、并整理成为人类所能解读
的信息。
Velocity 出现和更新速度快时效性高
Value
潜在价值大密度低提纯难度大
Volume
数据容量巨大： TB到PB级别 Variety 数据类型繁多：图片、视频等
4
大数据时代的来临
•2000年以前大部分数据是analog data （模拟式数据）以书、报纸、录像带等存储。特点：数据量较小。 •2000年以后digital data （数字式数据）大大增加以CD、DVD、硬盘等存储。特点：数据量巨大。
定义研究问题数据准备
大数据源模型应用
提取数据
建立模型
模型评估 14
14
数据挖掘方法概述
分类回归树
朴素贝叶斯
神经网络分类支持向量机回归组合模型支持向量机回归
分类预测
决策树随机森林
回归预测
神经网络回归广义线性回归 K均值聚类期望最大化EM 属性关联分析 LASSO 高维数据降维
数据挖掘
01基本信息
年龄、性别等
02 既往史
肿瘤病史粉尘接触史遗传病史吸烟史等

04 CT图像纹理
高维大数据库（变量约1000，样本336例）轴位纹理冠状位纹理矢状位纹理

03 影像学检查

淋巴结是否肿大边缘是否光滑是否分叶结节位置有无空泡征等
18
数据挖掘主要分类预测方法
医学大数据分析策略与数据挖掘
讲座人：郭秀花博士生导师 guoxiuh@ 单位：首都医科大学日期：2014年11月22日
1
提纲
1 2 3 中心概况医学大数据及其分析策略
数据挖掘方法简介及其应用中心概况数据挖掘软件及其实现方法
2
医学大数据及其分析策略
3
大数据（Big Data）
38
基于大数据进行数据挖掘，采用大型服务器可以提高运行速度。
39
40
41
9
在生物医学研究领域，大数据：
环境气象学数据医学影像数据基因、蛋白等组学数据大型临床资料复杂的生物和环境因素研究
生物医学大数据的只要特点：高维
10
科学问题处理方式
11
常用的医学多元统计学应用受到制约
多元线性回归分析 Logistic回归分析 Cox回归分析聚类分析判别分析主成分分析因子分析广义线性模型 ......
基于肺结节纹理鉴别诊断肺癌
支持向量机决策树
随机森林最近邻分类神经网络 Gradient Lasso回归 boosting
19
19
Monte Carlo模拟分析结果
各纹理产生30，40，50，60个子代（即纹理分别为420，560，700，840个）。每个纹理子代分布为正态分布，均值和标准差与轴位CT图像均值相近；设定每个纹理内部子代之间的相关系数为r=0.1， 0.2，0.3，0.4; 分别产生2组数据，设定两组各个变量均值之间的差值为d(0.01-0.1)。
Median(Q1~Q3) 57(46.5~63) Min~Max 21~80
不同评价方法支持向量机预测模型结果
29
利用病例人口学特征、环境遗传信息和结节形态
学信息等综合性信息，建立支持向量机预测模型。
基于人口学、环境遗传和结节形态学信息建立预测模型结果
结论：
基于三正交位CT图像，结合多方面信息，采用大数据支
方法
正态性线性、齐性独立性足够大的样本量变量的20倍 ......
条件
传统的多元统计方法难以处理和分析医学大数据
高维、非线性、非高斯等数据，采用数据挖掘方法，可以
提供更高的预测精度。
12
数据挖掘方法简介及其应用
13
数据挖掘概念
数据挖掘：是在从大量的数据中提取隐含的、事先未知的，但又是潜在有用的信息和知识的过程。
持向量机分类分类预测方法，可以有效提高肺癌诊断正确率，
辅助放射科医生进行辅助诊断肺癌。
数据挖掘软件及其实现方法
32
R软件
1
R是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。
Your text
2
R是一个有着统计分析功能及强大作图功能的软件系统，是由奥克兰大学统计学系的Ross Ihaka和Robert Gentleman共同创立。
Vapnik
22
最优分类(超平)面
SVM的机理是寻找一个满足分类要求的最优分类超平面 w x b 0 ，使得该超平面在保证分类精度的同时，能够使超平面两侧的空白区域最大化。
23
广义最优分类面
-
24
当线性不可分时，SVM的主要思想是将输人向量映射到一个高维的特征向量空间，并在该特征空间中构造最优分类面。
35
支持向量机
36
• WEKA（Waikato Environment for Knowledge Analysis）
WEKA作为一个公开的数据挖掘工作平台，用于非商业目的的研究行为，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。
Laplacian 核函数
Bessel核函数
26
预测模型不同判别方法结果
1. 投票法：选取多数类结果（例如：2个或者2个以上预测模型结果为恶性）作为最后病例的预测结果； 2. 并联法：只要有一个预测模型结果判断为恶性，此病人最终判断为恶性结果，否则为良性；
3. 串联法：只有3个预测模型同时判断为恶性，此病人最终判断为恶性结果，否则为良性；

e商务文档

郭秀花--医学大数据分析策略与数据挖掘

相关文档推荐：