当前位置:文档之家› 郭秀花--医学大数据分析策略与数据挖掘

郭秀花--医学大数据分析策略与数据挖掘


37
STATA该软件是美国Computer Resource Center 研 制的统计软件,目前的12、13版本就可以实现数据 挖掘。 SAS for windows:国际权威的统计软件,有专门 的数据挖掘模块。 SPSS for Windows :该软件是一个统计专用软件 ,界面很友好。在19.0之前的版本需要加专门的 Clementine模块;19.0之后版本因有modeler,可 直接做。
模拟式存量
2000年
数字式存量
Source: Researchers at the University of Southern California took four years -- 1986, 1993, 2000 and 2007 -- and extrapolated numbers from roughly 1,100 sources of information. Credit: Todd Lindeman and Brian Vastag/ The Washington Post
x x 1 x ,2 x ,...,l x
T
代替输入向量x,
则可以得到最优分类函数为: l f x sgn w x b sgn ai yi xi x b i 1
20
20
Monte Carlo模拟分析结果
纹理相关系数为0.1时,840个纹理值各 预测模型拟合结果
21
纹理相关系数为0.2时, 840个纹理值 各预测模型拟合结果
21
支持向量机
支持向量机(Support Vector Machine, SVM)是美国Vapnik 教授 于1963年提出的。
在解决小样本、非线性和高维 模式识别问题中表现出许多优势, 并在一定程度上克服了“维数灾难” 和“过学习”等问题。在模式识别、 回归分析、函数估计、时间序列预 测等领域,都得到了长足的发展。
4. 综合法:合并轴状位、冠状位、矢状位数据集,建立一个 预测模型,其结果作为最终结果。
27
病例基本信息分析结果
良恶性病例人口学特征分析
良性 性别 N(Missing) 女性 n(%) 男性 n(%) 年龄 N(Missing) Mean(Std) 84(0) 50(59.52) 34(40.48) 84(0) 54.10(13.57) 恶性 252(0) 150(59.52) 102(40.48) 252(0) 59.90(12.68) 61(53~69.5) 25~83 3.45(秩和检验) 0.0006 统计值 0(卡方检验) P值 1.0000
3
在R的官方网址上,选择网站镜像 /mirrors.html
33
R软件
R Console: 运行过程 提示错误等
R编辑器: 编辑程序 选择运行
/
34
支持向量机R语言实现
library(kernlab) /加载支持向量机程序包/ setwd(“D:\\ku”) /设置当前数据库路径/ datayuce=read.csv(“a.csv”,header=T)/导入预测集数据/ dataxunlian=read.csv(“b.csv”,header=T) )/导入训练集数据/ svmModel <- ksvm(as.matrix(dataxunlian[1:5]), as.factor(dataxunlian$x), type=“C-svc”,kernel=“rbfdot”,C=10,cross=4) )/核函数选择/ pre=predict(svmModel,datayuce[1:5]) write.csv(data.frame(pre,class=datayuce$x, zu=datayuce$no),file="result.csv") )/输出结果到result.csv / table(pre,class=datayuce$x) /结果整理/
数据量规模巨大到无法通过人工,在合理时间
内达到截取、管理、处理、并整理成为人类所能解读
的信息。
Velocity 出现和更新速度快 时效性高
Value
潜在价值大 密度低 提纯难度大
Volume
数据容量巨大: TB到PB级别 Variety 数据类型繁多: 图片、视频等
4
大数据时代的来临
•2000年以前大部分数据是analog data (模拟式数据) 以书、报纸、录像带等存储。特点:数据量较小。 •2000年以后digital data (数字式数据)大大增加 以CD、DVD、硬盘等存储。特点:数据量巨大。
定义研究问题 数据准备
大数据源 模型应用
提取数据
建立模型
模型评估 14
14
数据挖掘方法概述
分类回归树
朴素贝叶斯
神经网络分类 支持向量机 回归组合模型 支持向量机回归
分类预测
决策树 随机森林
回归预测
神经网络回归 广义线性回归 K均值聚类 期望最大化EM 属性关联分析 LASSO 高维数据降维
数据挖掘
01基本信息
年龄、性别等
02 既往史
肿瘤病史 粉尘接触史 遗传病史 吸烟史等

04 CT图像 纹理
高维大数据库 (变量约1000, 样本336例) 轴位纹理 冠状位纹理 矢状位纹理

03 影像学 检查



淋巴结是否肿大 边缘是否光滑 是否分叶 结节位置 有无空泡征等
18
数据挖掘主要分类预测方法
医学大数据分析策略与数据挖掘
讲座人:郭秀花 博士生导师 guoxiuh@ 单 位:首都医科大学 日 期:2014年11月22日
1
提纲
1 2 3 中心概况 医学大数据及其分析策略
数据挖掘方法简介及其应用 中心概况 数据挖掘软件及其实现方法
2
医学大数据及其分析策略
3
大数据(Big Data)
38
基于大数据进行数据挖掘,采用 大型服务器可以提高运行速度。
39
40
41
9
在生物医学研究领域,大数据:
环境气象学数据 医学影像数据 基因、蛋白等组学数据 大型临床资料 复杂的生物和环境因素研究
生物医学大数据的只要特点:高维
10
科学问题处理方式
11
常用的医学多元统计学应用受到制约
多元线性回归分析 Logistic回归分析 Cox回归分析 聚类分析 判别分析 主成分分析 因子分析 广义线性模型 ......
基于肺结节纹理 鉴别诊断肺癌
支持向量机 决策树
随机森林 最近邻分类 神经网络 Gradient Lasso回归 boosting
19
19
Monte Carlo模拟分析结果
各纹理产生30,40,50,60个子代(即纹理分别 为420,560,700,840个)。每个纹理子代分布 为正态分布,均值和标准差与轴位CT图像均值相 近; 设定每个纹理内部子代之间的相关系数为r=0.1, 0.2,0.3,0.4; 分别产生2组数据,设定两组各个变量均值之间 的差值为d(0.01-0.1)。
Median(Q1~Q3) 57(46.5~63) Min~Max 21~80
不同评价方法支持向量机预测模型结果
29
利用病例人口学特征、环境遗传信息和结节形态
学信息等综合性信息,建立支持向量机预测模型。
基于人口学、环境遗传和结节形态学信息建立预测模型结果
结论:
基于三正交位CT图像,结合多方面信息,采用大数据支
方 法
正态性 线性、齐性 独立性 足够大的样本量 变量的20倍 ......
条 件
传统的多元统计方法难以处理和分析医学大数据
高维、非线性、非高斯等数据,采用数据挖掘方法,可以
提供更高的预测精度。
12
数据挖掘方法简介及其应用
13
数据挖掘概念
数据挖掘:是在从大量的数据中提取隐含的、 事先未知的,但又是潜在有用的信息和知识的过程。
持向量机分类分类预测方法,可以有效提高肺癌诊断正确率,
辅助放射科医生进行辅助诊断肺癌。
数据挖掘软件及其实现方法
32
R软件
1
R是统计领域广泛使用的诞生于1980年 左右的S语言的一个分支。
Your text
2
R是一个有着统计分析功能及强大作图功能的 软件系统,是由奥克兰大学统计学系的Ross Ihaka和Robert Gentleman共同创立。
Vapnik
22
最优分类(超平)面
SVM的机理是寻找一个满足分类要求的最优分类 超平面 w x b 0 ,使得该超平面在保证分类精 度的同时,能够使超平面两侧的空白区域最大化。
23
广义最优分类面
-
24
当线性不可分时,SVM的主要思想是将输人向量映 射到一个高维的特征向量空间,并在该特征空间中 构造最优分类面。
35
支持向量机
36
• WEKA(Waikato Environment for Knowledge Analysis)
WEKA作为一个公开的数 据挖掘工作平台,用于非商 业目的的研究行为,集合了 大量能承担数据挖掘任务的 机器学习算法,包括对数据 进行预处理,分类、回归、 聚类、关联规则以及在新的 交互式界面上的可视化。
Laplacian 核函数
Bessel核函数
26
预测模型不同判别方法结果
1. 投票法:选取多数类结果(例如:2个或者2个以上预测模 型结果为恶性)作为最后病例的预测结果; 2. 并联法:只要有一个预测模型结果判断为恶性,此病人最 终判断为恶性结果,否则为良性;
3. 串联法:只有3个预测模型同时判断为恶性,此病人最终判 断为恶性结果,否则为良性;
相关主题