医学多元统计分析__绪论
2011-9-14
医学多元统计分析讲义
26
例如 考虑5个生理指标:收缩压、舒张压、心跳间 隔、呼吸间隔和舌下温度,这5个变量受植物 神经的交感N和副变感N支配,而交感N和副交 感N状态是不能直接测定的,因子分析就是找 出这5个变量是如何受这2个因子支配的从而可 5 2 用这5个指标的测定值来间接确定2个因素的状 态。
2
一、医用多元统计分析方法的发展 医用多元统计分析方法的发展
背景:传统的医学统计学多采用单因素分析方法,如 对数据作单变量的描述性分析、参数估计和假设检验 等统计推断。 但随着医学的发展及人类疾病谱的改变,人们逐步认 识到许多人类疾病和健康问题并非单一因素所致,通 常都是多个因素的综合作用结果。而多个因素的作用 效应或联合作用效应有轻重之分,有的因素起主要作 用,有的仅是辅助作用,因素之间的作用关系相当复 杂。 由于受到计算科学发展的限制,数理统计学中的多元 统计分析技术在医学科研中的发展进展缓慢。直到上 个世纪下半叶,由于计算机的发展和普及,医用多元 统计分析得到飞速发展。
计算机辅助诊断系统 临床诊断 病毒鉴别 判别分析
对体形进行分类,制作服装 胸痛患者如何快速诊断(是否急性心肌 缺血?) 对口腔牙列进行分类,预制牙模等。
医学多元统计分析讲义
2011-9-14
10
评价
综合评价
医院效益评价 卫生投入产出评价 健康状况评价
2011-9-14
医学多元统计分析讲义
11
各种应用对应的多元统计分析方法
2011-9-14
医学多元统计分析讲义
18
有序分类变量→数值变量(伪变量) 有序分类变量 数值变量(伪变量) 数值变量 一般是按等级从低到高取0、1、2……或1、 2、3……
2011-9-14
医学多元统计分析讲义
19
三、多元统计分析的主要内容和任务
主要内容: 主要内容: 多因素分析是研究多个变量之间的依存关系的 统计方法。在多个研究因素中,应根据专业知 识确定哪些是结果变量(反应变量),哪些解 释变量(自变量),通过一些特殊的统计模型 对数据进行拟合,找出众多的解释变量中与反 应变量有关的因素(影响因素),并确定其作 用的大小和方向。
2011-9-14
医学多元统计分析讲义
13
本课程的要求
上机做练习,分析实际资料 学会看文献,判断统计分析的应用是否 正确 统计软件SAS,或Stata, SPSS10.01 考试:
理论占30%,实验占70%
2011-9-14 医学多元统计分析讲义 14
二、多元统计分析的基本概念
研究因素 从广义的角度看,所有可以测量的变量 都可以成为研究因素,比如:年龄、性别、文化 程度、人体的各种生物学特征和生理生化指标环 境因素、心理因素等。狭义来看,研究因素是指 可能与研究目的有关的影响因素 多元统计分析对多变量样本的要求 分布: ①分布:多元正态分布、相互独立、多元方差齐 ②样本含量 目前尚没有多元分析的样本含量估计方法, 一般 认为样本含量应超过研究因素5-10倍以上即可。
2011-9-14
医学多元统计分析讲义
4
多元统计方法的应用领域
诸多慢性病的发病原因的研究。 高血压、 诸多慢性病的发病原因的研究 。 高血压 、 糖尿病、 糖尿病 、 肿瘤等疾病的患病率和死亡率 呈逐年上升趋势, 呈逐年上升趋势 , 人们一直想知道这些 疾病的发病原因并采取相应的控制措施。 疾病的发病原因并采取相应的控制措施 。 对于这些疾病, 对于这些疾病 , 用传统的单因素分析方 法很容易得出一些片面的结果, 因为这 法很容易得出一些片面的结果 , 些疾病的发生与发展并非单一因素可以 解释的。 解释的。 这些都必须借助多元统计分析技术
2011-9-14
医学多元统计分析讲义
20
研究目的 可以分为 2大类 ①研究因素的依赖性 研究因素的依赖性:即某一反应变量与多个解 研究因素的依赖性 释变量间的依存关系。如多元线性回归、 logistic回归、Cox回归、判别分析等。 回归、 回归、 回归 回归 判别分析等。 ②研究因素间的互依性 研究因素间的互依性:即无反应变量和解释变 研究因素间的互依性 量之分,研究多个因素间彼此关系或彼此影响。 如主成份分析、因子分析、聚类分析、典型相 关分析等。
2011-9-14
医学多元统计分析讲义
5
多元统计分析有哪些应用? 多元统计分析有哪些应用
比较 关系 预测 分类 评价
2011-9-14
医学多元统计分析讲义
6
比较
比较不同地区儿童生长发育情况 不同种族正常人头发中微量元素的含量 不同组别的IgG,IgM,IgA,IgE 不同组别的CD2,CD3,CD4,CD8,CD4/CD8
2011-9-14
医学多元统计分析讲义
28
4.5Cox回归分析 回归分析 适用于纵向测量的队列研究资料。与上述logistic 回归分析资料的意义基本相似,但多了一个时 间因素。比如研究肺癌的发生与矿工接触氡子 体、砷粉尘、吸烟等变量的关系。我们不仅要 考虑肺癌的发生与否是否接触上述的危险因素 或接触强度有关,同时还应考虑与接触后的暴 露时间因素的关系。了解接触某危险因素后不 同时间点的肺癌发病风险。是生存资料较为理 想的多因素分析方法。对变量的要求与logistic 类似。
比较:多元方差分析 关系:回归模型 预测:回归模型 分类:聚类分析与判别分析、回归模型 评价:主成分分析与因子分析
多元回归、logisitic回归、Cox回归、Poisson回归
2011-9-14 医学多元统计分析讲义 12
多元统计分析方法主要内容
多元T检验、多元方差分析
Hotelling T2 multivariate analysis of variance (MANOVA)
2011-9-14
医学多元统计分析讲义
3
现代医学多元分析方法的应用 随着计算机和统计分析软件的发展,医学 多元统计分析方法已经构成了一门独立 的学科体系,包括数据库的建立、变量 的定义、预处理和常规的统计分模型应 用及多种统计模型的联合分析等。这门 学科的形成与发展对现代医学的发展起 到了具大的推动作用。
2011-9-14
医学多元统计分析讲义
21
主要任务 多因素间的关系错综复杂,因此多元统计分析 的主要任务是使复杂问题简化,将无关的因素 丢弃,即抓住西瓜丢去芝麻。即抓住主要矛盾 将无关或影响甚微的因素去除。思路有2种: 直接减少研究因素; ①直接减少研究因素; 通过变量变换减少研究因素:主成分分析、 ②通过变量变换减少研究因素:主成分分析、 因子分析、典型相关等。 因子分析、典型相关等。目的是使复杂问题简 单化。 单化。
16
数值变量→分类成有序分类变量 数值变量 分类成有序分类变量 血压:﹤60mmHg (8KPa) 低血压 60~90 mmHg (8~12 KPa) 正常 ﹥90 mmHg(﹥12 KPa) 高血压
2011-9-14
医学多元统计分析讲义
17
分类变量→数值变量(伪变量,哑变量) 分类变量 数值变量(伪变量,哑变量) 数值变量 性别:X=0男,X=1 女(指示变量) 血型:ABO: X1=0 X2=0 X3=0为A, X1=0 X2=1 X3=0为B, X1=1 X2=0 X3=0为O, X1=0 X2=0 X3=1为AB 哑变量的数量=K-1(K为分类数)
2011-9-14
医学多元统计分析讲义
15
变量的分类及其转换 定量资料(数值变量)定性资料(分类 变量)等级资料(有序分类变量)。若 收集的资料中既有数值变量,又有分类 变量而统计模型要求对变量的性质做转 换,则需要考虑做变量变换。也就是要 考虑引入模型的变量的尺度要适宜。
2011-9-14
医学多元统计分析讲义
2011-9-14
医学多元统计分析讲义
22
四、常用的多元统计分析方法
4.1多元线性回归分析 多元线性回归分析 拟合以自变量( 解释变量) 估计应变量( 结果变量) 拟合以自变量 ( 解释变量 ) 估计应变量 ( 结果变量 ) 的多元线性回归方程。 的多元线性回归方程 。 应变量和自变量都是数值 变量。 变量 。 若自变量中有少数定性或等级指标需转换 成定量指标。但这种变量不宜超过自变量的1/3。 成定量指标。但这种变量不宜超过自变量的 。 多元线性回归: 多元线性回归:凭理论或经验决定引入自变量 有无影响 逐步回归:逐步拟合(探索性研究) 逐步回归:逐步拟合(探索性研究) 岭回归和通径分析: 岭回归和通径分析:作为多元线性回归的补充
2011-9-14
医学多元统计分析讲义
27
4.4 logistic 回归分析 用于研究与某事件在一定时期内的发生有关的 危险因素的探索性研究比如某种疾病。这类资 料的结果变量通常为发生或不发生的0、1类型 变量,解释变量(危险因素)可以是数值变量、 定性分类或等级资料。但定性变量或等级变量 需量化后方可引入模型。从设计的角度看主要 有配对设计和成组设计,结果变量可以是两分 类(0、1)或多项分类(治愈、好转、无效、 恶化)
2011-9-14
医学多元统计分析讲义
7
关系
探索病因 校正混杂因素 调整基线 探讨巯基丁氨酸(homocysteine)与血压、 冠心病的关系,需调整年龄、性别、种 族、已知的与冠心病有关的其他因素。 探索与预后有关的因素 影响黑色素瘤患者的生存时间的因素: 年龄、性别、病灶部位、浸润深度
2011-9-14 医学多元统计分析讲义 8
预测
疾病预后的预测 是否会患某病的预测 哪些人更容易患糖尿病? 年龄、家族史、工 作性质、BMI、腰臀比等; 乳腺癌患者手术后的生存时间?年龄、家族 史、并发症、复发、化疗等; 法医鉴定中死亡时间的推算:根据尸体的直 肠温度、环境温度、停尸物的质地等。
2011-9-14
医学多元统计分析讲义