当前位置:文档之家› 医学统计分析总结

医学统计分析总结

疗效:痊愈、有效、无效和恶化; 文化程度:小学、中学、大学和研究生; 抑郁症的程度:轻度、中度和重度。
常用统计学方法的选择
定量资料比较 分资料比较 等级资料的比较 变量之间的关联性分析
定量资料的描述
服从正态分布
均数±标准差 如男性的血红蛋白平均为145 ±16 g/L
不服从正态分布
中位数(Q1,Q3) 如某病的中位生存时间为65(32 , 85)月
样本量估算的影响因素:
第一类错误概率α:一般取双侧α=0.05 检验效能1-β:不低于80% 容许误差δ:总体参数间有差别的临界值。 标准差σ 单双侧检验与设计类型
单纯随机抽样中参数估计时的样本量估算
样本量估算的影响因素:
第一类错误概率α:双侧α=0.05 容许误差δ:总体参数间有差别的临界值。 标准差σ或总体率π 单双侧检验与设计类型
假设检验的步骤
建立检验假设和确定检验水准 选定检验方法和计算检验统计量 确定P值和做出推断结论
假设检验的两类错误
结论
不拒绝 H0 拒绝 H0
真实情况
H0 正确 正确
H0 错误 II型错误
Ⅰ型错误
正确
检验效能
1-β即指在备择假设正确的前提下,拒绝 了实际上不成立的H0而做出正确推断的 概率,又称为检验效能。 其意义为当两总体确有差别,按规定的 假设检验水准所能发现该差别的能力。
二项分布的概率
设总体中的每一观察单位具有相互对立的一种
结果,如有效或无效、阴性或阳性、男婴或女 婴等。已知发生某一结果(如阳性)的概率为π, 此概率对于每一个个体是相同的;其对立结果 (阴性)发生的概率为1-π,各单位的观察结果 相互独立。则从该总体中随机抽取n例,其中恰 有X例是某一结果(阳性)的概率为:X=0,1, 2,…,n。
P(
X
)

(
n X
)
X
(1

)nX
总体率的区间估计
总体率的区间估计:
正态近似法:当n较大,且np和n(1-p)均大于5时。
(P - uαSp , P + uα Sp)
两总体率之差的区间估计
正态近似法:当n1,n2较大,且n1 p1、 n1 (1-p1)、 n2 p2和 n2 (1-p2)均大于等于5时: (p1 - p2 -uα/2Sp1- p2 , p1 - p2 +uα/2Sp1- p2 )
A型血85人(28.3%)、B型血96人(32.0%)、 O型血87人(29.0%)、AB型血32人(10.7%)。
某药治疗过敏性鼻炎的疗效为: 痊愈87人(20.5%)、有效195人(46.0%)、 无效116人(27.4%)、恶化26人(6.1%)。
两组分类资料的比较
配对设计
两组完全 随机设计
值的个数相对较多,即尾部面积(概率P)较大。 自由度越小这种情况越明显。
t分布不是一条曲线,而是由一簇随自由度改变 而变化的曲线所组成。当逐渐增大时,t分布 逐渐逼近标准正态分布;当 = 时,t分布就完 全成为标准正态分布了。
总体均数的区间估计
未知时。一般用t分布的原理作区间估 计。
x t, s / n x t, s / n
统计学方法的具体要求
定量资料:正态性、方差齐性 定性资料:样本量、理论频数
随机变量和研究资料的类型
定量变量、数值变量---定量资料 定性变量、分类变量---分类资料 顺序变量、有序分类变量-等级资料
定量资料
定量资料,也称为计量资料,是用仪器、工具 或其它定量方法进行测定或衡量所取得的数据。 定量资料的变量值是定量的,表现为大小不等 的数值,各观察值之间只有量的区别,没有质 的不同。 定量资料有度量衡单位,如身高(m)、体重 (kg)、血压(mmHg)、脉搏(次/分)、 血红蛋白含量(g/L)。
Kruskal-Wallis秩和检验


比 较
随 机
正态、方差齐
随机区组设计的方差分析



非正态或方差不齐
Friedman秩和检验

多组定量资料的比较



析因设计



拉丁方设计

比 较
交叉设计
析因设计的方差分析 拉丁方设计的方差分析 交叉设计的方差分析
分类资料和等级资料的描述
N(%)。如:
分类资料
分类资料、也称为定性资料、计数资料,是 将观察单位按某种属性分组计数的定性观察 结果。
分类资料的变量值只能代表事物的某些属性 或分类,表现为无不相容的类别或属性。
各观察单位之间没有量的区别,但有质的不 同。
分类资料的分类
二分类资料
如男或女;阳性或阴性;生存或死亡等。
多分类资料
无序多分类资料
正态分布有两个参数,即和。
总体均数是位置参数,用以描述正态分布的 集中位置。
是变异度参数,用以描述曲线的离散程度, 当 恒定时。
医学参考值范围
95%参考值范围指同质总体中95%的个体 值分布在此范围内。它与标准差有关,各 个体值变异越大,该范围越宽,分布也越 分散。 正态近似法
百分位数法
血型分为相互独立的四类:A型、B型、O型和AB型; 肺癌类型可分为腺癌、鳞癌、未分化癌、类癌等。
有序多分类资料:即等级资料
等级资料
等级资料、也称为有序多分类资料,是介于定 量资料和定性资料之间的半定量观察结果。 等级资料的各个类别之间存在着大小和程度上 的不同,但是不能精确地测量相邻的两个变量 值之间的差别。
频率与概率
在n次随机试验中,随机事件A发生了k次,记fn(A)=k/n, 则称fn(A)为随机事件A在n次试验中出现的频率。 事件A的概率,记作P(A),概率表示随机事件发生 可能性的大小。 实际应用中,常用n→∞时的频率作为概率的估计值。 随机事件概率的大小在0 与1 之间。 统计分析中的很多结论都是带有概率性的。 习惯上将 P≤0.05,称为小概率事件,表示在一次实验或观察中 该事件发生的可能性很小,可以视为很可能不发生。
未知,但n足够大
x u s / n x u s / n
总体均数之差的可信区间
则两总体均数之差的1-α可信区间为:
x1 x2 t S / 2,n1n2 2 x1x2
S x1 x2
Sc2
(
1 n1

1 n2
)
Sc2

(n1
1)S12 n1
研究X不同分组的差异
秩和检验
研究X与Y的相关关系
Spearman相关
变量之间的关联性分析
变 量
应变量为定量变量

间 的
应变量为二分类变量

联 性
应变量为无序多分类变量


应变量为有序多分类变量
均数的标准误
由于抽样而造成的样本均数和总体均数之差称 为均数的抽样误差。 抽样误差的产生有两个条件:个体变异和抽样。 标准误反映了样本均数与总体均数之间的离散 程度,常用以说明均数抽样误差的大小。
t分布
与标准正态分布相比,t 分布有以下特征:
单峰分布,以0为中心,左右两侧对称。 t分布的峰部较矮而尾部翘得较高,说明远侧t
Spearman相关
Y是分类变量,X是分类变量
卡方检验 Fisher精确检验
Y是分类变量,X是等级变量
卡方检验 Fisher精确检验
Y是等级变量,X是分类变量
秩和检验
Y是等级变量,X是等级变量
双向有序,属性相同
一致性检验、Kappa 配对卡方检验、Mcnemar检验
双向有序,属性不同
n2 1S22
n2 2
相对数
比:是两个有关的指标之比,表示对比指标间 的数量关系。
率:用来说明在一定条件下某现象发生的频率 或强度。
构成比:说明整体和部分之间的关系,即某一 事物的内部各组成部分所占的比重或分布。
率的标准化
标准化法的目的:消除混杂因素的影响
标准化法的基本思想是将各对比组采用 共同的内部标准构成,分别计算标准化 率后再作比较。
随机变量和研究资料的类型
数值变量--定量资料
各个观察值之间有量的区别,没有性质的不 同。
有序分类变量--等级资料
可以体现程度上的不同,但是不能精确地测 量相邻的两个变量值之间的差别。
分类变量--定性资料
各观察单位之间一般没有量的区别,但有质 的不同。
误差
误差是指观察值(实际值)与真实值(理论值) 之差。
Pearson卡方检验 Fisher精确检验
两组等级资料的比较





Wilcoxon符号秩和检验


料 的 比 较
非 配 对
Wilcoxon秩和检验
多组等级资料的比较
完全

随机

设计
Kruskal-Wallis秩和检验





随机

区组

设计
Friedman秩和检验
两个变量的关系
Y是数值变量,X是数值变量 Y是数值变量,X是分类变量 Y是数值变量,X是等级变量 Y是分类变量,X是分类变量 Y是分类变量,X是等级变量 Y是等级变量,X是分类变量 Y是等级变量,X是等级变量
集中趋势指标
均数:描述对称分布,特别是正态或近似 正态分布的平均数量水平。 几何均数:反映等比级数资料或对数正态 分布资料的平均增(减)倍数。 中位数:常用于反映偏态分布、分布不明 或分布末端无确定值的资料的位次居中的 观察值水平 。
相关主题