医学统计学总结一。
绪论1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学.2,医学统计学的主要内容:1) 统计研究设计调查研究设计和实验研究设计2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法.A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验.3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析.3,统计工作步骤:1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。
2)搜集材料A,搜集材料的原则及时、准确、完整B, 统计资料的来源医学领域的统计资料的来源主要有三个方面。
一是统计报表,二是经常性工作记录,三是专题调查或专题实验。
C,资料贮存3)整理资料 a检查核对b设计分组c拟定整理表d归表4)分析资料统计分析包括统计描述和统计推断4,同质(homogeneity):指被研究指标的影响因素相同。
变异(variation):同质基础上的各观察单位间的差异。
变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。
变量类型变量值表现实例资料类型数值变量离散型定量测量值,有计量单位产前检查次数计量资料连续型身高分类变量无序二分类对立的两类属性性别(男女)计数资料多分类不相容的多类属性血型(A,B,O,AB)有序多分类类间有程度差异的属性受教育程度(小学,中学,高中,大学…)等级资料5,总体(population) 根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。
总体具有的基本特征是:同质性样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。
样本必须具有代表性.代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。
统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。
参数(parameter)描述总体变量值特征的指标(总体率,标准差,总体均数)。
抽样误差(sampling error):由于个体差异的存在,即使在同一整体中随机抽取若干样本,各样本的统计量往往不等,统计量与参数也会有所不同.这种因抽样研究引起的差异称抽样误差。
随机事件(random event)对随机试验的各种可能结果的集合。
概率(probability) 描述随机事件发生的可能性大些哦的一个度量.小概率事件若随机事件A的概率P(A)≤α,习惯上,α=0.05时,就称A为小概率事件。
其统计学意义是小概率事件在一次随机试验中认为不会发生。
抽样误差1,抽样误差(sampling error)由抽样而造成的样本统计量与总体参数之间的差异或各样本统计量之间的差异。
在医学统计学中,常把由抽样造成的样本均数与总体均数间的差异称为均数的抽样误差;由抽样造成的样本率与总体率之间的差异称为率的抽样误差.2,样本均数的标准差(简称标准误,standard error) 反映均数的抽样误差大小的指标。
大,抽样误差大;反之,小,抽样误差小。
(3。
1)实际工作中往往未知的,可用样本标准差s作的估计值,计算标准误的估计值。
(3.2)3,标准误的用途:a,衡量样本均数的可靠性;b,估计总体均数的置信区间;3,用于均数的假设检验。
4,标准误的估计值的用途:a,描述抽样误差的大小;b,总体参数的估计;c,用来进行假设检验。
5,率的抽样误差:由抽样造成的样本率与总体率的差异称为率的抽样误差.衡量率的抽样误差大小的指标是率的标准误。
越小,率的抽样误差越小;越大,率的抽样误差越大。
(3。
3)其中为总体率。
实际工作中,由于往往是未知的,可用样本率p作的估计值,计算率的标准误的估计值。
(3.4)。
标准差(s)标准误计算公式s=(1)表示观察值的变异程度(1)估计均数的抽样误差的大小(2)计算变异系数CV=100%(2)估计总体均数的可信区间(,)(3)确定医学参考值范围(3)进行假设检验(4)计算标准误简述标准差、标准误的区别与联系?区别:(1)含义不同:标准差S表示观察值的变异程度,描述个体变量值(x)之间的变异度大小,S越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。
标准误估计均数的抽样误差的大小,是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。
(2)与n的关系不同: n增大时,S趋于σ(恒定),标准误减少并趋于0(不存在抽样误差)。
(3)用途不同:标准差表示x的变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,标准误用于估计总体均数可信区间和假设检验。
联系:二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。
标准差:标准误:二.分布正态分布1,正态分布的函数其中为总体均数,为总体标准差,为圆周率,为自然对数的底,且仅为变量。
以为横轴,以为纵轴,当均数和标准差已知时即可绘出正态分布曲线。
为应用方便,将式中进行变量变换,使原来的正态分布变为的标准正态分布,亦称分布。
被称为标准正态变量或标准正态离差,将代入上述公式即得标准正态分布的密度函数。
(2.17)(2。
18)2,正态分布的特征(1)正态曲线(normal curve)在横轴上方均数处最高。
(2)正态分布以均数为中心,左右对称。
(3)正态分布有2个参数(parameter),即均数(位置)和标准差(形状)。
当固定不变时,越大,曲线沿横轴越向右移动;反之,越小,则曲线沿横轴越向左移动。
当固定不变时,越大,曲线越平阔;越小,曲线越尖峭.通常用N(,)表示均数为、方差为的正态分布。
用(0,1)表示标准正态分布.(4)正态分布在1处各有一个拐点。
(5)正态曲线下面积的分布有一定规律。
3,常用的两个区间: 1.96及 2.58的区间面积分别占总面积的95%及99%.4,正态分布的应用1),制定医学参考值范围a,正态分布法适用于正态或近似正态分布的资料双侧界值:;单侧上界:,或单侧下界:。
b,对数正态分布法适用于对数正态分布资料双侧界值: ;单侧上界:,或单侧下界c,百分位数法常用于偏态分布资料及资料中一端或两端无确切数值的资料。
双侧界值:和;单侧上界:,或单侧下界:。
2)正态分布是多种统计方法的理论基础如t分布,F分布,分布都是在正态分布的基础上推导出来的,分布也是以正态分布为基础的。
另外t分布,二项分布,poisson分布的极限为正态分布,一定条件下可按正态分布原理处理。
t分布1,t分布:(3.5)t分布的特征为:1.以0为中心,左右对称的单峰分布。
2.t分布曲线形态变化与自由度的大小有关.自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,则t分布逐渐逼近正态分布(标准正态分布).当=时,t分布为u分布。
t界值表附图中非阴影部分面积的概率为:2,总体均数的估计:用样本指标估计总体参数称为参数估计,是统计推断的一个重要方面。
总体均数的估计有2种方法。
一是直接用统计量估计总体参数,称为点值估计。
由于抽样误差的存在,此法很难估计准确。
二是区间估计(interval estimation)法。
区间估计是按一定的概率100(1-)%估计总体均数所在的范围,亦称可信区间(confidence interval,CI)。
常取的可信度为95%和99%,即95%可信区间和99%可信区间。
计算方法有3种:(1)未知且n小按t分布原理用式(3.6)计算可信区间。
由于将代入,得则总体均数的100(1-)%可信区间的通式为:(3.6)或写成(,)。
(2)未知,但n足够大时(n>100)t分布逼近u分布,按正态分布原理,用式(3.7)估计可信区间。
()(3。
7)(3)已知按正态分布原理,用式(3.8)估计可信区间。
()(3。
8)标准正态分布(u分布)与t分布有何异同?答:相同点:t分布和标准正态分布(u分布)都是以0为中心的正态分布。
标准正态分布是t分布的特例(自由度是无限大时)。
不同点:t分布为抽样分布,u分布为理论分布;t分布比标准正态分布的峰值低,且尾部翘得更高;t 分布受自由度大小的影响,随着自由度的增大,逐渐趋近于标准正态分布;t分布有无数条曲线,而u分布只有唯一一条曲线。
二项分布1,二项分布(binomial distribution)是对只具有2种互斥结果的离散型随机事件的规律性进行描述的一种概率分布.二项分布概率公式: (3.9)式中n为独立的贝努力试验次数,为成功的概率,(1—)为失败的概率,X为在n次贝努力试验中出现“成功”的次数,表示在n次试验中出现X的各种组合数,在此称为二项系数(binomial coefficient).2,二项分布的应用条件:(1)各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡。
(2)已知发生某一结果(阳性)的概率为,其对立结果的概率为1—,实际工作中要求是从大量观察中获得比较稳定的数值。
(3)n次试验在相同条件下进行,且各个观察单位的观察结果相互独立。
3,二项分布的性质:A,二项分布的均数和标准差在二项分布的资料中,当和n已知时,它的均数及其标准差如下:=n(3.11)(3。
12)若均数和标准差不用绝对数表示,而是用率表示时,即对式(3。
11)(3.12)分别除以n,得:(3.13)(3.14)是样本率的标准误的理论值,当未知时,常用样本率p作为的估计值,则:(3.15)B,二项分布的累计概率二项分布的累计概率(cumulative probability)常用的有左侧累计和右侧累计2种方法。
从阳性率为的总体中随机抽取n个个体,则(1)最多有k例阳性的概率(3.16)(2)最少有k例阳性的概率(3。
17)D,二项分布的形状取决于和n的大小:(1)当=0.5时,分布对称;当〈0。
5时,分布呈正偏态,且固定n时,越小,分布越偏;当>0.5时,分布呈负偏态,且固定n时,越大,分布越偏。
(2)对固定的,分布随n的增大趋于对称。
4,总体率的估计总体率的估计也有点估计和区间估计,点估计是简单地用样本率来估计总体率;区间估计是求出总体率的可能范围.样本率的理论分布和样本含量n、阳性率p的大小有关,所以需要根据n和p的大小不同,分别选用下列2种方法.(一)查表法当样本含量n较小,如n≤50,特别是p很接近于0或1时,按二项分布的原理估计总体率的可信区间.(二)正态近似法当样本含量n足够大,且样本率p或1-p均不太小,如np与n(1-p)均大于5时,样本率的p的抽样分布近似正态分布,总体率的可信区间可按下列式(3.17)进行估计。