当前位置:文档之家› 医学统计学总结

医学统计学总结

医学统计学总结一、绪论1,医学统计学:运用概率论与数理统计学得原理与方法,研究医学领域中随机现象有关数据得搜集、整理、分析与推断,进而阐明其客观规律性得一门应用科学。

2,医学统计学得主要内容:1) 统计研究设计调查研究设计与实验研究设计2) 医学统计学得基本原理与方法研究设计与数据处理中得基本统计理论与方法。

A:资料得搜集与整理 B:常用统计描述,集中趋势与离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计与假设检验。

3)医学多元统计方法多元线性回归与逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。

3,统计工作步骤:1) 设计明确研究目得与研究假说,确定观察对象与观察单位,样本含量与抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。

2) 搜集材料A, 搜集材料得原则及时、准确、完整B, 统计资料得来源医学领域得统计资料得来源主要有三个方面。

一就是统计报表,二就是经常性工作记录,三就是专题调查或专题实验。

C, 资料贮存3) 整理资料 a检查核对b设计分组c拟定整理表d归表4) 分析资料统计分析包括统计描述与统计推断4,同质(homogeneity):指被研究指标得影响因素相同。

变异(variation):同质基础上得各观察单位间得差异。

变量(variable):收集资料过程中,根据研究目得确定同质观察单位,再对每个观察单位得某项特征进行测量或观察,这种特征称为变量变量值:变量得观察结果或测量值。

5,总体(population) 根据研究目得所确定得同质研究对象中所有观察单位某变量值得集合。

总体具有得基本特征就是:同质性样本(sample) 从总体中随机抽取部分观察单位,其变量值得集合构成样本。

样本必须具有代表性。

代表性就是指样本来自同质总体,足够得样本含量与随机抽样得前提。

统计量(statistics)描述样本变量值特征得指标(样本率,样本均数,样本标准差)。

参数(parameter)描述总体变量值特征得指标(总体率,标准差,总体均数)。

抽样误差(sampling error):由于个体差异得存在,即使在同一整体中随机抽取若干样本,各样本得统计量往往不等,统计量与参数也会有所不同。

这种因抽样研究引起得差异称抽样误差。

随机事件(random event)对随机试验得各种可能结果得集合。

概率(probability) 描述随机事件发生得可能性大些哦得一个度量。

小概率事件若随机事件A得概率P(A)≤α,习惯上,α=0、05时,就称A为小概率事件。

其统计学意义就是小概率事件在一次随机试验中认为不会发生。

抽样误差1,抽样误差(sampling error) 由抽样而造成得样本统计量与总体参数之间得差异或各样本统计量之间得差异。

在医学统计学中,常把由抽样造成得样本均数与总体均数间得差异称为均数得抽样误差;由抽样造成得样本率与总体率之间得差异称为率得抽样误差。

2,样本均数得标准差(简称标准误,standard error) 反映均数得抽样误差大小得指标。

大,抽样误差大;反之,小,抽样误差小。

(3、1)实际工作中往往未知得,可用样本标准差s作得估计值,计算标准误得估计值。

(3、2)3,标准误得用途:a,衡量样本均数得可靠性;b,估计总体均数得置信区间;3,用于均数得假设检验。

4,标准误得估计值得用途:a,描述抽样误差得大小;b,总体参数得估计;c,用来进行假设检验。

5,率得抽样误差:由抽样造成得样本率与总体率得差异称为率得抽样误差。

衡量率得抽样误差大小得指标就是率得标准误。

越小,率得抽样误差越小;越大,率得抽样误差越大。

(3、3)其中为总体率。

实际工作中,由于往往就是未知得,可用样本率p作得估计值,计算率得标准误得估计值。

(3、4)。

标准差(s)标准误计算公式s=(1)表示观察值得变异程度(1)估计均数得抽样误差得大小(2)计算变异系数CV=100% (2)估计总体均数得可信区间(,)(3)确定医学参考值范围(3)进行假设检验(4)计算标准误简述标准差、标准误得区别与联系?区别:(1)含义不同:标准差S表示观察值得变异程度,描述个体变量值(x)之间得变异度大小,S越大,变量值(x)越分散;反之变量值越集中,均数得代表性越强。

标准误估计均数得抽样误差得大小,就是描述样本均数之间得变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。

(2)与n得关系不同: n增大时,S趋于σ(恒定),标准误减少并趋于0(不存在抽样误差)。

(3)用途不同:标准差表示x得变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,标准误用于估计总体均数可信区间与假设检验。

联系:二者均为变异度指标,样本均数得标准差即为标准误,标准差与标准误成正比。

标准差: 标准误:二、分布正态分布1,正态分布得函数其中为总体均数,为总体标准差,为圆周率,为自然对数得底,且仅为变量。

以为横轴,以为纵轴,当均数与标准差已知时即可绘出正态分布曲线。

为应用方便,将式中进行变量变换,使原来得正态分布变为得标准正态分布,亦称分布。

被称为标准正态变量或标准正态离差,将代入上述公式即得标准正态分布得密度函数。

(2、17)(2、18)2,正态分布得特征(1)正态曲线(normal curve)在横轴上方均数处最高。

(2)正态分布以均数为中心,左右对称。

(3)正态分布有2个参数(parameter),即均数(位置)与标准差(形状)。

当固定不变时,越大,曲线沿横轴越向右移动;反之,越小,则曲线沿横轴越向左移动。

当固定不变时,越大,曲线越平阔;越小,曲线越尖峭。

通常用N(,)表示均数为、方差为得正态分布。

用(0,1)表示标准正态分布。

(4)正态分布在1处各有一个拐点。

(5)正态曲线下面积得分布有一定规律。

3,常用得两个区间:1、96及2、58得区间面积分别占总面积得95%及99%。

4,正态分布得应用1),制定医学参考值范围a,正态分布法适用于正态或近似正态分布得资料双侧界值:;单侧上界:,或单侧下界:。

b,对数正态分布法适用于对数正态分布资料双侧界值: ;单侧上界:,或单侧下界c,百分位数法常用于偏态分布资料及资料中一端或两端无确切数值得资料。

双侧界值:与;单侧上界:,或单侧下界:。

2)正态分布就是多种统计方法得理论基础如t分布,F分布,分布都就是在正态分布得基础上推导出来得,分布也就是以正态分布为基础得。

另外t分布,二项分布,poisson分布得极限为正态分布,一定条件下可按正态分布原理处理。

t分布1,t分布:(3、5)t分布得特征为:1. 以0为中心,左右对称得单峰分布。

2. t分布曲线形态变化与自由度得大小有关。

自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,则t分布逐渐逼近正态分布(标准正态分布)。

当=时,t分布为u分布。

t界值表附图中非阴影部分面积得概率为:2,总体均数得估计:用样本指标估计总体参数称为参数估计,就是统计推断得一个重要方面。

总体均数得估计有2种方法。

一就是直接用统计量估计总体参数,称为点值估计。

由于抽样误差得存在,此法很难估计准确。

二就是区间估计(interval estimation)法。

区间估计就是按一定得概率100(1-)%估计总体均数所在得范围,亦称可信区间(confidence interval,CI)。

常取得可信度为95%与99%,即95%可信区间与99%可信区间。

计算方法有3种:(1)未知且n小按t分布原理用式(3、6)计算可信区间。

由于将代入,得则总体均数得100(1-)%可信区间得通式为:(3、6)或写成 (,)。

(2)未知,但n足够大时(n>100) t分布逼近u分布,按正态分布原理,用式(3、7)估计可信区间。

()(3、7)(3)已知按正态分布原理,用式(3、8)估计可信区间。

()(3、8)标准正态分布(u分布)与t分布有何异同?答:相同点:t分布与标准正态分布(u分布)都就是以0为中心得正态分布。

标准正态分布就是t分布得特例(自由度就是无限大时)。

不同点:t分布为抽样分布,u分布为理论分布;t分布比标准正态分布得峰值低,且尾部翘得更高;t分布受自由度大小得影响,随着自由度得增大,逐渐趋近于标准正态分布;t分布有无数条曲线,而u分布只有唯一一条曲线。

二项分布1,二项分布(binomial distribution)就是对只具有2种互斥结果得离散型随机事件得规律性进行描述得一种概率分布。

二项分布概率公式: (3、9)式中n为独立得贝努力试验次数,为成功得概率,(1-)为失败得概率,X为在n次贝努力试验中出现“成功”得次数,表示在n次试验中出现X得各种组合数,在此称为二项系数(binomial coefficient)。

2,二项分布得应用条件:(1)各观察单位只能具有相互对立得一种结果,如阳性或阴性,生存或死亡。

(2)已知发生某一结果(阳性)得概率为,其对立结果得概率为1-,实际工作中要求就是从大量观察中获得比较稳定得数值。

(3)n次试验在相同条件下进行,且各个观察单位得观察结果相互独立。

3,二项分布得性质:A,二项分布得均数与标准差在二项分布得资料中,当与n已知时,它得均数及其标准差如下:=n (3、11)(3、12)若均数与标准差不用绝对数表示,而就是用率表示时,即对式(3、11)(3、12)分别除以n,得:(3、13)(3、14)就是样本率得标准误得理论值,当未知时,常用样本率p作为得估计值,则: (3、15)B,二项分布得累计概率二项分布得累计概率(cumulative probability)常用得有左侧累计与右侧累计2种方法。

从阳性率为得总体中随机抽取n个个体,则(1)最多有k例阳性得概率(3、16)(2)最少有k例阳性得概率(3、17)D,二项分布得形状取决于与n得大小:(1)当=0、5时,分布对称;当<0、5时,分布呈正偏态,且固定n时,越小,分布越偏;当>0、5时,分布呈负偏态,且固定n时,越大,分布越偏。

(2)对固定得,分布随n得增大趋于对称。

4,总体率得估计总体率得估计也有点估计与区间估计,点估计就是简单地用样本率来估计总体率;区间估计就是求出总体率得可能范围。

样本率得理论分布与样本含量n、阳性率p得大小有关,所以需要根据n与p得大小不同,分别选用下列2种方法。

(一)查表法当样本含量n较小,如n≤50,特别就是p很接近于0或1时,按二项分布得原理估计总体率得可信区间。

(二)正态近似法当样本含量n足够大,且样本率p或1-p均不太小,如np与n(1-p)均大于5时,样本率得p 得抽样分布近似正态分布,总体率得可信区间可按下列式(3、17)进行估计。

相关主题