当前位置:文档之家› 医学统计学考试重点

医学统计学考试重点

考试题型:名词解释10 个选择20 个填空题20 个简答4-5 个讨论分析1-2 题计算1-2 题绪论2 选1总体:总体(population)指特定研究对象中所有观察单位的测量值。

可分为有限总体和无限总体。

总体中的所有单位都能够标识者为有限总体,反之为无限总体。

样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。

样本应具有代表性。

所谓有代表性的样本,是指用随机抽样方法获得的样本。

3 选1 小概率事件:我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件P值:结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。

p值是将观察结果认为有效即具有总体代表性的犯错概率。

一般结果0.05被认为是有统计学意义小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实验中是不会发生的,数学上称之小概率原理。

统计学中,一般认为等于或小于0.05 或0.01 的概率为小概率。

资料的类型(3 选1)(1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data。

计量资料亦称定量资料、测量资料。

.其变量值是定量的,表现为数值大小,一般有度量衡单位。

如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa )等。

(2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。

计数资料亦称定性资料或分类资料。

其观察值是定性的,表现为互不相容的类别或属性。

如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB 、O 四种血型的人数等。

(3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。

等级资料又称有序变量。

如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。

等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。

等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。

2 选1抽样误差(sampling error )是指样本统计量与总体参数的差别。

在总体确定的情况下,总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。

系统误差:由于测量仪器结构本身的问题、刻度不准确或测量环境改变等原因,在多次测量时所产生的,总是偏大或总是偏小的误差,称为系统误差。

它带有规律性,经过校正和处理,通常可以减少或消除。

统计的步骤(考填空题,四个空)统计工作的步骤1.设计:设计容包括资料收集、整理和分析全过程总的设想和安排。

设计是整个研究中最关键的一环,是今后工作应遵循的依据。

2•收集资料:应采取措施使能取得准确可靠的原始数据。

3•整理资料:简化数据,使其系统化、条理化,便于进一步分析计算。

4•分析资料:计算有关指标,反映事物的综合特征,阐明事物的在联系和规律。

分析资料包括统计描述和统计推断。

实验设计的基本原则(考填空题,三个空)随机化原则、对照的原则(对照的类型,对照的设置)、重复的原则。

2选1参数:参数(paramater)是指总体的统计指标,如总体均数、总体率等。

总体参数是固定的常数。

多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数。

统计量:统计量(statistic )是指样本的统计指标,如样本均数、样本率等。

样本统计量可用来估计总体参数。

总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。

第二章频数表的制作步骤以及频数分布表的用途(问答题)频数分布表的编制步骤:例:某市1982年50名7岁男童的身高(cm)资料如下,试编制频数表。

114.4117.2122.7124.0114.0110.8118.2116.7118.9118.1123.5118.3120.3116.2114.7119.7114.8119.6113.2120.119.8116.8119.8122.5119.7120.7114.3122.0117.0122.5119.7124.9126.1120.0124.6120.0121.5114.3124.1117.2120.2120.8126.6121.5126.1117.7124.1128.3121.8118.71、找出观察值中的最大值(largest value)、最小值(smallest value),求极差(range)。

极差等于最大值减最小值。

本例最大值=128.3,最小值=110.8,则极差=128.3-110.8=17.5(cm )2、确定分组数和组距 (class interval )o组数的多少是根据例数的多少来确定的,以能够反映出频数分布的特征为原则,一般分10—15组。

组距为相邻两组的间隔,组距=极差/组数。

本例拟分10组,则组距=17.5/10=1.75 ",为划记方便,可取稍大或稍小的数(当然本例组距也可取1.5)。

3、确定组段。

第一组段包括要最小值,取较最小值稍小且划分方便的数,本例取“10〜”最后组段包括最大值并写岀其上限值。

4、划记。

将各观察值以划正”字的方法,一笔代表一例,划在相应组段中。

例如第一个数l14.4应在组段“114”处划, 第二个数117.2应在“114”处划,以此类推。

5、统计各组段的频数。

全部数据划记完后,清点各组段的人数。

根据编制出的频数表即可了解该数值变量资料的频数分布特征。

频数分布表的用途1、描述资料的分布特征和分布类型。

频数分布有两个重要特征:集中趋势和离散趋势。

大部分观察值向某一数值集中的趋势称为集中趋势,常用平均数指标来表示,各观察值之间大小参差不齐。

频数由中央位置向两侧逐渐减少,称离散趋势,是个体差异所致,可用一系列的变异指标来反映。

2、便于进一步计算有关指标或进行统计分析。

当数据较多且需手工计算时,常先编制频数表,再进行统计计算。

3、发现特大、特小的可疑值。

如果频数表的一端或两端出现连续几个组段的频数为零后,又出现少数几个特大值或特小值,使人怀疑其是否准确,需进一步检查和核对并做相应处理。

4、据此绘制频数分布图。

描述数据分布集中趋势的指标和描述数据分布离散程度的指标(考选择或者填空)2.描述数据分布集中趋势的指标掌握其意义、用途及计算方法。

算术均数、几何均数、中位数。

3.描述数据分布离散程度的指标掌握其意义、用途及计算方法。

极差、四分位数间距、方差、标准差、变异系数。

正态分布的特征(考选择题u、b对图形的影响)服从正态分布的变量的频数分布由u 、b完全决定。

(1)u是正态分布的位置参数,描述正态分布的集中趋势位置。

正态分布以X = u为对称轴,左右完全对称。

正态分布的均数、中位数、众数相同,均等于u 。

(2)b描述正态分布资料数据分布的离散程度,b越大,数据分布越分散,b越小,数据分布越集中。

b也称为是正态分布的形状参数,b越大,曲线越扁平,反之,b越小,曲线越瘦高。

标准正态分布(填空)1 •标准正态分布是一种特殊的正态分布,标准正态分布的u 0,b2 1,通常用u (或Z)表示服从标准正态分布的变量,记为u〜N (0,12)。

正态分布的应用(简答)某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理。

其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。

1. 估计频数分布一个服从正态分布的变量只要知道其均数与标准差就可根据公式(3-2 )估计任意取值(X1 ,X2 )围频数比例。

2. 制定参考值围(1 )正态分布法适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。

(2)百分位数法常用于偏态分布的指标。

表3-1 中两种方法的单双侧界值都应熟练掌握。

3. 质量控制:为了控制实验中的测量(或实验)误差,常以X 2S作为上、下警戒值,以X 3S作为上、下控制值。

这样做的依据是:正常情况下测量(或实验)误差服从正态分布。

4. 正态分布是许多统计方法的理论基础。

t检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。

许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。

医学参考值围的制定(计算题)确定参考值围的单双侧:一般生理物质指标多为双侧、毒物指标则多为单侧。

907 = 1.645T-1.28S T+1.28S P厂生95£-1.64$X+IMS弓3 E Pg997 + 2,585无■ 2.33&7 + 2,335P、&第三章标准误的概念,计算公式。

标准误及b X :通常将样本统计量的标准差称为标准误。

许多样本均数的标准差b X称为均数的标准误(standard error of mean, SEM),它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。

t分布的图形特征及其与正态分布的区别1. 以0为中心,左右对称的单峰分布;2. t分布是一簇曲线,其形态变化与n (确切地说与自由度V大小有关。

自由度v越小,t分布曲线越低平;自由度v越大,t分布曲线越接近标准正态分布(U分布)曲线。

t分布对应于每一个自由度V,就有一条t分布曲线,每条曲线都有其曲线下统计量t的分布规律,计算较复杂。

t分布与正态分布t分布与标准正态分布相比有以下特点:①都是单峰、对称分布;② t分布峰值较低,而尾部较高;③随自由度增大,t分布趋近与标准正态分布;当n ? Y时,t分布的极限分布是标准正态分布。

置信区间和参数估计(名解2选1)置信区间,定义:是指由样本统计量所构造的总体参数的估计区间。

1、对于具有特定的发生概率的随机变量,其特定的价值区间------一个确定的数值围(一个区间”2、在一定置信水平时,以测量结果为中心,包括总体均值在的可信围。

3、该区间包含了参数B真值的可信程度。

4、参数的置信区间可以通过点估计量构造,也可以通过假设检验构造。

参数估计:指用样本指标值(统计量)估计总体指标值(参数)。

参数估计有两种方法:点估计和区间估计。

可信区间与参考值围的不同点(简答)t 检验的应用条件和类型(填空)t 检验的应用条件:要求各样本来自相互独立的正态总体且各总体方差齐。

相关主题