医学统计复习资料一、名词解释[1].总体:根据研究目的确定的同质观察单位的全体。
是同质所有观察单位的某种变量值的集合。
总体可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
[2].样本:从总体中随机抽取部分观察单位,其实测值的集合。
[3].计量资料:又称定量资料或数值变量资料。
为观测每个观察单位的某项指标的大小,而获得的资料。
其变量值是定量的,表现为数值大小,一般有度量衡单位。
根据其观测值取值是否连续,又可分为连续型或离散型两类。
[4].计数资料:又称定性资料或者无序分类变量资料,亦称名义变量资料,是将观察单位按照某种属性或类别分组计数,分组汇总各组观察单位数后得到的资料。
其变量值是定性的,表现为互不相容的性或类别。
分两种情形:(1)二分类:两类间相互对立,互不相容。
(2)多分类:各类间互不相容。
[5].等级资料:又称半定量资料或有序分类变量资料,是将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。
其变量值具有半定量性质,表现为等级大小或属性程度。
[6].随机误差(偶然误差):是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起,观察值不按方向性和系统性变化,在大量重复测量中,它可呈现或大或小,或正或负的规律性变化。
[7].概率:概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P (A),P(A)越大,说明A事件发生的可能性越大。
0< P (A)< 1。
频率:在相同的条件下,独立重复做n次试验,事件A出现了 m次,则比值m/n称为随机事件A在n次试验中出现的频率(freqency)。
当试验重复很多次时 P (A) = m/n 。
[8].平均数:描述一组变量值的集中位置或水平。
常用的平均数有算术平均数、几何平均数和中位数。
[9].算术均数(arithmetic mean )描述一组数据在数量上的平均水平。
总体均数用卩表示,样本均数用X表示。
[10].几何均数(geometric mean )用以描述对数正态分布或数据呈倍数变化资料的水平。
记为G。
[11].中位数(median ) Md将一组观察值由小到大排列,n为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。
反映一批观察值在位次上的平均水平。
[12].方差(varianee ):方差表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。
[13].标准差(standard deviation )是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用。
[14].变异系数(coefficient of variation )用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。
用CV表示。
计算:标准差/均数*100%。
[15].正态分布:正态分布又称高斯分布,是一种很重要的连续型分布,应用很广。
若指标 X的频率分布曲线对应于数学上的正态分布曲线,则称该指标服从正态分布。
(曲线下面积和分布规律) [16].标准误及X s :通常将样本统计量的标准差称为标准误。
许多样本均数的标准差X s称为均数的标准误(standard error of mean ,SEM ),它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。
[17].可信区间:按预先给定的概率确定的包含未知总体参数的可能围。
该围称为总体参数的可信区间(con fide nee in terval , Cl)。
它的确切含义是:可信区间包含总体参数的可能性是1- a ,而不是总体参数落在该围的可能性为1- a 。
[18] •假设检验中P 的含义:指从H0规定的总体随机抽得等于及大于(或等于及小于)现有样本获 得的检验统计量值的概率。
[19] .相对数:两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数 之比表示相对数学的大小。
如率、构成比、比等。
[20] .率:强度相对数,说明某现象发生的频率或强度。
[21] .构成比:结构相对数字,表示事物部某一部分的个体与该事物各个部分个体数的和之比。
用来 说明各构成部分在总体所占的比重或分布。
[22] .相对比:简称比,是两个相关联指标之比,说明两指标间的比例关系。
两指标可以性质相同, 也可以性质不同,通常以倍数或百分数表示。
两指标可以是绝对数、相对数或平均数。
(这几种相对数的差别)[23] .回归系数(regression coefficient )即直线的斜率(slope ),在直线回归方程中用 b 表示,b 的统计意义为X 每增(减)一个单位时,丫平均改变b 个单位。
[24] .相关系数r :用以描述两个随机变量之间线性相关关系的密切程度与相关方向的统计指标。
二、需要掌握的几个公式1. 均数的计算(1) 算术均数X Xn X (直接法)nn X f 1X 1 f 2X 2f k X k fx (加权法)(2) 几何均数 2. 中位数3力差4. 标准差(S ):将方差取平方根,还原为与原始观察值单位相同的变异量度/~X X 2(反映样本值的离散程度) S ---------------\ n 15•变异系数: 均数相差较大或单位不同的几组观察值的变异程度的比较 SCV = 100% (百分数,可能大于1)Xn 为奇数时,M(T ) n 为偶数时,MX (n)5. 正态分布: X 1.64S (90%); X 1.96S (95%); X 2. 58S (99%)6. 均数的标准误理论值 乂 . ;n 估计值 $ S ;n(1) 当c 未知时:按照t 分布双侧 1- a 的可信区间为(X t o.。
5/2' , X to05/2, Sx)当侧1- a 的可信区间为( X t , S x , X t , S X )(2) 当c 已知或c 未知,但是n 足够大(如n>90 ),按照u 检验双侧1- a 的可信区间为X 1. 96S x ,当侧1- a 的可信区间为X X ,X X三、计算和问答1. 总体均数的估计(1) 标准误:反映样本均数间变异的标准差。
(反映样本均数间的离散程度,也反映样本均数与总 体均数的差异)理论值乂n ,但是在实际情况中,由于总体标准差常常未知,故用样本标准差 s 来估计,估 计值* S < n(2) 区间估计:按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。
① 当c 未知时:按照t 分布双侧1- a 的可信区间为(X 怙05/2 S X ,X to05/2, S X )当侧1- a 的可信区间为( X t , S X ,X t , S x ) ② 当c 已知或c 未知,但是n 足够大(如n>90),按照u 检验双侧1- a的可信区间为X 1. 96S X,当侧1- a的可信区间为X X ,X(3)t分布和u分布的区别t分布为抽样分布;u分布为标准正态分布,为理论分布。
t分布比标准正态分布的峰值低, 尾部翘得更高。
随自由度的增大,t分布逐渐趋近标准正态分布。
2.假设检验即显著性检验,是统计推断的重要容,比较总体参数之间有无差别。
首先对所需比较的总体提出一个无差别假设,然后通过样本数据去推断是否拒绝这一假设。
基本步骤:⑴建立假设和确定检验水准⑵选择检验方法和计算检验计量⑶确定P值,作出统计推断无效假设:H0,指需要检验的假设,如**值治疗前后无差别,即HO:yd=O通常与我们要验证的结论相反,是计算检验统计量和P值的依据备择假设:是在H0成立证据不足的情况下而被接受的假设,即 H1:yd工0双侧检验:无论正或负方向的误差,若显著超出检验水准则拒绝H0单侧检验:仅在向或负方向误差超出规定的水准时拒绝H0P值:假设检验下结论的主要依据,是指在原假设成立的条件下,观察到的样本差别是由于机遇所致的概率。
P>0.05不显著;0.01<Pv=0.05 显著;P<=0.01非常显著(1)t检验中的注意事项样本资料必须能代表相应总体t检验以正态分布为基础;非正态数据尝试变换为正态,或用非参数检验完全随机设计的两样本均数比较,要求两组方差齐对同一资料作单侧检验更容易获得显著结果假设检验用于推断总体均数间是否相同;可信区间用于估计总体均数所在围4.方差分析将全部观测值的总变异按影响因素分为相应的若干部分变异,在此基础上,计算假设检验的统计量F值,实现对总体均数是否有差别的推断。
条件:来自于正态分布总体,且总体方差相等的k个样本均数的比较(k>=3)完全随机设计:又称单因素方差分析,将实验对象随机分配到不同处理组的单因素设计方法。
只考虑一个处理因素总变异SS :门个观测值的离均差平方和组间变异S^R :组均值与总均值之差的平方和组变异SS E:组各个观测值与本组均值之差的平方和(反映各组样本的随机波动)随机区组设计:又称配伍组设计,先将受试对象按条件相同或相近组成m个区组,每个区组中有k个受试对象,再将其随机地分到 k个处理组中。
(属于无重复数据的两因素方差分析)两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数学的大小。
如率、构成比、比等。
相对数死亡概率q 某年内死亡人数某年年初人口数生存概率p 某年活满一年人数某年年初人口数生存率S(t k)P(T tk) t k时刻仍存活的例数观察总例数相对数使用的注意事项1•构成比只能说明某事物部各组成部分的比重和分布,不能说明该事物某一部分发生的强度和概率2•分母过小时相对数不稳定3•用以比较的资料应是同质的4•要考虑存在的抽样误差,对总体进行推断时应作统计学检验6.率的标准化为了比较两个不同人群的患病率、发病率、死亡率等资料时,消除其部构成(年龄、性别、工龄、病程长短等)的影响。
英国统计学家Peas on提出的一种用途广泛的假设检验方法。
该检验以2分布为理论依据,可以推断两个或者多个总体率以及构成比直接有无差异。
(1)四格表资料的2检验理论频数T RC (n R?n c)「n四格表资料2检验专用公式2(ad be)2n(a b)(e d)(a e)(b d)四格表2检验校正公式2(ad be n 2)2n(a b)(e d)(a e)(b d) 通常规则:①n 40且所有的T 5基本公式(或专用公式)②n 40但有1 T<5校正公式③*40,或T<1 Fisher确切概率法(2)配对四格表资料的2检验(3)行 列表资料的2检验条件:⑴1<T<5的格子数,不能超过总格子数的1/5 ;不能有T<1⑵与分类变量的顺序无关 ⑶对于有序的R C 表资料不宜用2检验 8. 秩转换的非参数检验如果已知计量满足或近似满足t 检验或者F 检验,优先选择t 检验秩转换的非参数检验适用于:⑴总体分布为偏态或分布未知的计量资料⑵等级资料⑶个别数据偏大,或数据的某一端无确定数值⑷各组离散程度相差悬殊,即各总体方差不齐特点:⑴适用围广,不限方差齐性、变量类型、样本量⑵损失了部分信息,检验效率低⑶极度偏态,犯第二类错误的概率较大非参数检验,与参数检验的区别。