当前位置:文档之家› 医学统计学复习资料

医学统计学复习资料

一、名词解释[1].总体:根据研究LI得确定得同质观察单位得全体。

就是同质所有观察单位得某种变量值得集合。

总体可分为有限总体与无限总体。

总体中得所有单位都能够标识者为有限总体,反之为无限总体。

[2]•样本:从总体中随机抽取部分观察单位,其实测值得集合。

[3]•计量资料:乂称定量资料或数值变量资料。

为观测每个观察单位得某项指标得大小,而获得得资料。

其变量值就是定量得,表现为数值大小,一般有度量衡单位。

根据其观测值取值就是否连续,乂可分为连续型或离散型两类。

[4]・计数资料:乂称定性资料或者无序分类变量资料,亦称名义变量资料,就是将观察单位按照某种属性或类别分组计数,分组汇总各组观察单位数后得到得资料。

其变量值就是定性得,表现为互不相容得性或类别。

分两种情形:(1)二分类:两类间相互对立,互不相容。

(2)多分类:各类间互不相容。

⑸•等级资料:乂称半定量资料或有序分类变量资料,就是将观察单位按某种属性得不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到得资料。

其变量值具有半定量性质,表现为等级大小或属性程度。

[6]•随机误差(偶然误差):就是一类不恒定得、随机变化得误差,山多种尚无法控制得因素引起,观察值不按方向性与系统性变化,在大量重复测量中,它可呈现或大或小,或正或负得规律性变化。

[7]•概率:概率(probability)乂称儿率,就是度量某一随机事件A发生可能性大小得一个数值,记为P(A),P(A)越大,说明A事件发生得可能性越大。

0<P(A)< 1。

频率:在相同得条件下,独立重复做n次试验,事件A出现了m次,则比值m/n称为随机事件A在n次试验中岀现得频率(freqency)o当试验重复很多次时P(A)= m/n。

[8]•平均数:描述一组变量值得集中位置或水平。

常用得平均数有算术平均数、儿何平均数与中位数。

[9]・算术均^(arithmetic mean)描述一组数据在数量上得平均水平。

总体均数用U表示,样本均数用X 表示。

[10]•几何均数(geometric mean)用以描述对数正态分布或数据呈倍数变化资料得水平。

记为G。

[11]・中位数(median)Md将一组观察值山小到大排列小为奇数时取位次居中得变量值;为偶数时,取位次居中得两个变量得平均值。

反映一批观察值在位次上得平均水平。

[12]方差(variance):*"差表示一组数据得平均离散情况,由离均差得平方与除以样本个数得到。

[13]・标准差(standard deviation)就是方差得正平方根,使用得量纲与原量纲相同,适用于近似正态分布得资料,大样本、小样本均可,最为常用。

[14]•变异系数(coefficient of variation)^于观察指标单位不同或均数相差较大时两组资料变异程度得比较。

用CV表示。

计算:标准差/均数*100%。

[15]・正态分布:正态分布乂称高斯分布,就是一种很重要得连续型分布,应用很广。

若指标X得频率分布曲线对应于数学上得正态分布曲线,则称该指标服从正态分布。

(曲线下面积与分布规律)[16]•标准误及X s :通常将样本统汁量得标准差称为标准误。

许多样本均数得标准差X s称为均数得标准误(standard error of mean,SEM ),它反映了样本均数间得离散程度,也反映了样本均数与总体均数得差异,说明均数抽样误差得大小。

[17].可信区间:按预先给定得概率确定得包含未知总体参数得可能范圉。

该范圉称为总体参数得可信区间(confidence interval,CI)。

它得确切含义就是:可信区间包含总体参数得可能性就是1- a,而不就是总体参数落在该范圉得可能性为1-« o[18]•假设检验中P得含义:指从H0规定得总体随机抽得等于及大于(或等于及小于)现有样本获得得检验统计量值得概率。

[19]•相对数俩个有联系得指标之比,就是分类变量常用得描述性统讣指标,常用两个分类得绝对数之比表示相对数学得大小。

如率、构成比、比等。

[20]•率:强度相对数,说明某现象发生得频率或强度。

[21]•构成比:结构相对数字,表示事物内部某一部分得个体与该事物各个部分个体数得与之比。

用来说明各构成部分在总体所占得比重或分布。

【22]•相对比:简称比,就是两个相关联指标之比,说明两指标间得比例关系。

两指标可以性质相同,也可以性质不同,通常以倍数或厅分数表示。

两指标可以就是绝对数、相对数或平均数。

(这儿种相对数得差别)[23].回归系数(regression coefficient)即直线得斜率(slope),在直线回归方程中用b表示,b得统讣意义为X每增(减)一个单位时,Y平均改变b个单位。

[24]•相关系数r:用以描述两个随机变量之间线性相关关系得密切程度与相关方向得统讣指标。

二、需要掌握得几个公式1、均数得计算(1)算术均数戸=® + x「+…+x〃 = (直接法)n nF = f\Xi + fzXz +…+融=工zr(加权法)(2)几何均数2、中位数X n + Xn为奇数时从旨”为偶数时,“七工3.方差(反映样本值得离散程度)S = $:丁)5、变异系数:均数相差较大或单位不同得儿组观察值得变异程度得比较CV = = xlOO% (百分数,可能大于1)5、正态分布:X ± 1.64S (90%); X ± 1.965 (95%); X± 2. 585(99%)6、均数得标准误理论值估计值Sy-S/丽7、总体均数得可信区间计算⑴当。

未知时:按照t分布双侧1・a得可信区间为(了 ~张/2,血⑵那)当侧1-a得可信区间为(“ > X - t a>r S v p<X + t ar S s)(2)当o已知或a未知,但就是n足够大(如n>90),按照u检验双侧1-a得可信区间为片± 1. 96$匕当侧1- a得可信区间为X - “a6,* + "a6三、计算与问答1、总体均数得估计(1)标准误:反映样本均数间变异得标准差。

(反映样本均数间得离散程度,也反映样本均数与总体均数得差异)理论值畋=b/亦,但就是在实际情况中,山于总体标准差常常未知,故用样本标准差S来佔汁,估计值片=s/yfn(2)区间估计:按预先给定得概率,计算出一个区间,使它能够包含未知得总体均数。

①当o未知时:按照t分布双侧1-Q得可信区间为(『_ %耐2血,X +心()5/2.居)当侧a得可信区间为(“ >X-t曲,p<X +岳SR②当o已知或o未知,但就是n足够大(如n>90),按照u检验双侧1-Q得可信区间为牙± 1. 96S r,当侧1,得可信区间为7 , X +人6(3)t分布与u分布得区别t分布为抽样分布;u分布为标准正态分布,为理论分布。

t分布比标准正态分布得峰值低,且尾部翘得更高。

随自由度得增大,t分布逐渐趋近标准正态分布。

2、假设检验即显著性检验,就是统汁推断得重要内容,比较总体参数之间有无差别。

首先对所需比较得总体提出一个无差别假设,然后通过样本数据去推断就是否拒绝这一假设。

•基本步骤:(1)建立假设与确定检验水准⑵选择检验方法与计算检验计量⑶确定P值,作出统计推断•无效假设:H0,指需要检验得假设,如祜值治疗前后无差别,即HO: ud=O通常与我们要验证得结论相反,就是汁算检验统汁量与P值得依据•备择假设:就是在H0成立证据不足得情况下而被接受得假设,即Hl: P dHO双侧检验:无论正或负方向得误差,若显著超出检验水准则拒绝HO单侧检验:仅在正方向或负方向误差超出规定得水准时拒绝HO•P值:假设检验下结论得主要依据,就是指在原假设成立得条件下,观察到得样本差别就是山于机遇所致得概率。

P>0、05不显著;0、01<P<=0. 05显著;Pv=O、01非常显著3、(检验(l )t 检验中得注意事项•样本资料必须能代表相应总体•t 检验以正态分布为基础;非正态数据尝试变换为正态,或用非参数检验•完全随机设计•得两样本均数比较,要求两组方差齐•对同一资料作单侧检验更容易获得显著结果•假设检验用于推断总体均数间就是否相同;可信区间用于佔计•总体均数所在范圉 4、方差分析将全部观测值得总变异按影响因素分为相应得若干部分变异,在此基础上,计算假设检验得统计 量F 值,实现对总体均数就是否有差别得推断。

•条件:来自于正态分布总体,且总体方差相等得k 个样本均数得比较(k>=3)•完全随机设计:乂称单因素方差分析,将实验对象随机分配到不同处理组得单因素设讣方法。

只考虑 一个处理因素总变异S»:n 个观测值得离均差平方与组间变异SS®组内均值与总均值之差得平方与组内变异SS E :组内各个观测值与本组内均值之差得平方与(反映各组内样本得随机波动)•随机区组设汁:乂称配伍组设计,先将受试对象按条件相同或相近组成m 个区组,每个区组中有k 个 受试对象,再将其随机地分到k 个处理组中。

(属于无重复数据得两因素方差分析)5、相对数两个有联系得指标之比,就是分类变量常用得描述性统讣指标,常用两个分类得绝对数之比表示 相对数学得大小。

如率、构成比、比等。

•相对数使用得注意事项1•构成比只能说明某事物内部各组成部分得比重与分布,不能说明该事物某一部分发生得强度与概 率。

相对数死亡概率。

= 某年内死亡人数某年年初人口数生存概率"= 某年活满一年人数 某年年初人口数生存率 S(t k ) = P(T>t k ) = &时刻仍存活的例数 ~观察总例数2•分母过小时相对数不稳定3•用以比较得资料应就是同质得4 •要考虑存在得抽样误差,对总体进行推断时应作统汁学检验6、 率得标准化为了比较两个不同人群得患病率、发病率、死亡率等资料时,消除其内部构成(年龄、性别、工 龄、病程长短等)得影响。

7、 *检验英国统计学家Peason 提岀得一种用途广泛得假设检验方法。

该检验以才分布为理论依据,可以 推断两个或者多个总体率以及构成比直接有无差异。

(1)四格表资料得才检验理论频数 T RC = (n K • n.)/n (ad -be)2n(a + /?)(c + d)(a + c)(b + d)(^ad -bc\-n :2)2n (a + b)(c + d)(a + c)(h + d)通常规则:©n>40且所有得T>5基本公式(或专用公式)② n»40但有1 <T<5校正公式③ n 〈40,或T 〈1 Fisher 确切概率法(2)配对四格表资料得才检验㈡犷=——! ----- , V=1 (b + c) <40b +c ⑶行X 列表资料得*检验( A 2\专用公式:才=刃y —--1 , v=(行数・i)(列数・i)k Wc 丿条件:(1)1<T<5得格子数,不能超过总格子数得1/5;不能有T<1⑵与分类变量得顺序无关⑶对于有序得RxC 表资料不宜用才检验8. 秩转换得非参数检验 四格表F 检验校正公式r = 公式:(一)才="上)一,v=i b +c (b + c) > 40四格表资料才检验专用公式•如果已知计•量满足或近似满足t检验或者F检验,优先选择t检验•秩转换得非参数检验适用于:⑴总体分布为偏态或分布未知得计量资料⑵等级资料⑶个别数据偏大,或数据得某一端无确定数值⑷各组离散程度相差悬殊,即各总体方差不齐•特点:(1)适用范围广,不限方差齐性、变量类型、样本量⑵损失了部分信息,检验效率低⑶极度偏态,犯第二类错误得概率较大•非参数检验,与参数检验得区别。

相关主题