卫生统计学整理笔记
SNK法、Dunnett法、Bonferroni法
方差分析条件
1.样本是正态分布总体的随机样本
2.方差齐
3.观察值相互独立
卡方分布:n个相互独立的标准正态分布的平方和。
拟合优度检验
定义:利用样本频数分布,检验样本是否来自一个理论总体。
原理:判断样本观察频数(Observed frequency)与理论频数(Expected frequency )之差是否由抽样误差所引起
假设检验的思想
反证法
小概率事件
应用假设检验注意事项
统计推断并非对所有数据有效,要有严密的设计,设计与分析是一个整体。
选择假设检验方法时,要符合相应条件。
权衡I类错误和II类错误,选择合适的检验水准。
正确选择单双侧检验。
正确理解P值得意义,区分统计学意义和专业意义,有统计学意义不意味着有专业意义。P值很小反映如果拒绝H0犯一类错误的概率很小,不代表差异很大。不要忽略无统计学意义的结果,有专业意义不意味着有统计学意义。
抽样调查数据:对总体中的样本进行了解,即通过观察性研究获得的数据。
特点:观察者对被观察事物或现象在不进行任何干预的情况下所作的观察。
实验数据:通过实验性研究所得到的数据。
特点:研究对象所处的状态是由研究者决定的。研究者决定研究对象状态的过程称为给予人为的干预措施。
随机抽样:总体中每个个体有相同的机会被选中作为样本参与调查。
3.样本量小(不是必须条件)
两独立样本资料的t检验的条件
两总体σ未知
两样本相互独立,来自正态分布总体的随机样本
样本量小(不是必须条件)
为什么要进行两两比较?
当方差分析拒绝H0时,表明多组均数之间不全相同。我们要面临着发现哪些组之间不相同,哪些组之间是相同的问题。
为什么不能直接进行t检验?
两两比较的方法
2.样本是正态分布总体的随机样本
3.样本量小(不是必须条件)
单样本Z检验的条件
1.总体σ已知或σ未知但样本量大
2.样本是正态分布总体的随机样本
配对设计:将两个受试对象按配对条件(相同属性)配成配对子,每对配对子中的个体接受不同的处理。
同体配对
异体配对
配对设计t检验的条件
1.差值总体σ未知
2.差值样本是正态分布总体的随机样本
中位数条件:
所有分布、尤其偏态分布:
1.变量值中出现个别特小或特大的数值
2.资料的分布呈明显偏态
3.含有不确定数值
4.资料的分布不清
极ห้องสมุดไป่ตู้应用条件:所有分布、尤其偏态分布
不足:
不能全面的反映所有值的偏离程度
不稳定、小样本小于大样本、样本小于总体
四分位数间距应用条件
所有分布、尤其偏态分布:
1.变量值中出现个别特小或特大的数值
二项分布的应用条件
互斥性
稳定性
独立性
泊松分布
定义:随机变量X的概率分布为
则称X服从参数为的泊松分布,记为X~P()。
作用:用于描述罕见事件,单位时间、空间等发生概率极低的事件,是二项分布的极端情况。
Poisson分布的图形特点(对称性)
当<20时,Poisson分布对称性差
当≥20时,Poisson分布对称性好,可以近似为正态分布。
谨慎追求统计学意义,结论不能绝对化,因为每次推断都面临I类错误和II类错误中的一个。
t分布特征
单峰、高峰位于中央、0处最高、两边对称下降
t分布曲线下面积规律
有一个参数ν;ν减小,曲线峰下降,尾部上升;ν增加,曲线峰上升,尾部下降
ν增加,t分布逼近z分布
ν趋向无穷大时,t变成z分布
单样本t检验的条件
1.总体σ未知
可得数据:为了某些特定目的已收集或积累的数据。如:各类监测数据、统计年鉴等。
特点:可免费或以低廉价格获取,但通常难以完全满足某些特定的研究目的。
观察性研究:研究者观察并测量研究对象的一个或多个变量,但不施加任何干预措施。
实验性研究:研究者对研究对象施加处理因素即干预措施,并测量一个或多个变量。
实验性研究的因果关联推断更具说服力。
简单随机抽样、系统抽样、分层抽样、整群抽样
简单随机抽样:从总体中以相同机会抽取一定数量个体的一种抽样方式,没有应用复杂的抽样技术。
随机对照试验设计原则
对照
随机化
重复
均衡
随机试验的特点
可重复性:在相同的条件下,可以重复进行。
可观察性:每次试验的可能结果不止一个,并且试验前能明确试验的所有可能结果。
不确定性:进行每次试验之前,不能确定哪一个结果会发生。
意义:人为认为在一次随机试验中,小概率事件不会发生。
二项分布的图形特点(对称性)
当n固定时,越远离0.5,二项分布对称性越差;越靠近0.5,二项分布对称性越好;等于0.5,二项分布对称。
当越远离0.5时,n越小,二项分布对称性越差;n越大,二项分布对称性越好;n越大且n和n(1-)大于5,二项分布近似正态分布。
正态分布
定义:若随机变量X的密度函数为
则称X服从参数为μ,σ的正态分布,记为
正态分布曲线
正态分布的概率密度函数决定的一条,高峰位于中央、均数处最高、两边对称下降、永远不与横轴相交的光滑钟形曲线。
特征
单峰、钟形,均数处最高,两边对称下降,不与横轴相交。
曲线在x=u±σ处为拐点。
μ为位置参数(决定对称轴位置)、σ为尺度参数(决定曲线分散性)。当固定μ时,σ越大,曲线的峰越低,落在μ附近的概率越小,取值就越分散,σ是反映X的取值分散性的一个指标。
2.不能混淆概念,尤其不能以构成比代替率。
3.正确计算合计率(平均率)。
4.在比较相对数时应注意可比性。
5.比较多组样本率(或构成比)时,需假设检验。
为什么要标准化?
当比较多组间率的大小时,各组之间某一因素的构成比不一致(不具有可比性),并且该因素与率有关,此时不能比较合计率,需要进行标准化。
标准化思想
样本空间:随机试验的所有可能的结果构成的集合被称为随机试验的样本空间,记为S。样本空间的元素,即随机试验的每个可能结果,被称为样本点。
事件:具有特定特征的随机试验的结果构成的集合。
随机事件:在随机试验中可能发生也可能不发生的事件,简称事件,用A、B、C等表示。
必然事件:在每次随机试验中都必然发生的事件。
可信区间的含义是:总体均数被包含在该区间内的可能性是1-α,没有被包含的可能性为α。
影响区间估计的因素
准确度:包含总体参数的概率大小
精密度:区间的宽度
影响区间的宽度的因素
置信概率
样本量
标准差
假设检验的概念
首先将我们要推断的总体参数或者总体分布(我们要研究的问题)描述成一对假设,然后利用样本的信息判断是否拒绝其中一个假设,接受另一个假设的过程。
偏态分布,无法转换成正态分布。
等级资料。
含有不能或没有精确测量的数据,如大于或小于。
分布不易确定或未知。
秩和检验:是一类重要的非参数检验,基于秩转换,对原始数据从小到大编秩次。
线性相关系数:定量反映两变量线性相关的密切程度和方向的指标,又称Pearson相关系数。
线性相关分析注意事项
线性相关分析,先画散点图,再计算线性相关系数。
2.资料的分布呈明显偏态
3.含有不确定数值
4.资料的分布不清
方差应用条件:
对称分布,尤其正态分布
变异系数应用
1.量纲不一致
2.均数相差较大
散点图作用
观察两组数据的总体趋势和明显偏离趋势的观察点
判断两组数据的关联形式、方向和密切程度
相关分类
线性相关
秩相关
分类变量相关
线性相关意义
r>0表示正相关,r=1表示完全正相关;r<0表示负相关,r=-1表示完全负相关。
相对数:选择一个数作为参照,计算比值。
率
构成比
比
率
作用:反映随机事件(现象)发生的频率或强度。
按照作用分为:
频率型指标
强度型指标
频率型指标
作用
反映随机事件发生的频率,用于估计概率。
1.无单位
2.取值范围[0,1]
强度型指标
作用反映随机事件发生的强度,用于估计单位时间的概率。
1.有单位(人/人时)
2.取值范围[0,∞)
构成比
作用说明某一事物内部各组成部分占总的比重或分布。
计算
1.无单位
2.取值范围[0,1]
相对比,简称比,是两个有关指标A、B之比,说明A是B的若干倍或者百分之几。
1.A、B可以是绝对数、相对数、平均数
2.A、B性质可以相同、可以不相同
相对数应用注意事项:
1.计算相对数时分母一般不宜过小,如果太小用绝对数描述。
如何绘制频数表?
求组距
确定各组段的两个端点
归组计数
频数分布表与分布图作用
1.揭示变量分布形态
2.揭示变量分布趋势
3.便于发现特大的或特小的极端值
4.便于进一步计算统计指标和分析
5.作为一种数据陈述的形式
算数应用条件:
对称分布,尤其正态分布
几何应用条件:
1.对数对称分布、等比资料
2.变量值中不能有0;不能同时有正值和负值;若全是负值,计算时可先把负号去掉,得出结果后再加上负号。
R×C列联表资料卡方检验注意事项
理论频数不能太小(T < 1或1≤T < 5的格子数超过20%):如果出现,可采用如下方法:
1.增加样本量
2.合并相应的列或者行
3.删除相应的列或者行
4.用Fisher确切概率法
参数检验:对总体参数进行的假设检验,对总体分布要求严格。
非参数检验:对总体分布进行的假设检验,对总体分布不作严格要求,不依赖于总体分布类型。