计量资料统计分析
54
(1)建立检验假设,确定检验水准
– H0: =0 =140g/L,即铅作业男性工人平均血红 蛋白含量与正常成年男性平均值相等 – H1: ≠0=140g/L,即铅作业男性工人平均血红 蛋白含量与正常成年男性平均值不等 – =0.05
55
(2)计算检验统计量
本例 n=36, X =130.83g/L,S=25.74g/L, 0 =140g/L 按公式
受 H1,有统计学意义。结合本题可认为从事 铅作业的男性工人平均血红蛋白含量低于正 常成年男性。
57
二、配对t 检验 (paired / matched t-test)
130.83 140 t 2.138, 36 1 35 25.74 36
56
(3)确定P值,作出推断结论
以=35、 t 2.138 2.138 查 t 界值表,因
t0.05 / 2,35 <2.138 < t0.02 / 2,35 , 故 双 尾 概 率 0.02<P<0.05。按 = 0.05 水准,拒绝 H0,接
38
2.点估计
1.点估计(point estimation):就是用 相应样本统计量直接作为其总体参数的 估计值。如用 X 估计 、S 估计 等。其 方法虽简单,但未考虑抽样误差的大小。
39
2.区间估计(interval estimation)
• 按预先给定的概率 (1) 所确定的包含未知总 体参数的一个范围。 • 总体均数的区间估计:按预先给定的概率(1)
二、t 分布的图形与特征
t 分布只有一个参数,即自由度
t 分布是一簇曲线。当自由度ν 不同时,曲线的形 状不同。当ν 时,t 分布趋近于标准正态分布(u
分布) ,但当自由度ν 较小时,与标准正态分布差异较 大。其图形如下:
34
f(t)
ν─>∞ (标准正态曲线) ν =5
ν =1
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
Байду номын сангаас
4.0
5.0
图3-3 不同自由度下的t 分布图
35
t
1. 特征
•
• •
单峰分布,以0为中心,左右对称;
自由度ν越小,则t值越分散,t分布的峰部
越矮而尾部翘得越高;
当ν逼近, S X 逼近 ,X t分布逼近u分布,可
将标准正态分布看作是t分布的特例。
45
假设检验的一般步骤
1.建立检验假设,确定检验水准
• (3) 检验水准,过去称显著性水准,是预
先规定的概率值,它确定了小概率事件的
标准。在实际工作中常取 = 0.05。可根据 不同研究目的给予不同设置。
46
假设检验的一般步骤
2. 计算检验统计量
• 根据变量和资料类型、设计方案、统计推
断的目的、是否满足特定条件等(如数据
的分布类型)选择相应的检验统计量。
47
假设检验的一般步骤
3. 确定P值
• P的含义是指从H0规定的总体随机抽样,抽 得等于及大于(或/和等于及小于)现有样本 获得的检验统计量(如t、u等)值的概率 • 当零假设成立时,得到所观测的数据或者 更极端的数据的概率 • Fisher把0.05,20分之1作为小概率标准
为 ,样本均数的标准差为 / n。
抽样分布
抽样分布示意图
27
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数的变异越
小说明估计越精确,因此可以用标准误表示抽样误 差的大小:
X
n
实质:样本均数的标准差
28
三、标准误(Standard Error)
实际工作中,σ常属未知,而是用样本标准差s来估
• 假设检验:参数的值是否等于某个特别感 兴趣的值
24
内容
1. 均数的抽样误差与标准误 2. t分布 3. 总体均数的估计 4. 假设检验的一般步骤 5. 假设检验注意事项
25
1. 均数的抽样误差与标准误
一、均数的抽样误差
在医学研究中,绝大多数情况是由样本信息
研究总体。由于个体存在差异,因此通过样本推
概率
• 描述随机事件发生的可能性大小的数值, 常用P表示 • 小概率事件:习惯上将P<0.05称为小概率 事件
统计描述
8
统计图表
• 茎叶图
9
两组数据
10
点图
• dotplot lead, over(group)
4 lead 0 1 2 3
1 group
2
11
箱图
• graph box lead, over(group)
计量资料的统计分析
邹宇量 武汉大学健康学院
统计工作的步骤 1. 设计:问题?目的?假设?实施……
2. 搜集资料
3. 整理资料 4. 分析资料:统计描述、统计推断(估计、 假设检验) ——科学研究思路,假设、实证
2
基本概念
变量的概念
• 观察单位、个体:可以是一个人,一个家庭、 一个地区、一个样品、一个采样点等 • 变量( variable ):对每个观察单位某项特征 进行测量,所得观察单位的特征值
10 g / L
• 女性为110-150g/L 130 g / L 10 g / L
115 140 2.5 10
110 130 2 10
18
u变换
u
X
19
标准得分:u变换
• 标准得分:比较苹果和橘子,馒头和包子(不同
质) • 不同的变量一般有不同的均值和标准差。统计上, 均值和标准差不同时,一个变量的值不能与另一 个变量的值相比较
所确定的包含未知总体均数的一个范围。
如给定=0.05,该范围称为参数的95%可信区间
或置信区间;
如给定=0.01,该范围称为参数的99%可信区间
或置信区间。
40
二、总体均数可信区间的计算
• 总体均数可信区间的计算
• 需考虑:
– (1)总体标准差是否已知, – (2)样本含量n的大小
• 通常有两类方法:
论总体时会存在一定的误差,如样本均数往往不 等于总体均数,这种由抽样造成的样本均数与总 体均数的差异称为抽样误差。对于抽样研究,抽 样误差不可避免。
26
二、抽样误差分布
• 理论上可以证明:若从正态总体 N( , 2 )中,反复多 次随机抽取样本含量固定为n 的样本,那么这些 样本均数 X 也服从正态分布,即 X 的总体均数仍
• 解决办法:将原始得分换算成标准得分,得到得
分与均值的相对距离
20
u变换
u
X
绝对距离
21
u界值表
参考值范围(%) 80 90 95 99 单 侧 0.84 1.28 1.64 2.33 双 侧 1.28 1.64 1.96 2.58
22
统计推断
23
统计推断
• 估计:主要任务是找参数等于几
即 u 分布;
31
X 服从总体均数为 、 2.若样本均数
2 N ( , ) ,则通 总体标准差为 X 的正态分布 X
过同样方式的 u 变换( X
X
)也可将其转换为
标准正态分布 N(0, 12),即 u 分布。
32
ν:自由度(degree of freedom, df)
33
36
u变换和 t 变换
u X
绝对距离
标准差
处理来自正态分布的个体值X时, 计算标准得分
X u / n X t s/ n
处理样本均值时,计算标准得分
标准误
t变换,总体标准差未知
37
第三节 总体均数的估计
一、参数估计
– 用样本统计量推断总体参数。
• 总体均数估计:
– 用样本均数(和标准差)推断总体均数。
4 lead 0 1 2 3
1
2
12
更大的数据
13
频数分布,直方图
14
正态分布及应用
15
正态分布曲线下的面积
.58 1 .96 -5 2 -4 -3 -2 -1
0
1.96 2 1 3
4 2.58 5
68 .3% 95 .0% 99 .0%
16
正态分布的两个参数
• 位置参数μ,形态参数σ
• 若固定σ,改变μ值,曲线沿着x轴平行移动, 形态不变 • 若固定μ,σ越小,曲线越陡峭(瘦),反 之,σ越大,曲线越平坦(胖)
17
正态分布应用:血红蛋白含量比较
问:男115g/L,女110g/L,谁更低?
• 假设:血红蛋白(Hb): • 男性为120-160g/L, 140 g / L
– (1)t分布法
– (2)u分布法
41
第四节 假设检验的一般步骤
假设检验基本思想及步骤
• 假设检验过去称显著性检验。它是利用小概
率反证法思想,从问题的对立面(H0)出发间
接判断要解决的问题(H1)是否成立。然后在
H0成立的条件下计算检验统计量,最后获得
P值来判断。
42
实例
例3-5 某医生测量了36名从事铅作业男性工人 的血红蛋白含量,算得其均数为130.83g/L, 标准差为25.74g/L。问从事铅作业工人的血红 蛋白是否不同于正常成年男性平均值140g/L? 130.83g/L ≠140g/L 原因: 1.可能是总体均数不同 2.是抽样造成的
50
若P , 按所取检验水准 , 拒绝 H 0 , 接受 H1 ,下“有差别”的结论。其统计学依 据是,在 H 0 成立的条件下,得到现有检验结 果的概率小于 ,因为小概率事件不可能在 一次试验中发生,所以拒绝 H 0 。