当前位置：文档之家› 计量资料统计分析

计量资料统计分析

54
(1)建立检验假设，确定检验水准
– H0: =0 =140g/L，即铅作业男性工人平均血红蛋白含量与正常成年男性平均值相等 – H1: ≠0=140g/L，即铅作业男性工人平均血红蛋白含量与正常成年男性平均值不等 – =0.05
55
(2)计算检验统计量
本例 n=36， X =130.83g/L，S=25.74g/L， 0 ＝140g/L 按公式
受 H1，有统计学意义。结合本题可认为从事铅作业的男性工人平均血红蛋白含量低于正常成年男性。
57
二、配对t 检验 (paired / matched t-test)
130.83 140 t 2.138, 36 1 35 25.74 36
56
(3)确定P值，作出推断结论
以=35、 t 2.138 2.138 查 t 界值表，因
t0.05 / 2,35 <2.138 < t0.02 / 2,35 ，故双尾概率 0.02<P<0.05。按 = 0.05 水准，拒绝 H0，接
38
2．点估计
1．点估计(point estimation)：就是用相应样本统计量直接作为其总体参数的估计值。如用 X 估计、S 估计等。其方法虽简单，但未考虑抽样误差的大小。
39
2．区间估计(interval estimation)
• 按预先给定的概率 (1) 所确定的包含未知总体参数的一个范围。 • 总体均数的区间估计：按预先给定的概率(1)
二、t 分布的图形与特征
t 分布只有一个参数，即自由度
t 分布是一簇曲线。当自由度ν 不同时，曲线的形状不同。当ν 时，t 分布趋近于标准正态分布（u
分布），但当自由度ν 较小时，与标准正态分布差异较大。其图形如下：
34
f(t)
ν─>∞ (标准正态曲线) ν =5
ν =1
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
Байду номын сангаас
4.0
5.0
图3-3 不同自由度下的t 分布图
35
t
1. 特征
•
• •
单峰分布，以0为中心，左右对称；
自由度ν越小，则t值越分散，t分布的峰部
越矮而尾部翘得越高；
当ν逼近, S X 逼近 ,X t分布逼近u分布，可
将标准正态分布看作是t分布的特例。
45
假设检验的一般步骤
1.建立检验假设，确定检验水准
• (3) 检验水准，过去称显著性水准，是预
先规定的概率值，它确定了小概率事件的
标准。在实际工作中常取 = 0.05。可根据不同研究目的给予不同设置。
46
假设检验的一般步骤
2. 计算检验统计量
• 根据变量和资料类型、设计方案、统计推
断的目的、是否满足特定条件等（如数据
的分布类型）选择相应的检验统计量。
47
假设检验的一般步骤
3. 确定P值
• P的含义是指从H0规定的总体随机抽样，抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u等)值的概率 • 当零假设成立时，得到所观测的数据或者更极端的数据的概率 • Fisher把0.05，20分之1作为小概率标准
为，样本均数的标准差为 / n。
抽样分布
抽样分布示意图
27
三、标准误（Standard Error）
样本均数的标准差称为标准误。样本均数的变异越
小说明估计越精确，因此可以用标准误表示抽样误差的大小：
X

n
实质：样本均数的标准差
28
三、标准误（Standard Error）
实际工作中，σ常属未知，而是用样本标准差s来估
• 假设检验：参数的值是否等于某个特别感兴趣的值
24
内容
1. 均数的抽样误差与标准误 2. t分布 3. 总体均数的估计 4. 假设检验的一般步骤 5. 假设检验注意事项
25
1. 均数的抽样误差与标准误
一、均数的抽样误差
在医学研究中，绝大多数情况是由样本信息
研究总体。由于个体存在差异，因此通过样本推
概率
• 描述随机事件发生的可能性大小的数值，常用P表示 • 小概率事件：习惯上将P<0.05称为小概率事件
统计描述
8
统计图表
• 茎叶图
9
两组数据
10
点图
• dotplot lead, over(group)
4 lead 0 1 2 3
1 group
2
11
箱图
• graph box lead, over(group)
计量资料的统计分析
邹宇量武汉大学健康学院
统计工作的步骤 1. 设计：问题？目的？假设？实施……
2. 搜集资料
3. 整理资料 4. 分析资料：统计描述、统计推断（估计、假设检验） ——科学研究思路，假设、实证
2
基本概念
变量的概念
• 观察单位、个体：可以是一个人，一个家庭、一个地区、一个样品、一个采样点等 • 变量（ variable ）：对每个观察单位某项特征进行测量，所得观察单位的特征值
10 g / L
• 女性为110－150g/L 130 g / L 10 g / L
115 140 2.5 10
110 130 2 10
18
u变换
u
X

19
标准得分：u变换
• 标准得分：比较苹果和橘子，馒头和包子（不同
质） • 不同的变量一般有不同的均值和标准差。统计上，均值和标准差不同时，一个变量的值不能与另一个变量的值相比较
所确定的包含未知总体均数的一个范围。
如给定=0.05,该范围称为参数的95%可信区间
或置信区间；
如给定=0.01,该范围称为参数的99%可信区间
或置信区间。
40
二、总体均数可信区间的计算
• 总体均数可信区间的计算
• 需考虑：
– （1）总体标准差是否已知， – （2）样本含量n的大小
• 通常有两类方法：
论总体时会存在一定的误差，如样本均数往往不等于总体均数，这种由抽样造成的样本均数与总体均数的差异称为抽样误差。对于抽样研究，抽样误差不可避免。
26
二、抽样误差分布
• 理论上可以证明：若从正态总体 N( , 2 )中，反复多次随机抽取样本含量固定为n 的样本，那么这些样本均数 X 也服从正态分布，即 X 的总体均数仍
• 解决办法：将原始得分换算成标准得分，得到得
分与均值的相对距离
20
u变换
u
X
绝对距离

21
u界值表
参考值范围（%） 80 90 95 99 单侧 0.84 1.28 1.64 2.33 双侧 1.28 1.64 1.96 2.58
22
统计推断
23
统计推断
• 估计：主要任务是找参数等于几
即 u 分布；
31
X 服从总体均数为、 2．若样本均数
2 N ( , ) ,则通总体标准差为 X 的正态分布 X
过同样方式的 u 变换( X
X
)也可将其转换为
标准正态分布 N(0, 12)，即 u 分布。
32
ν:自由度(degree of freedom, df)
33
36
u变换和 t 变换
u X
绝对距离

标准差
处理来自正态分布的个体值X时，计算标准得分
X u / n X t s/ n
处理样本均值时，计算标准得分
标准误
t变换，总体标准差未知
37
第三节总体均数的估计
一、参数估计
– 用样本统计量推断总体参数。
• 总体均数估计：
– 用样本均数（和标准差）推断总体均数。
4 lead 0 1 2 3
1
2
12
更大的数据
13
频数分布，直方图
14
正态分布及应用
15
正态分布曲线下的面积
.58 1 .96 -5 2 -4 -3 -2 -1
0
1.96 2 1 3
4 2.58 5
68 .3% 95 .0% 99 .0%
16
正态分布的两个参数
• 位置参数μ，形态参数σ
• 若固定σ，改变μ值，曲线沿着x轴平行移动，形态不变 • 若固定μ，σ越小，曲线越陡峭（瘦），反之，σ越大，曲线越平坦（胖）
17
正态分布应用：血红蛋白含量比较
问：男115g/L，女110g/L，谁更低？
• 假设：血红蛋白(Hb)： • 男性为120－160g/L， 140 g / L
– （1）t分布法
– （2）u分布法
41
第四节假设检验的一般步骤
假设检验基本思想及步骤
• 假设检验过去称显著性检验。它是利用小概
率反证法思想，从问题的对立面(H0)出发间
接判断要解决的问题(H1)是否成立。然后在
H0成立的条件下计算检验统计量，最后获得
P值来判断。
42
实例
例3-5 某医生测量了36名从事铅作业男性工人的血红蛋白含量，算得其均数为130.83g/L，标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L？ 130.83g/L ≠140g/L 原因： 1.可能是总体均数不同 2.是抽样造成的
50
若P ，按所取检验水准，拒绝 H 0 ，接受 H1 ，下“有差别”的结论。其统计学依据是，在 H 0 成立的条件下，得到现有检验结果的概率小于，因为小概率事件不可能在一次试验中发生，所以拒绝 H 0 。

e商务文档

计量资料统计分析

相关文档推荐：