抽样误差与假设检验
X t / 2, S X )
25
2.n较大(n>50)
(X
u
/ 2,
S X
,
X
u / 2,
S X
)
26
例4.2 某医生测得25名动脉粥样硬化患者血浆 纤维蛋白原含量的均数为3.32g/L,标准差为 0.57g/L,试计算该种病人血浆纤维蛋白原含量 总体均数的95%可信区间。
下限:X t /2, SX 3.32 2.064 0.57 / 25 3.08 上限:X t /2, SX 3.32 2.064 0.57 / 25 3.56
t分布的特征:
1、以0为中心,左右对称的单峰分布。 2、t分布曲线是一簇曲线,其形态变化与自由 度ν的大小有关系( ν =n-1)。
自由度越小,t分布的峰越低,而两 侧尾部翘得越高; 自由度逐渐增大时,t分布逐渐逼近 标准正态分布,当自由度为无穷大时, t分布就是标准正态分布。
21
为便于使用,统计学家编制了不同自由度ν对 应的t界值表。
在可信度确定的情况下,增加样本量,可减少区间长 度,提高精密度。
14
二、总体均数可信区间的计算 t分布是t检验的基础,亦称 student t检验,是计量资
料中最常用的假设检验方法。
戈塞特 (William Sealey Gosset)
英国著名统计学家。出生 于英国肯特郡坎特伯雷市,求 学于曼彻斯特学院和牛津大学, 主要学习化学和数学。
S S 0.38 0.032 (1012 / L) x n 140
10
第二节 总体均数的估计
一、可信区间的概念
1.统计推断(statistical inference)在总体中随机抽取一 定数量观察单位作为样本进行抽样研究,然后由样本信 息推断总体特征,这一过程称为统计推断。
统计推断
参数估计 假设检验
统计上用标准误来衡量抽样误差的大小!
8
由于在实际工作中,总体标准差σ往往未知,而是用样 本标准差S来代替σ,故只能求得样本均数标准误的估计 值S X ,其计算公式为:
估计
9
例 4.1 某市随机抽查成年男子140人, 得红细胞均数4.77×1012/L,标准差 0.38×1012/L,计算其标准误。
3
μ=155.4cm σ=5.3cm
XS
1. 156.7 5.16
2. 158.1 5.21
一 百
3. 155.6 5.32
个
样
本
99. 154.6 5.15
100. 156.6 5.25
4
抽样误差(smpling error)
这种由抽样造成的样本统计量与总体参数之间的差 异成为抽样误差.
总体
参数
15
1899年作为一名酿酒师进入爱尔兰的都柏林一家 啤酒厂工作,在那里他涉及到有关酿造过程的数据处 理问题。
由于酿酒厂的规定禁止戈塞特发表关于酿酒过程 变化性的研究成果,因此戈塞特不得不于1908年,首 次以“学生” (Student)为笔名,在《生物计量学》杂 志上发表了“平均数的概率误差”。Gosset在文章中 使用Z统计量来检验常态分配母群的平均数。由于这 篇文章提供了“学生t检验”的基础,为此,许多统计 学家把1908年看作是统计推断理论发展史上的里程碑。
率
不 本身存在差别
P<0.05
等 (来自不同总体)
32
二、假设检验的基本步骤
1.建立假设检验和确定检验水准
H0(无效假设):μ=μ0
H1(备择假设Leabharlann ):μμ≠<>μμμ00(0(单双侧侧检检验验)) α=0.05
检验水准:在实际工作中一般取0.05。 它确定了小概率事件的标准,即规 定了概率不超过α就是小概率事件。
该种病人血浆纤维蛋白原含量总体均数的 95%可信区间为3.09g/L~ 3.56g/L
27
例4.3 试计算例4.1中该地成年男子 红细胞总体均数的95%可信区间。
下限:X u /2, SX 4.77 1.96 0.38 / 140 4.71 上限:X u /2, SX 4.77 1.96 0.38 / 140 4.83
点估计 区间估计(可信区间)
11
2.参数估计(parameter estimation)是指由样本统计量 估计总体参数,是统计推断的一个重要内容。 (1)点估计(point estimation) 用样本统计量直接作为总体参数的估计值。 (2)区间估计(interval estimation)又称可信区间 (置信区间,CI) 按预先给定的概率,计算出一个区间,使它能够包含未 知的总体均数。
流行病与卫生统计学教研室
金英良
1
本章主要内容:
第一节 均数的抽样误差与标准误差 第二节 总体均数的估计 第三节 假设检验的意义和步骤
2
第一节 均数的抽样误差与标准误差
假定某年某地所有13岁女学生身高服从总体 均数μ=155.4cm,总体标准差σ=5.3cm的正态分布 N(155.4,5.32)。 随 机 抽 取 3 0 人 为 一 个 样 本 (n=30),并计算样本的均数和标准差,共抽取 100次,可以得到100份样本,每份样本可以计算 相应的均数和标准差。
16
随机变量X N(m,s2)
u变换
标准正态分布 N(0,12)
当总体均数与标 准差未知时
17
均数 X
N (, 2 n)
标准正态分布 N(0,12)
在实际工作中, 往往未知,常用 代替进行变换 ,即
不服从标准正态分布! 而服从自由度υ=n-1的t分布
18
f(t) =∞(标准正态曲线)
=5 =1
u
X
n
-1.96
P(1.96
X
1.96)
0.95
n
( X 1.96 , X 1.96 )
X
X
( X u / 2 X ,
X u / 2 X )
2.5%
+1.96
24
(二)σ未知
1.n较小(n<50)
P(t / 2,
X
S
-t 0
t / 2, ) 1
t
n
( X t / 2, S X ,
S=0.40kg
X 与μ0之间的差异(不相等),有两种可能: 1、 μ= μ0,仅因为用 X去估计μ时存在抽样误差, 所以导致了 与μX0之间的差异。 2、 μ与μ0本身就不相等,所以导致了 X与μ之间的 差异。
31
假设检验的基本原理:
两 抽样误差所致
P>0.05
均 (来自同一总体)
数 两
? 假设检验回答
k
2
X
n
6
原始 总体
μ
SAMPLE 1:x11 x12 x13 x14...x1n
SAMPLE 2:x21 x22 x23 x24...x2n
X1
X2
SAMPLE k:xk1 xk2 xk3 xk4...xkn
Xk
k个样本均数的频数分布图
7
标准误(standard error,SE)
样本均数的标准差。 它反映了来自同一总体的样本均数之间的离散程度以 及样本均数和总体均数的差异程度,即均数的抽样误差 的大小。
33
单、双侧检验
H1: μ≠μ0,双侧,μ<μ0与μ>μ0都有可能 H1: μ>μ0,单侧 H1: μ<μ0,单侧
例如:要比较经常参加体育锻炼的中学男生心 率是否低于一般中学男生的心率,就属于单侧 检验。
单双侧问题要由专业知识 确定
34
2.选择检验方法和计算统计量 根据资料的类型和分析目的选择适当的检验方法, 并根据选择的方法计算相应的统计量。 3.确定概率P值和作出统计推断
该地成年男子红细胞总体均数的95%可信 区间为4.71×1012/L~ 4.83×1012/L
28
第三节 假设检验的意义和步骤
一、假设检验的基本思想 “反证法”的思想 先根据研究目的建立假设,从H0假设出发,先假设它
是正确的,再分析样本提供的信息是否与H0有较大矛 盾,即是否支持H0,若样本信息不支持H0,便拒绝之 并接受H1,否则不拒绝H0 。
随机抽样
样本
统计量
只要有个体变异和随机抽样研究, 抽样误差就是不可避免的。
5
中心极限定理
若从正态总体N(μ, σ 2)中,反复多次随机抽取样本 含量固定为n的样本,那么这些样本均数 也服从正态 分布。样本均数 的X 总体均数仍为μ,样本均数的标准 差为 ,其计X 算公式为:
X
k i 1
Xi
t分布的用途:
主要用于总体均数的区间估计及t检验。
22
总体均数可信区间的计算方法,随总体标准差 s是否已知,以及样本含量n的大小而异。
通常有t分布和u分布两类方法:
s未知 且 n较小 (n<50)
但n足够大(n>50) s已知
按t分布 按u分布 按u分布
23
(一)σ已知
95%
2.5%
u变换公式:
0.3
0.2
0.1
-4 -3 -2 -1 0 1 2 3 4
t分布
19
皮肌炎图片——皮肌炎的症状表现
皮肌炎是一种引起皮肤、肌肉、 心、肺、肾等多脏器严重损害的, 全身性疾病,而且不少患者同时 伴有恶性肿瘤。它的1症状表现如 下:
1、早期皮肌炎患者,还往往 伴有全身不适症状,如-全身肌肉 酸痛,软弱无力,上楼梯时感觉 两腿费力;举手梳理头发时,举 高手臂很吃力;抬头转头缓慢而 费力。
29
例4.4 以往通过大规模调查已知某地新生 儿出生体重为3.30kg. 从该地难产儿中随机 抽取35名新生儿作为研究样本,平均出生 体重为3.42kg, 标准差为0.40kg。