当前位置:文档之家› 医学统计学第4讲抽样误差与t分布-45页文档资料

医学统计学第4讲抽样误差与t分布-45页文档资料


tXX, vn1
S n SX 由W.S. Gosset提出
t= x- s/ n
对于不同的n,有不同的t分布曲线。 X (n-1)称为 t分布的自由度
自由度分别为1、5、 ∞时的 t 分布
f(t) =∞(标准正态曲线)
=5
0.3
=1
0.2
0.1
-4 -3 -2 -1 0 1 2 3 4
t分布的特征:
0
0
50
50
100
100
Байду номын сангаас
150
150
200
200
频数 频数
250
250
n10;SX0.1580
400 350 300
n5;SX 0.2212
400 350 300
450
450
3个抽样实验结果图示
非正态分布抽样
• 分别从各总体中抽取10000个样本含量为 n的样本,计算每个样本的均数,并绘制 频数分布图。
n=5 5.00 0.50 4.99
n=10 5.00 0.50 5.00
n=30 5.00 0.50 5.00
均数标准差
Sn
0.2212
0.1580 0.0920
n
0.2236 0.1581 0.0913
均数
0
50
100
频数
3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
基本手段
直接推断(参数估计) 间接推断(假设检验)
总体参数的估计
• 均数的抽样误差 • t分布 • 总体均数的估计
抽样误差的定义
• 假如事先知道某地七岁男童的平均身高为119.41cm。为了 估计七岁男童的平均身高(总体均数),研究者从所有符 合要求的七岁男童中每次抽取100人,共计抽取了三次。
统计推断
总体
抽取部分观察单位
样本
参数
统计推断
统计量
如:总体均数
总体标准差
如:样本均数 X 样本标准差S
在医疗卫生实践和医学研究中,往往难以对所要 研究的总体进行全部观察,通常从总体中随机抽 取样本进行观察,然后由样本的信息去推断总体 特征,这种研究方法叫做抽样研究方法。
用样本的信息去推断总体特征,这种分析方法称 为统计推断。
抽样误差产生的条件
• 抽样研究 • 个体变异
样本均数和

总体均数间

的差别 X i




样本均数和

样本均数间
的差别 X i X j
抽样误差是不可避免的,可以通过保证总体 的同质性及增大样本含量来缩小抽样误差。
抽样误差的规律 性—正态分布抽样
从正态分布总体N(5.00,0.502)中,每 次随机抽取样本含量n=5,并计算其均数与
标准差;重复抽取1000次,获得1000份样本 ;计算1000份样本的均数与标准差,并对 1000份样本的均数作直方图。
按上述方法再做样本含量n=10、样本含 量n=30的抽样实验;比较计算结果。
抽样试验(n=5)
抽样试验(n=10)
抽样试验(n=30)
1000份样本抽样计算结果
总体的 总体标 均数的 均数 准差 均数
μ=119.41cm σ= 4.38cm
X 118.21cm s=4.45cm
X 120.81cm s=4.33cm
X 120.18cm s=4.90cm
三次抽样得到了不同的结果!!!! 原因何在????
No Variation! No Sampling Error!
如果没有个体变异……
如果没有抽样研究…… No Random sampling!
• n分别取2、4、10、25。
偏三角分布抽样
均匀分布
指数分布
双峰分布
• 从正态总体中随机抽样,其样本均数服从正 态分布;
• 从任意总体中随机抽样,当样本含量足够大 时,其样本均数的分布逐渐逼近正态分布;
• 样本均数之均数的位置始终在总体均数的附 近;
• 随着样本含量的增加,样本均数的离散程度 越来越小,表现为样本均数的分布范围越来 越窄,其高峰越来越尖。
用途:
(1)衡量样本均值的可靠性 (2)估计总体均值的可信区间 (3)用于均数的假设检验
t分布
随机变量X N(,2)
u X
u变换
均数 X
N(, 2) x
u X n
tXX, vn1
S n SX
t变换
标准正态分布
N(0,12)
标准正态分布
N(0,12) Student t分布 自由度ν=n-1
No Sampling Error!
• 三次抽样得到了不同的结果,原因何在?
不同男童的 身高不同
每次抽到的 人几乎不同
个体变异
随机抽样
抽样误差
【定义】由于个体变异的存在,在抽 样研究中产生样本统计量和总体参数 之间的差异,称为抽样误差 (sampling error)。
各种参数估计都有抽样误差,这里我们以 均数为研究对象
中心极限定理
从正态总体中随机抽取例数为n的样本,样 本均数x也服从正态分布,即使从偏态总体 中抽样,只要样本例数足够大,如n>50, 样本均数x也近似正态分布。
从均数为 ,标准差为的正态总体中随机
抽取例数为n的样本,样本均数的总体均数
为 ,标准差为x
中心极限定理
标准误的定义
样本统计量(如均数)也服从一定的分布。
与描述观测值离散趋势的指标类似,样本统 计量的标准差就反映了从某个总体中随机抽 样所得样本之均数分布的离散程度。
用样本统计量的标准差来反映抽样误差的大 小。又称标准误(standard error)。
x 标准误 x = / n sx = s / n
n100,4.38cm
x
4.380.438cm
n 100
标准误的意义
反映了样本统计量(样本均数,样本率)分布的 离散程度,体现了抽样误差的大小。
标准误越大,说明样本统计量(样本均数,样本率) 的离散程度越大,即用样本统计量来直接估计总体 参数越不可靠。反之亦然。
标准误的大小与标准差有关,在例数n一定时,从 标准差大的总体中抽样,标准误较大;而当总体一 定时,样本例数越多,标准误越小。说明我们可以 通过增加样本含量来减少抽样误差的大小。
①t分布为一簇单峰分布曲线。
150
200
250
300
n30;SX0.0920
450 400 350
均数
均数
3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
相关主题