当前位置：文档之家› 第4讲抽样误差与t分布

第4讲抽样误差与t分布

u X n
t X X , v n1
S n SX
t变换
标准正态分布
N（0，12）
标准正态分布
N（0，12） Student t分布自由度ν=n-1
t X X , v n 1
ቤተ መጻሕፍቲ ባይዱ
Sn
SX
由W.S. Gosset提出
t= x- s/ n
对于不同的n,有不同的t分布曲线。 X
• 图中非阴影部分面积的概率为，
P(-t/2,<t<t/2,)=1-
第三章抽样误差与t分布
总体
抽取部分观察单位
样本
参数
统计推断
统计量
如：总体均数
总体标准差
如：样本均数 X 样本标准差S
在医疗卫生实践和医学研究中，往往难以对所要研究的总体进行全部观察，通常从总体中随机抽取样本进行观察，然后由样本的信息去推断总体特征，这种研究方法叫做抽样研究方法。
用样本的信息去推断总体特征，这种分析方法称为统计推断。
抽样误差产生的条件
• 抽样研究 • 个体变异
抽样误差的表现
样本均数和总体均数间的差别 Xi
样本均数和样本均数间的差别 Xi X j
抽样误差是不可避免的，可以通过保证总体的同质性及增大样本含量来缩小抽样误差。
抽样误差的规律性—正态分布抽样
从正态分布总体N（5.00,0.502）中，每次随机抽取样本含量n＝5，并计算其均数与
x 标准误 x = / n sx = s / n
n 100, 4.38cm
x
n
4.38 100
0.438cm
标准误的意义
反映了样本统计量（样本均数，样本率）分布的离散程度，体现了抽样误差的大小。
标准误越大，说明样本统计量（样本均数，样本率）的离散程度越大，即用样本统计量来直接估计总体参数越不可靠。反之亦然。
X 118.21cm s=4.45cm
X 120.81cm s=4.33cm
X 120.18cm s=4.90cm
三次抽样得到了不同的结果！！！！原因何在？？？？
No Variation! No Sampling Error!
如果没有个体变异……
如果没有抽样研究…… No Random sampling!
t分布曲线下面积规律
• t分布曲线下总面积仍为1或100% • t分布曲线下面积以0为中心左右对称 • 由于t分布是一簇曲线，故t分布曲线下面积固定
面积(如95%或99%)的界值不是一个常量，而是随自由度的大小而变化
• 其通式为
单侧：P(t≤-t,)=或P(t≥t,)= 双侧：P(t≤-t/2,)+P(t≥t/2,)=
标准误的大小与标准差有关，在例数n一定时，从标准差大的总体中抽样，标准误较大；而当总体一定时，样本例数越多，标准误越小。说明我们可以通过增加样本含量来减少抽样误差的大小。
用途：
(1)衡量样本均值的可靠性 (2)估计总体均值的可信区间 (3)用于均数的假设检验
随机变量X N（，2）
均数
u变换
自由度分别为1、5、 ∞时的 t 分布
f(t) =∞(标准正态曲线)
=5
0.3
=1
0.2
0.1
-4 -3 -2 -1 0 1 2 3 4
t分布的特征：
①t分布为一簇单峰分布曲线。
②t分布以0为中心，左右对称。
③t分布与自由度ν有关，自由度越小，t分布的峰越低，而两尾越高；自由度逐渐增大时，t分布逐渐逼近标准正态分布；当自由度为无穷大时，t分布就是标准正态分布。
n=5 5.00 0.50 4.99
n=10 5.00 0.50 5.00
n=30 5.00 0.50 5.00
均数标准差
0.2212 0.1580 0.0920
0.2236 0.1581 0.0913
3个抽样实验结果图示
n 5; SX 0.2212
n 10; SX 0.1580
n 30; SX 0.0920
从均数为，标准差为的正态总体中随机
抽取例数为n的样本，样本均数的总体均数
为，标准差为x
中心极限定理
标准误的定义
样本统计量（如均数）也服从一定的分布。
与描述观测值离散趋势的指标类似，样本统计量的标准差就反映了从某个总体中随机抽样所得样本之均数分布的离散程度。
用样本统计量的标准差来反映抽样误差的大小。又称标准误(standard error)。
非正态分布抽样
• 分别从各总体中抽取10000个样本含量为 n的样本，计算每个样本的均数，并绘制频数分布图。
• n分别取2、4、10、25。
偏三角分布抽样
均匀分布
指数分布
双峰分布
• 从正态总体中随机抽样，其样本均数服从正态分布；
• 从任意总体中随机抽样，当样本含量足够大时，其样本均数的分布逐渐逼近正态分布；
• 样本均数之均数的位置始终在总体均数的附近；
• 随着样本含量的增加，样本均数的离散程度越来越小，表现为样本均数的分布范围越来越窄，其高峰越来越尖。
从正态总体中随机抽取例数为n的样本，样本均数x也服从正态分布，即使从偏态总体中抽样，只要样本例数足够大，如n>50，样本均数x也近似正态分布。
基本手段
直接推断（参数估计）间接推断（假设检验）
总体参数的估计
• 均数的抽样误差 • t分布 • 总体均数的估计
• 假如事先知道某地七岁男童的平均身高为119.41cm。为了估计七岁男童的平均身高（总体均数），研究者从所有符合要求的七岁男童中每次抽取100人，共计抽取了三次。
μ＝119.41cm σ= 4.38cm
标准差；重复抽取1000次，获得1000份样本；计算1000份样本的均数与标准差，并对 1000份样本的均数作直方图。
按上述方法再做样本含量n＝10、样本含量n＝30的抽样实验；比较计算结果。
抽样试验（n=5）
抽样试验（n=10）
抽样试验（n=30）
1000份样本抽样计算结果
总体的总体标均数的均数准差均数
No Sampling Error!
• 三次抽样得到了不同的结果，原因何在？
不同男童的身高不同
每次抽到的人几乎不同
个体变异
随机抽样
抽样误差
【定义】由于个体变异的存在，在抽样研究中产生样本统计量和总体参数之间的差异，称为抽样误差（sampling error）。
各种参数估计都有抽样误差，这里我们以均数为研究对象

e商务文档

第4讲抽样误差与t分布

相关文档推荐：