当前位置：文档之家› 统计学--第六章-参数估计与假设检验

统计学--第六章-参数估计与假设检验

区别
与标准差的关系

首先，标准差和标准误都是变异指标，说明个体之间的变异用标准差，说明统计量之间
联系

的变异用标准误。其次，当样本含量不变时，标准差大，标准误亦越大，均数的标准误与标准差成正比。
sx
s n
t 分布
正态分布的标准化变化
若 X ~ N(μ,σ2) , 则
X

~ N (0,1) 。
t
sX
抽样
tn-3 tn-2 tn-1 tn 总体样本统计量
-tLeabharlann 0tｔ分布

例如，当 =10 ，单尾概率 =0.05 时，查表得单尾t0.05，10=1.812，则： P(t≤-1.812)=0.05 或P(t≥1.812)=0.05
0.05 -1.812 0 0.05 1.812
因 X ~ N ( , X ) ，则 z
2
X
X
~ N (0,1)。
从正态分布总体中1000次抽样的 z 值的分布(n=4)
.2
均数为 0.007559 标准差为 1.006294
Fraction
.15
.1
.05
0
-4
-3
-2
-1
0 z
1
2
3
4
t 分布的概念

实际工作中，总体方差未知。所以，用样本方差代替总体方差
-t ,v 0
单侧概率
单侧概率
P(t ≤ - t,)=，或P(t ≥ t,)=
t分布

统计学家将t分布曲线下的尾部面积（即概率P）与横轴t值间的关系编制了不同自由度下的t界值表（附表2）。

t界值表：横标目为自由度，纵标目为概率P。
t界值：表中数字表示当和P 确定时，对应的
.3
.2
.1
0 4.1 4.4 4.7 5 5.3 5.6 5.9
x
图
从正态分布N（5.00，0.502）总体中抽样样本均数的分布
结论2

X
的分布很有规律，围绕着，中间多，
两边少，左右基本对称;

样本均数的变异范围较之原变量的变异范围大大缩小；
中心极限定理(central limit theorem)
1 .9 .8 .7 Fraction .6 .5 .4
.3
.2 .1 0 2.5 2.8 3.1 3.4 3.7 4 4.3 4.6 4.9 5.2 5.5 5.8 6.1 6.4 6.7 7 7.3 7.6 7.9
图
从正态分布N（5.00，0.502）总体中抽样样本均数的分布
.5
.4
Fraction

t分布曲线下面积是有规律的
t分布曲线下面积规律
/2
1-
-t /2,v 0 t /2,v
/2
双侧概率
P(t≤- t/2,)+P(t≥t/2,)=，即P(-t/2,<t< t/2,)=1-
t分布曲线下面积规律
1-
t ,v -t ,v 0 t ,v
1-
二、标准误

例在某地随机抽查100名7岁男童，测得其身高的样本均数124cm，标准差4.6cm ，试估计其标准误
sx s n 4.6 100 0.46( cm )
标准误的用途

反映抽样误差大小标准误是表示样本均数变异程度

反映均数的可靠性
标准误越大，样本均数抽样误差就越大，用样本均数推断总体均数的可靠性就越差；
标准误越小，样本均数抽样误差就越小，用样本均数推断总体均数的可靠性就越好。

标准误可用于计算总体均数的可信区间，可用于有关总体均数的假设检验。
与样本含量的关系
sx s n
n 越大，均数的均数就越接近总体均数；
n 越大，变异越小，分布越窄；
与标准差的关系
1、意义上标准差描述个体值之间的变异，即观察值间的离散程度；而标准误是描述统计量的抽样误差，即样本统计量和总体参数的接近程度； 2、用途上标准差常用于表现观察值的波动范围；标准误常表示抽样误差的大小，误差小，样本均数与总体均数更接近。 3、与样本含量标准差是随着样本含量的增多，逐渐趋于稳定。标准误是随着样本含量的增多，逐渐减少。

表明：按 t 分布的规律，从正态分布总体中抽取样本含量为 n=11 的样本，则由该样本计算的 t 值大于等于 1.812 的概率为 0.05 ，或者小于等于 1.812的概率亦为0.05。
统计推断(statistical inference)
总体参数的估计
(parameter estimation)
不同样本统计量间的差别
抽样误差是不可避免的！控制其大小的最实际的办法是：增大样本量
均数的模拟试验
假设一个已知总体，从该总体中抽样，对每个样本计算样本统计量(均数、方差等)，观察样本统计量的分布规律－－抽样分布规律

正态分布总体偏三角分布总体均匀分布总体指数Ｆ分布总体双峰分布总体
结论：口腔癌患者发锌含量总体均数为 193.23～
321.87(g/g)(可信度为95%)。或：口腔癌患者发锌含量总体均数的 95 ％可信区间为： 193.23～321.87(g/g)。
均数之差的(1-)100%可信区间
例转铁蛋白含量
s 10.38 s 14.39
：n2=15, X 2 235.21,
记为：
X t ~ t( n 1) sX
t分布图形
f ( t)
=∞(标准正态曲线) =5
0.3
=1
0.2
0.1
-4
-3
-2
-1
0
1
2
3
4
图
自由度分别为1、5、∞时的t分布
t分布的特征

t 分布是一簇曲线，当 ν 不同时，曲线形状
不同；

单峰分布，以0为中心，左右对称；
当ν 逼近∞时，t分布逼近z分布，故标准正态分布是t分布的特例;
z 值的分布：
1-
/2 /2
-z/2
0
z/2
单一总体均数的可信区间
例随机抽取12名口腔癌患者，检测其发锌含量，得 X =253.05g/g
s X =27.18g/g
求发锌含量总体均数95％的可信区间。
区间估计：
P ( 2.201 t 2.201) 0.95
253.05 P(2.201 2.201) 0.95 27.18
抽样分布规律
μ = 5.0 σ = 0.5
x =5.04
S = 0.44
x =5.19
S =0.42
样本含量n =10 抽样次数m =100
x =5.03
S =0.52
.3
.2 Fraction
.1
0 2.5 2.8 3.1 3.4 3.7 4 4.3 4.6 4.9 5.2 5.5 5.8 6.1 6.4 6.7 7 7.3 7.6 7.9 x
假设检验
(hypothesis test)
参数的估计
点估计 (point estimation) 用随机样本的样本统计量直接作为响应总体参数估计值的方法，忽略抽样误差
区间估计(interval estimation)
按一定的概率或可信度(1-)用一个区间估计总体参数所在范围。这个范围称作可信度为1- 的可信区间(confidence interval, CI)，又称置信区间

样本均数的均数为 μ 样本均数的标准误为 x

n
二、标准误(standard error)
样本统计量的标准差称为标准误。样本均数的标准差称为均数的标准误。
均数的标准误表示样本均数的变异度
x

n
当总体标准差未知时，用样本标准差代替，
sx
s n
前者称为理论标准误，后者称为样本标准误。
值。
t界值表

表上阴影部分，表示t,以外的尾部面积占总面积百分数，即概率P。表中数据表示与确定时相应的t界值（critical value），常记为t, 。
t 分布表明，从正态分布总体中随机抽取的样本，由样本计算的t值接近0的可能性较大，远离0的可能性较小。 X
t1 t2 t3 t4
正常人：n1=12, X 271.89, 1
病人
问题：两组平均相差多少？
均数之差的(1-)100%可信区间问题：
正常组
1＝？
病人组
2＝？
1- 2 ＝？
均数: 271.89ug/dl 标准差: 10.28ug/dl
理论基础：t值的抽样分布
v＝11
P ( 2.201 t 2.201) 0.95
0.025
-2.201 0
0.025
2.201
可信区间(confidence interval)：
区间 193.23 ～ 321.87(g/g) 包含了总体均数，其
可信度(confidence level)为95%。
（一）从均数为、标准差为的正态总体中，独立随机抽取例数为 n 的样本，样本均数的分布服从正态分布； X ■样本均数的均数为 μ; ■样本均数的标准误 x

n
抽样分布示意图
抽样分布
中心极限定理
（二）从非正态 (non-normal) 分布总体 ( 均数为μ ，标准差为σ )中随机抽样(每个样本的含量为n)，可得无限多个样本，每个样本计算样本均数，则只要样本含量足够大 (n>50), 样本均数也近似服从正态分布。

e商务文档

统计学--第六章-参数估计与假设检验

相关文档推荐：