当前位置:文档之家› 统计学--第六章-参数估计与假设检验

统计学--第六章-参数估计与假设检验


区 别
与标准差的关系

首先,标准差和标准误都是变异指标,说明 个体之间的变异用标准差,说明统计量之间
联 系

的变异用标准误。 其次,当样本含量不变时,标准差大,标准 误亦越大,均数的标准误与标准差成正比。
sx
s n
t 分布
正态分布的标准化变化
若 X ~ N(μ,σ2) , 则
X

~ N (0,1) 。
t
sX
抽样
tn-3 tn-2 tn-1 tn 总体 样本 统计量
-tLeabharlann 0tt分布

例如,当 =10 ,单尾概率 =0.05 时,查表 得单尾t0.05,10=1.812,则: P(t≤-1.812)=0.05 或P(t≥1.812)=0.05
0.05 -1.812 0 0.05 1.812
因 X ~ N ( , X ) ,则 z
2
X
X
~ N (0,1)。
从正态分布总体中1000次抽样的 z 值的分 布(n=4)
.2
均数为 0.007559 标准差为 1.006294
Fraction
.15
.1
.05
0
-4
-3
-2
-1
0 z
1
2
3
4
t 分布的概念

实际工作中,总体方差未知。所以,用样 本方差代替总体方差
-t ,v 0
单侧概率
单侧概率
P(t ≤ - t,)=,或P(t ≥ t,)=
t分布

统计学家将t分布曲线下的尾部面积(即概率P) 与横轴t值间的关系编制了不同自由度 下的t界 值表(附表2)。

t界值表:横标目为自由度 ,纵标目为概率P。
t界值:表中数字表示当 和P 确定时,对应的
.3
.2
.1
0 4.1 4.4 4.7 5 5.3 5.6 5.9
x

从正态分布N(5.00,0.502)总体中抽样样本均数的分布
结论2

X
的分布很有规律,围绕着 ,中间多,
两边少,左右基本对称;

样本均数的变异范围较之原变量的变异范围 大大缩小;
中心极限定理(central limit theorem)
1 .9 .8 .7 Fraction .6 .5 .4
.3
.2 .1 0 2.5 2.8 3.1 3.4 3.7 4 4.3 4.6 4.9 5.2 5.5 5.8 6.1 6.4 6.7 7 7.3 7.6 7.9

从正态分布N(5.00,0.502)总体中抽样样本均数的分布
.5
.4
Fraction

t分布曲线下面积是有规律的
t分布曲线下面积规律
/2
1-
-t /2,v 0 t /2,v
/2
双侧概率
P(t≤- t/2,)+P(t≥t/2,)=, 即P(-t/2,<t< t/2,)=1-
t分布曲线下面积规律
1-
t ,v -t ,v 0 t ,v
1-
二、标准误

例 在某地随机抽查100名7岁男童,测得 其身高的样本均数124cm,标准差4.6cm , 试估计其标准误
sx s n 4.6 100 0.46( cm )
标准误的用途

反映抽样误差大小 标准误是表示样本均数变异程度

反映均数的可靠性
标准误越大,样本均数抽样误差就越大,用样本 均数推断总体均数的可靠性就越差;
标准误越小,样本均数抽样误差就越小,用样本 均数推断总体均数的可靠性就越好。

标准误可用于计算总体均数的可信区间,可用于 有关总体均数的假设检验。
与样本含量的关系
sx s n
n 越大,均数的均数就越接近总体均数;
n 越大,变异越小,分布越窄;
与标准差的关系
1、意义上 标准差描述个体值之间的变异,即观察值间的离散程度; 而标准误是描述统计量的抽样误差,即样本统计量和总 体参数的接近程度; 2、用途上 标准差常用于表现观察值的波动范围; 标准误常表示抽样误差的大小,误差小,样本均数与总 体均数更接近。 3、与样本含量 标准差是随着样本含量的增多,逐渐趋于稳定。 标准误是随着样本含量的增多,逐渐减少。

表明:按 t 分布的规律,从正态分布总体中抽取 样本含量为 n=11 的样本,则由该样本计算的 t 值 大 于 等 于 1.812 的 概 率 为 0.05 , 或 者 小 于 等 于 1.812的概率亦为0.05。
统计推断(statistical inference)
总体参数的估计
(parameter estimation)
不同样本统计量间的差别
抽样误差是不可避免的! 控制其大小的最实际的办法是:增大样本量
均数的模拟试验
假设一个已知总体,从该总体中抽样,对每 个样本计算样本统计量(均数、方差等),观察 样本统计量的分布规律--抽样分布规律




正态分布总体 偏三角分布总体 均匀分布总体 指数F分布总体 双峰分布总体
结论:口腔癌患者发锌含量总体均数为 193.23~
321.87(g/g)(可信度为95%)。 或:口腔癌患者发锌含量总体均数的 95 %可信 区间为: 193.23~321.87(g/g)。
均数之差的(1-)100%可信区间
例 转铁蛋白含量
s 10.38 s 14.39
:n2=15, X 2 235.21,
记为:
X t ~ t( n 1) sX
t分布图形
f ( t)
=∞(标准正态曲线) =5
0.3
=1
0.2
0.1
-4
-3
-2
-1
0
1
2
3
4

自由度分别为1、5、∞时的t分布
t分布的特征

t 分布是一簇曲线,当 ν 不同时,曲线形状
不同;

单峰分布,以0为中心,左右对称;
当ν 逼近∞时,t分布逼近z分布,故标准正 态分布是t分布的特例;
z 值的分布:
1-
/2 /2
-z/2
0
z/2
单一总体均数的可信区间
例 随机抽取12名口腔癌患者,检测其发锌含 量,得 X =253.05g/g
s X =27.18g/g
求发锌含量总体均数95%的可信区间。
区间估计:
P ( 2.201 t 2.201) 0.95
253.05 P(2.201 2.201) 0.95 27.18
抽样分布规律
μ = 5.0 σ = 0.5
x =5.04
S = 0.44
x =5.19
S =0.42
样本含量n =10 抽样次数m =100
x =5.03
S =0.52
.3
.2 Fraction
.1
0 2.5 2.8 3.1 3.4 3.7 4 4.3 4.6 4.9 5.2 5.5 5.8 6.1 6.4 6.7 7 7.3 7.6 7.9 x
假设检验
(hypothesis test)
参数的估计
点估计 (point estimation) 用随机样本的样本统计量直接作为响应总体参 数估计值的方法,忽略抽样误差
区间估计(interval estimation)
按一定的概率或可信度(1-)用一个区间估计总体参 数所在范围。这个范围称作可信度为1- 的可信区 间(confidence interval, CI),又称置信区间

样本均数的均数为 μ 样本均数的标准误为 x

n
二、标准误(standard error)
样本统计量的标准差称为标准误。样本均数的标准 差称为均数的标准误。
均数的标准误表示样本均数的变异度
x

n
当总体标准差未知时,用样本标准差代替,
sx
s n
前者称为理论标准误,后者称为样本标准误。
值。
t界值表

表上阴影部分,表示t,以外的尾部面积占总面积百分数,即概率P。 表中数据表示 与确定时相应的t界值(critical value),常记为t, 。
t 分布表明,从正态分布总体中随机抽取的样本,由 样本计算的t值接近0的可能性较大,远离0的可能性较 小。 X
t1 t2 t3 t4
正常人:n1=12, X 271.89, 1
病人
问题:两组平均相差多少?
均数之差的(1-)100%可信区间 问题:
正常组
1=?
病人组
2=?
1- 2 =?
均 数: 271.89ug/dl 标准差: 10.28ug/dl
理论基础:t值的抽样分布
v=11
P ( 2.201 t 2.201) 0.95
0.025
-2.201 0
0.025
2.201
可信区间(confidence interval):
区间 193.23 ~ 321.87(g/g) 包含了总体均数,其
可信度(confidence level)为95%。
(一)从均数为、标准差为 的正态总体中, 独立随机抽取例数为 n 的样本,样本均数 的分布服从正态分布; X ■样本均数的均数为 μ; ■样本均数的标准误 x

n
抽样分布示意图
抽样分布
中心极限定理
(二)从非正态 (non-normal) 分布总体 ( 均数 为μ ,标准差为σ )中随机抽样(每个样本的含 量为n),可得无限多个样本,每个样本计算样 本均数,则只要样本含量足够大 (n>50), 样本 均数也近似服从正态分布。
相关主题