生物统计学-抽样分布
1.样本均数的分布
1)样本均数的抽样分布(标准差已知)- u分布 正态总体抽得的样本平均数的分布
非正态总体抽得的样本平均数的分布
样本量小,不是正态分布 随着样本含量的增大(如 n > 50),接近于正态分 布,并且变异性逐渐缩小
x x 2 2 n或 x
n
样本均数具有规律,容易掌握!
n
每个均数大小不同, 并与总体不同 (抽样误差) 均数分布具有一定的特点:单峰, 对称 随着样本量的增大, 样本平均数的分布的方差越来越小。
理论上:
若随机变量X ~N (μ,σ2 ),(x1,x2,x3,…,xn ),则:样本 平均数服从平均数为 μ,方差为σ2/n 的正态分布: X~N (μ, σ2/n )
1.样本均数的抽样分布
1)样本均数的抽样分布(标准差已知)-u分布 正态总体抽得的样本平均数的分布
实验1:
假定某年某地所有13岁女学生身高服从总体均数为155.4cm, 总体标准差5.3cm的正态分布。 在总体中随机抽样,每次均抽取30例组成一份样本,共抽取
100份,得到的均数分别为:
153.6, 153.9, 154.1……
x x tu σ σ sx s/ n
2)样本均数的抽样分布(标准差未知)- t分布
与正态分布相似,t分布为单峰, 0为中心, 左右对称 与正态分布相比,t分布的离散度较大,顶部偏低,尾部偏高, 尤其是自由度小的t分布更为明显 t分布是一簇曲线,分布曲线是一簇曲线,其形态变化与自由度 的大小有关
抽样误差(sampling error)
2. 抽样分布
如果从容量为N 的有限总体抽样,若每次抽取容量为n 的样本, 那么一共可以得到 N’个样本(所有可能的样本个数)。抽样所 得到的每一个样本可以计算一个平均数,全部可能的样本都被 抽取后可以得到N’个平均数。
如果将抽样所得到的所有可能的样本平均数集合起来便构成一
x x 2 2 n或 x
标准差 (standard deviation, SD): 标准误 (standard error of mean, SEM
n
n
standard error):
x
样本均数的标准差 (导出量的标准差)
1.样本均数的抽样分布
1)样本均数的抽样分布(标准差已知)- u分布 正态总体抽得的样本平均数的分布
在重复选取容量为 n 的样本时,由样本方差的所有可
能取值形成的相对频数分布
对于来自正态总体的简单随机样本,则比值
(n 1) s 2
的抽样分布服从自由度为 (n -1) 的2分布,即
(n 1) s 2 ~ 2 (n 1)
2
2
2分布的特点
分布的变量值始终为正 分布的形状取决于其自由度 df 的大小,通常为不对 称的正偏分布,但随着自由度的增大逐渐趋于对称
第四章 抽样分布
一. 研究抽样分布的意义 二. 从总体中抽取样本统计量的分布
一.研究抽样分布的意义
1. 总体与样本的关系
总体 → 样本:(一般 → 特殊)
主要研究所抽取样本的分布亦即变异特点。 ………[抽样分布]
样本 → 总体:(特殊
→
一般)
主要从样本的结果去推断原来总体的结果。 ………[统计推断]
2 2 df1 s1 df2 s2
df1 df2
(
1 1 ) df1 1 df 2 1
df1 n1 1, df2 n2 1
t df 1 df 2
( y1 y 2 ) ( 1 2 )
2 2 df1 s1 df2 s2
df1 df2
(
总体
ቤተ መጻሕፍቲ ባይዱ
……
随机样本1 2 3 无穷个样本
样本可以代表总体,但是又不能完全代表总体
抽样误差
2. 抽样分布
从一个总体按一定的样本容量随机地抽出所有可能的样本,由这 些样本计算出的统计量(如 χ 和s2)必然形成一种分布(亦即一 个新的总体),这种分布称为该统计量的随机抽样分布或抽样分 布。
x1
μ x2 x3
1)样本均数的抽样分布(标准差已知)-u分布 正态总体抽得的样本平均数的分布
非正态总体抽得的样本平均数的分布
2)样本均数的抽样分布(标准差未知)-t分布 正态总体抽得的样本平均数的分布 非正态总体抽得的样本平均数的分布 3)样本均数和与差的分布 标准差已知 –u分布 标准差未知 –t分布 2. 样本方差的抽样分布 1)样本方差的抽样分布 - χ2分布 2)样本标准差的抽样分布-F分布
1 1 ) df1 1 df 2 1
df1 n1 1, df2 n2 1
tdf 1 df 2
( y1 y 2 ) ( 1 2 )
2 2 ( n1 1) s1 ( n2 1) s2 1 1 ( ) n1 n2 2 n1 n2
df1 n1 n2 2
非正态总体抽得的样本平均数的分布
Mean Medium Sd Skew kurtosis
实验2:
Mean Medium Sd Skew kurtosis
N=5, 抽样:1000次
偏斜度(skewness):度量数据围绕众数呈不对称的程度
m3 g1 3/ 2 m2
m2
( y y) n
12
n1
2 2
n2
3)来自两个总体的样本均数的和与差的分布 标准差未知 σ1 和 σ2 未知, s1和s2分别代替 σ1 和 σ2
两个样本为正态分布
σ1 = σ2
y1 y2
服从
df1 df2
的 t 分布:
t df 1 df 2
( y1 y 2 ) ( 1 2 )
课后作业
1. 用下面的例子 , 通过计算理解均数抽样分布特点 : 假设有 一个有限总体,包括1,2,3三个数字,那么进行抽样,每次抽 取2个样本,抽样分布如何?每次抽取4个样本,抽样分布如 何?每次抽取8个样本,抽样分布如何?根据所得结果,发现 随着样本量的增大 , 分布有何变化趋势 , 并计算各种抽样 分布的参数,与原始分布的参数进行比较. (思考题)
1.样本均数的分布
2)样本均数的抽样分布(标准差未知)-t分布 非正态总体抽得的样本平均数的分布 随着样本含量的增大,样本均数的分布接近于 正态分布的进度较慢
3) 来自两个总体的样本均数的和与差的分布 标准差已知
且 y1 与 y2 相互独立,由这两个正态总体中抽样(无论样本容量 设y1 ~ N( μ1, σ12 ) ,y2 ~ N( μ2, σ22 ),
2. 样本方差的分布- 2分布 ( 2 distribution)
1)单个样本方差的2分布
2分布的图示
正态 总体
选择容量为n 的 简单随机样本 计算样本方差s2
n=1 n=4 n=10
不同容量样本的抽样分布
计算卡方值
n=20
2 = (n-1)s2/σ2
2
计算出所有的
2值
2分布的定义
2)样本均数的抽样分布(标准差未知)- t分布
正态总体抽得的样本平均数的分布
从正态总体抽样,σ未知时,所得的样本平均数 x 服从t分布 (student t distribution, W.S.Goesst 1908),
x x t sx s/ n
0
X~N (μ, σ2/n )
f(t) n=5 n=3 t
可加性:若U和V为两个独立的2分布随机变量,
U ~ 2(n1), V ~ 2(n2), 则 U +V 这一随机变量服
从自由度为n1+n2的2分布
2) 两个样本方差比的分布-F分布 (Fisher)
设:从两个正态总体 N1 (μ1,σ12)和 N2 (μ2,σ22)中随机抽取样本容量为n1和n2的独 立样本,σ1和σ2可以相等或者不等,标准化的样本方差为s12/σ12和s22/σ22
df
受自由度 df影响 df增大, f(t) 减小 n无穷大, 为正态分 布
df
单侧t0.05,9=1.833
双侧t0.05/2,9=2.262
=单侧t0.025,9 单侧t0.01,9=2.821 双侧t0.01/2,9=3.250 =单侧t0.005,9 双侧t0.05/2,∞=1.96 =单侧t0.025,∞ 单侧t0.05,∞ =1.64
随着样本含量的增大,接近于正态分布
当自由度df >30时,t分布曲线就比较接近正态分布曲线; 当df →+∞时则和正态分布曲线重合 (最瘦高)
f (x)
0.5 0.4 0.3 0.2 0.1 0
x 0 1 2 3 4
-4
-3
-2
-1
正态分布曲线与t分布曲线的比较 (—— t分布,----正态分布)
t分布 (t-distribution) t分布表 p329
n1、n2多大),则样本平均数之差( y1 y2)服从正 态分布: y1 y2 ~ N (μ , σ2 y y )
y1 y2
1 2
且总体参数有如下关系:
μ σ2
y1 y2
=μ1 ± μ2
12
n1
22
n2
y1 y2
u
( y1 y 2 ) ( 1 2 )
2. 从正态总体和非正态总体抽样,样本均数服从什么分布? 3. t分布与正态分布有何区别和联系?其分布特征是什么? 它的极限分布是什么?
2
m3
3 ( y y )
n
g1 > 0 , 正偏;g1 < 0 , 正偏;