当前位置:文档之家› 次序统计量与分布

次序统计量与分布


可以表述为“容量为 n 的样本 x1, x2, … , xn 中有 i-1 个观测值小于等于 y , 一个落入区间 ( y , y + y ] , j –i -1 个落入区间 ( y + y , z ] , 一个落入区间 ( z,
z+z ] ,而余下的 n—j 个大于 z + z ”
i-1
j
n! i 1)!(n
[F ( y)]i1[F (z) j)!
F ( y)] ji1
[1 F (z)]n j f ( y) f (z), a y z b
(5-3-6)
证明:对增量 y, z 以及 y < z , 事件
x(i) ( y, y y], x( j) (z, z z]
下面就通过一个具体的实例说明之。
例 5-3-4 :表 5—5 是某厂 160 名销售人员某月的销 售量数据的有序样本,由该批数据可计算得到:
xmin 45, xmax 319, m0.5 181, Q1 144, Q3 212
五数概括的图形表示称为箱线图,由箱子和线段组成。 图5-11 是该例中样本数据的箱线图,其作法如下
p1(x) n [F (x)]n1 p(x)
(5-3-5)
例 5-3-2 :设总体X 的密度函数为
p(x) 3x2, 0 x 1
现从该总体中抽得一个容量为 5 的样本,试计算
P( x( 2)

1) 2
解: 我们首先应求出 x (2) 的分布。由总体密度函数 不难求出总体分布函数为
p1,n ( y, z) n(n 1)(z y)n2 , 0 y z 1
令 R x(n) x(1) 由 R > 0 可以推出
0 x(1) x(n) R 1 R

pR (r)
1r n(n 1)[( y r) y]n2 dy
0
n(n 1)rn2 (1 r)
图 5-9
这里要注意到如下几个有用的事实。
1) 若 X ~ N (, 2 ) ,要求的分位数 xα, 可化成求
N ( 0, 1 )的分位数 .


P{X

x }
P{ X



x

}
此时, X ~ N (0,1)

x
u
从而
x u
(5-3-8)
2) 对于 T ~ t (n) ,由密度函数的对称性可知
P{T t (n)} P{T t (n)} 1 P{T t (n)} 1

t (n) t1 (n) (5-3-9)
3)对于 F—分布 F (n1, n2 )
由于
1 F
~
F (n2, n1)
X(2)
0
1
2
P 7/27 13/27 7/27
X(3)
0
1
2
P 1/27 7/27 19/27
可见这三个次序统计量的分布是不相同的。
进一步,我们可以给出两个次序统计量的联合分布, 如 x(1) 和 x(2) 的联合分布列为
x(2) x(1) 0
0 7/27
1 9/27
2 3/27
1
0
4/27
3/27
该分布参数为 ( n-1, 2 ) 的贝塔分布。
总体分位数与样本分位数
(一)总体分位数
定义5-3-2: 设总体 X 的分布函数为 F (x) ,满足
F (x ) P{X x } ,0 1
(5-3-7)
的 xα称为 X 的 α—分位数,如下图所示。
几种常用分布 (N (0,1), 2 (n),t(n), F(n1, n2)) 的分位数
考虑到 F (x) 的连续性,当 y 0, z 0 有 F ( y y) F ( y), F (z z) F (z)
于是
pij
(
y,
z
)

lim
y0,z0
P(
x(i
)

(
y,
y

y), x( yz
j
)

(
z,
z

z))

n!
[F ( y)]i1[F (z)
2
0
0
1/27
易于看出
P( x(1)

0)
P( x( 2)

0)

19 27

7 27
不等于
P( x(1)

0,
x(2)

0)

7 27
即 x(1) 和 x(2) 是不独立的。
次序统计量的分布
(一)单个次序统计量的分布
定理 5-3-1:设总体X的密度函数为 p (x) ,分布函数
为 F (x) ,x1, x2, …, xn 为样本,则第 k 个次序统计 量 x (k) 的密度函数为
§5.3 次序统计量及其分布
定义
定义 5-3-1: 设 X1, X 2 , , X n 为取自总体X的样本, 将其按大小顺序排序 X (1) X (2) X (n)
则称 X(k) 为第 k 个次序统计量( No.k Order Statistic)
特别地,称
X (1)

min
1in
Xi
(
x)

lim
x0
Fk
(ቤተ መጻሕፍቲ ባይዱ
x

x) x

Fk
(
x)

n!
[F (x)]k1 p(x)[1 F (x)]nk
(k 1)!(n k)!
推论1 :最大次序统计量 x (n) 的概率密度函数为
pn (x) n [1 F (x)]n1 p(x) (5-3-4)
推论2 :最小次序统计量 x (1) 的概率密度函数为
其分布函数为
F (x; ) 1 1 arctan(x ) 2
易知,θ是该总体的中位数,即 x ½ = θ.
设 X1, X 2, , X n 是来自该总体的样本,则
当样本容量 n 较大时,样本中位数 m 0.5 的渐近分布

m0.5
~
N


,
2
4n

五数概括与箱线图
k-1
1
n-k
x
x+x
图 5—8 x (k) 的取值示意图
样本的每一分量小于等于 x 的概率为 F (x) , 落入区
间 ( x , x + x ] 概率为F(x+ x)-F(x),落入区间 (x+
x, b]的概率为 1-F(x+x) ,而将 n 个分量分成这
样的三组,总的分法有
n!
(k 1)!1!(n k)!
都在书后附表中可以查到。其中 N ( 0, 1 )是分布函 数表Φ ( x ) 反过来查,而其它几个分布,则是分别 对给出 α 的几个的常用值如 α=0, 0.25, 0.05, 0.1, 0.9, 0.95, 0.975 等等,列出相应分布对应值的 α 分位点。 图 5-9 给出了四种常用分布的 α 分位点表示方法, 其中 N ( 0, 1 ) 的 α 分位点通常记成 uα .
次序统计量的应用之一就是五数概括与箱线图。在 得到有序样本后,容易计算如下五个值:
最小观测值 x min = x (1) ; 最大观测值 x max = x (n); 中位数 m 0.5 ; 第一 4 分位数 Q 1 = m 0.25 第三 4 分位数 Q3 = m 0.75 。 所谓五数概括就是指用这五个数来大致描述一批数 据的轮廓。
1 3
现从中抽取容量为 3 的样本,其一切可能取值有
33 27 种,现将它们以及由它们所构成的次序统
计量 X (1) , X (2) , X (3) 的一切可能值列在表中(P243), 由此可给出 X (1) , X (2) , X (3) 的分布列如下:
X(1)
0
12
P 19/27 7/27 1/27
于是
P( x( 2)

1) 2

1
2 60x5 (1 x3)3 dx
0
yx3
1
8 20 y(1 y)3 dy
1
20(
z3

z4
)dz
0
7 8
5(1 (7)4 ) 4(1 (7)5) 0.1207
8
8
(二)多个次序统计量的联合分布
仅讨论任意二个次序统计量的情形。
1
j-i-1
y
y+y
于是由多项分布得
1
n-j
z
z+z
P(x(i) ( y, y y), x( j) (z, z z)) pij ( y, z)yz

n!
[F ( y)]i1 f ( y)y
(i 1)!1!( j i 1)!(n j)!
[F (z) F ( y y)] ji1 f (z)z[1 F (z z)]n j
mp
~
N
xp
,
p(1 p) n[ f ( xp )]2

(5-3-13)
特别地,对样本中位数有


m1
2
~
N

x1
2
, n[
f
1 (x1
2
)]2

例5-3-2: 设总体 X 为柯西分布,其密度函数为
f
(x;
)

相关主题