经验分布函数及其应用
经验分布函数定义
定义:设12n x x x ⋯,,
,是总体(离散型、或连续型,分布函数F(x)未知)的n 个独立观测值,按大小顺序可排成12***n x x x ≤≤⋯≤ 。
若1**k k x x x +<< ,则不超过x 的观测值的频率为函数,就等于在n 次重复独立试验中事件{}x ξ≤的频率。
()110,=,,1,2,,1
1,k k n
n x x k x x x k n n
x x x F *
**+*⎧≤⎪⎪<≤=-⎨⎪>⎩*⎪…… 我们称此函数()n F x 为总体的经验分布函数或样本分布函数。
简单性质:
1.对于每一组观测值1,2,i i x i ξ*=*=,……,n ,()n F x *单调,非降,左
连续且在1,2,i x x i =*=,……,n 点有间断点,在每个点的跳跃值都是1
n 。
2.显然
()01n F x ≤≤,具有分布函数的其他性质。
3.()n F x *为样本12n x x x ⋯,,
,的函数,是一统计量,即为一随机变量,由于12n x x x ⋯,,
,相互独立且有相同的分布函数()F x ,
因而它等价于n 次独立重复试验的伯努利概型中事件{}x ξ≤发生k 次其余n k - 次不发生的额概率,即有:
{}{}()()1()k n k k k n n k P F x C F x F x n -⎧⎫==-⎨⎬⎩⎭
4.格列汶科定理
设总体ξ 的分布函数为()F x ,经验分布函数为
()n F x *,对于任何实
数x ,记 ()()sup n x n F x F x D -∞<<*+∞=-
则有lim 01n n P D →∞⎧⎫⎪⎪==⎨⎬⎪
⎪⎩⎭ 其中n D 也为一统计量用来衡量()n F x *与()F x 之间在所有的x 的值
上的最大差异程度,格列汶科定理证明了统计量n D 以概率为1地收敛于0,也就是如下所要说的经验分布函数的收敛性问题。
经验分布函数的收敛性
经验分布函数在统计中有着非常重要的作用, 是理论分布函数与实际数据间的桥梁, 本科教材中已经指出, 当样本容量足够大时, 经验分布函数依概率收敛于总体分布函数,所以, 统计推断才得以以样本为依据, 而得到合理的结果。
而事实上, 经验分布函数与总体分布函数还有更进一步的收敛关系, 下简单介绍之
我们采用R语言中ecdf(stats)函数,ecdf()所属R语言包:stats,
以下用的是采用数学方法画出经验分布函数的代码:
经验分布函数是一个随机变量,而经验分布函数的观测值就是普通意义上的分布函数,它具有分布函数的一切性质。