当前位置:文档之家› 统计学三大分布与正态分布的关系

统计学三大分布与正态分布的关系

统计学三大分布与正态分布的关系[1] 张柏林 41060045 理实1002班摘要:本文首先将介绍2χ分布,t 分布,F 分布和正态分布的定义及基本性质,然后用理论说明2χ分布,t 分布,F 分布与正态分布的关系,并且利用数学软件MATLAB 来验证之.1. 三大分布函数[2]1.12χ分布2()n χ分布是一种连续型随机变量的概率分布。

这个分布是由别奈梅(Benayme)、赫尔默特(Helmert)、皮尔逊分别于1858年、1876年、1900年所发现,它是由正态分布派生出来的,主要用于列联表检验。

定义:若随机变量12n ,,X X …X 相互独立,且都来自正态总体01N (,),则称统计量222212n =+X X χ++…X 为服从自由度为n 的2χ分布,记为22~()n χχ.2χ分布的概率密度函数为122210(;),2()200n xn x e x n f x n x --⎧≥⎪⎪=Γ⎨⎪⎪<⎩ 其中伽玛函数10(),0t x x e t dt x +∞--Γ=>⎰,2χ分布的密度函数图形是一个只取非负值的偏态分布,如下图.卡方分布具有如下基本性质:性质1:22(()),(())2E n n D n n χχ==;性质2:若221122(),()X n X n χχ==,12,X X 相互独立,则21212~()X X n n χ++;性质3:2n χ→∞→时,(n )正态分布; 性质4:设)(~22n αχχ,对给定的实数),10(<<αα称满足条件:αχχαχα==>⎰+∞)(222)()}({n dx x f n P的点)(2n αχ为)(2n χ分布的水平α的上侧分位数. 简称为上侧α分位数. 对不同的α与n , 分位数的值已经编制成表供查用.2()n χ分布的上α分位数 1.2t 分布t 分布也称为学生分布,是由英国统计学家戈赛特在1908年“student”的笔名首次发表的,这个分布在数理统计中也占有重要的位置.定义:设2~0~X N χ(,1),Y (n ),,X Y 相互独立,,则称统计量T =服从自由度为n 的t 分布,记为~()T t n .t 分布的密度函数为1221()2(;)(1),.(2nnxt x n tn n+-+Γ=+-∞<<+∞Γt分布的密度函数图t分布具有如下一些性质:性质1:()nf t是偶函数,22,()()tnn f t tϕ-→∞→=;性质2:设)(~ntTα,对给定的实数),10(<<αα称满足条件;ααα==>⎰+∞)()()}({ntdxxfntTP的点)(ntα为)(nt分布的水平α的上侧分位数. 由密度函数)(xf的对称性,可得).()(1ntntαα-=-类似地,我们可以给出t分布的双侧分位数,)()()}(|{|)()(2/2/2/αααα=+=>⎰⎰+∞-∞-ntntdxxfdxxfntTP显然有.2)}({;2)}({2/2/αααα=-<=>ntTPntTP对不同的α与n,t分布的双侧分位数可从附表查得.t分布的上α分位数1.3F 分布F 分布是随机变量的另一种重要的小样本分布,应用也相当广泛. 它可用来检验两个总体的方差是否相等,多个总体的均值是否相等. F 分布还是方差分析和正交设计的理论基础.定义:设22~(),~()X n Y m χχ,,X Y 相互独立,令则称统计量//X nF Y m=服从为第一自由度为n ,第二自由度为m 的F 分布.F 分布的密度函数图F 分布具有如下一些性质:性质1:若~(,),1/~(,)F F n m F F m n 则; 性质2:若)(~n t X ,则2~(1,)X F n ;性质3:设),(~m n F F α,对给定的实数),10(<<αα称满足条件;ααα==>⎰+∞),()()},({m n F dx x f m n F F P的点),(m n F α为),(m n F 分布的水平α的上侧分位数.F 分布的上α分位数F 分布的上侧分位数的可自附表查得.性质4:.),(1),(1m n F n m F αα-= 此式常常用来求F 分布表中没有列出的某些上侧分位数.1.4正态分布正态分布是数理统计中的一种重要的理论分布 ,是许多统计方法的理论基础. 高斯(Gauss )在研究误差理论时首先用正态分布来刻画误差的分布,所以正态分布又称为高斯分布. 正态分布有两个参数,μ和σ,决定了正态分布的位置和形态. 为了应用方便,常将一般的正态变量X 通过u 变换转化成标准正态变量u ,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布N (0,1). 正态分布的密度函数和分布函数若连续型随机变量X 具有概率密度()f x 为22()2(),,x f x x μσ--=-∞<<+∞其中,(0)μσσ>为常数,则称X 服从参数为μσ,的正态分布,记为2~()X N μσ,.正态分布的密度函数图特征1:正态曲线(normal curve )在横轴上方均数处最高;特征2:正态分布以均数为中心,左右对称;特征3:正态分布有两个参数,即均数μ和标准差σ. μ是位置参数,σ固定不变时,μ越大,曲线沿横轴越向右移动;反之,μ越小,则曲线沿横轴越向左移动. σ是形状参数,当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭. 通常用2N μσ(,)表示均数为μ,方差为2σ的正态分布. 用N (0,1)表示标准正态分布. 特征4:正态曲线下面积的分布有一定规律。

实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率. 正态曲线下一定区间的面积可以通过标准正态分布函数表求得。

对于正态或近似正态分布的资料,已知均数和标准差,就可对其频数分布作出概约估计.2. 三大分布与正态分布的密度函数比较[3]2.12χ分布收敛于正态分布 设2~()X n χ,则对任意x ,有2/2lim )xt n P x e dt --∞→∞≤=⎰.证明:因为 2()n χ分布的222111()()()()nnniii i i i E E x E x D x n χ=======∑∑∑22211()()()2n ni i i i D D x D x n χ=====∑∑所以由独立同分布中心极限定理得(0,1)Y N =→ 因为122/21~,0()22n x n Xx e x n -->Γ且y =所以x n = 因为()()Y X f y dy f x dx =所以11()22/21()()()22nnYndxf y n en dy--=+Γ=111()222/21(1)()22n nnnn en---令2n m=,利用Stirling公式:1m!,012mm m mm e emθθ-=⋅⋅<<则上式11())(1)m m mm e---+11())(1)m m mm e---+11())(1)m m mm e---+(1)1)mm e--+212yn-→∞−−−所以2χ分布的极限分布为正态分布.下面用MATLAB来验证上面结论,首先定义2()nχ分布函数和相应的正态分布(,2)N n n,再依次增大n,比较两者关系:[4]从上面三个图形可以看出,n 越大,2()n χ分布密度函数与正态分布(,2)N n n 度函数越接近,这就和所证结论相符合.2.2t 分布收敛于标准正态分布若n X 服从自由度为n 的t分布,2/2lim ()xt n n P X x e dt --∞→∞≤=(1)证法1:由于自由度为n 的t分布的概率密度函数为1221()2p(;)(1),()2n n x x n x n n +-+Γ+-∞<<+∞= 因此(1)式等价于2/2,x n x -→∞-∞<<+∞lim (2) 先利用Stirling公式:1m!,012m m m m m e e mθθ-=⋅⋅<<证明1()2()2n n n →∞+Γ=lim事实上,利用Γ函数的性质1132121().......()2222242222()......()2222n n n n k n k n n n k n k +---+-+ΓΓ=--+-+Γ21(1)(3)......(21)()2222)(4)......(22)()2n kn n n kn kn n n k-+---+Γ=-+---+Γ当2n k=时11()(21)(23)......1()2()2nk kn+Γ--⋅Γ==21221221()12())kk kkeke----≈-⋅2121222222(21)(1)22(1)kkkkkkekkeππ------=-⋅-⋅2111(1))22k nk e-=+⋅→→∞-当21n k=+时亦可推出同样的结果。

另外,由特殊极限公式可得221122()222lim(1)lim[(1)]n n xn xx nn nx xen n++∙---→∞→∞+=+=综合上诉,即证明(2)式所以,t分布的极限分布是正态分布.下面用MATLAB来验证上面结论,首先定义()t n分布函数和相应的正态分布(0,)2nNn-,再依次增大n,比较两者关系:从上面三个图形可以看出,n 越大,()t n 分布密度函数与正态分布(0,)2nN n -度函数越接近,这就和所证结论相符合.2.3F 分布收敛于标准正态分布 若//X mF Y n=服从为第一自由度为m ,第二自由度为n 的F分布,则2/2lim ()xt n n P X x e dt --∞→∞≤=.证明:m /m 1PY →∞−−→当时 所以/n LF X −−→因为222(/)1,(/)n E X n D X n n n=== 所以由中心极限定理,当→∞n(0,1)LN −−→ 所以F 分布的极限分布是正态分布.下面用MATLAB 来验证上面结论,首先定义(,)F m n 分布函数和相应的正态分布222(2)(,)2(2)(4)n n m n N n m n n +----,再依次增大n ,比较两者关系:从上面三个图形可以看出,n 越大,(,)F m n 分布密度函数与正态分布222(2)(,)2(2)(4)n n m n N n m n n +----度函数越接近,这就和所证结论相符合.在实际应用中我们往往在取得总体的样本后,通常是借助样本的统计量对未知的总体分布进行推断,为此须进一步确定相应的统计量所服从的分布,正态分布、 2()n χ分布、t 分布、F 分布是统计学最基本的四种分布,而2()n χ分布、t 分布和F 分布又都收敛于正态分布,可见正态分布在统计学中的地位. 实际上,χ分布、t分布和F分布收敛于正态分布的方法很多,本质上都是应用证明2()n了大数定理和中心极限定理.既然三大抽样分布都收敛于正态分布,则当样本容量很大时,就可以用正态分布来近似三大抽样分布. 本文主要还利用了计算机软件来验证数学上的理论证明,在现代数学学习中,我们是离不开计算机的,因此我们也应多学习一些软件的使用.参考文献:[1]XX学士学位论文. 统计学三大分布与正态分布的差异. 扬州大学.2010[2]范玉妹,汪飞星,王萍,李娜. 概率论与数理统计.机械工业出版社.2007[3] 宗序平,赵俊,陶伟. 统计学上三大分布推导方法.2009χ分布、t分布和F分布的近似计算. 2008[4] 王福昌,曹慧荣. 2()n[5]李贤平,沈崇圣,陈予毅.概率论与数理统计.复旦大学出版社.2005。

相关主题