统计学三大分布与正态分布的关系[1]张柏林 41060045 理实1002班摘要:本文首先将介绍 2分布,t 分布,F 分布和正态分布的定义及基本性质, 然后用理论说明2分布,t 分布,F 分布与正态分布的关系,并且利用数学软件 MATLAB 来验证之.1.三大分布函数[2]1.1 2分布2(n )分布是一种连续型随机变量的概率分布。
这个分布是由别奈梅(Benayme )赫尔默特(Helmert )、皮尔逊分别于1858年、1876年、1900年所发 现,它是由正态分布派生出来的,主要用于列联表检验。
定义:若随机变量X 1,X 2,…X n 相互独立,且都来自正态总体 N (0,,),则称 统计量2=x ; X ;…+X ;为服从自由度为n 的2分布,记为2 2~ (n ).2分布的概率密度函数为1 xe 2 x 0Jx 0其中伽玛函数(X ) e t t x 1dt,x 0,2分布的密度函数图形是一个只取非负值的偏态分布,如下图•x 2 n2° f(x; n)2(n2) ,X!,X2相互独立,则X! X2~ 2g n2);性质3: n 时,2(n) 正态分布;性质4:设2~ 2(n),对给定的实数(0 1),称满足条件:P{ 2 2(n)} 2(、f(x)dx(n)的点2(n)为2(n)分布的水平的上侧分位数.简称为上侧分位数.对不同的与n,分位数的值已经编制成表供查分布,是由英国统计学家戈赛特在1908年“student的'笔名布在数理统计中也占有重要的位置.1), Y〜2(n), X,Y相互独立,,则称统计量T —XVY/ n分布,记为T~t( n).为性质1: E( 2(n)) n,D( 2(n)) 2n ; 性质2:若X! 2(nJ,X2t 分布具有如下一些性质:P{T t (n)} t (n )f (x )dx 的点 t(n)为 t( n)分布的水平的上侧分位数.由密度函数f(x) 的对称性,可得t 1 (n) t (n).类似地,我们 可以给出t 分布的双侧分位数t /2(n)P{|T|t /2( n)} f (x)dx t ,、f(x)dxt /2(n)显然有 P{T t /2(n)}-;P{T t /2 (n)}-.对不同的与n ,t 分布的双侧分位数可从附表查得.t 分布的上分位数t(x; n)士 (1J(”nt 分布的密度函数图t 2性质1 : f n (t)是偶函数,n,f n (t)性质2 :设T~t (n),对给定的实数(01),称满足条件;1.3 F分布F 分布是随机变量的另一种重要的小样本分布,应用也相当广泛.它可用来检验两个总体的方差是否相等,多个总体的均值是否相等• F分布还是方差分析和正交设计的理论基础.定义:设X〜2(n ),Y~ 2(m),X,Y相互独立,令则称统计量F 冬耳服Y/m 从为第一自由度为n,第二自由度为m的F分布.F分布的密度函数图F分布具有如下一些性质:性质1:若 F ~F(n,m),贝M/F 〜F(m,n);7性质2:若X ~t(n),则X2 ~ F(1,n);性质3:设F〜F (n,m),对给定的实数P{F F (n,m)} f(x)dxF (n,m)的点F (n,m)为F(n,m)分布的水平的上侧(0 1),称满足条件;艮個]T,叶1)分位数.F 分布的上分位数F 分布的上侧分位数的可自附表查得•性质4: F (m,n) 1 .此式常常用来求F 分布表中没有列出的某些上F i (n,m)侧分位数. 1.4正态分布正态分布是数理统计中的一种重要的理论分布 ,是许多统计方法的理论基础.高斯(GausS 在研究误差理论时首先用正态分布来刻画误差的分布,所以 正态分布又称为高斯分布.正态分布有两个参数,卩和(T,决定了正态分布的位 置和形态.为了应用方便,常将一般的正态变量X 通过u 变换转化成标准正态变量u ,以使原来各种形态的正态分布都转换为 正态分布的密度函数和分布函数若连续型随机变量X 具有概率密度f (x)为为,的正态分布,记为X ~ N( , 2).特征1:正态曲线(normal curve )在横轴上方均数处最高;卩=0 CT =1的标准正态分布N( 0, 1).,其中,(0)为常数,则称X 服从参数f(x)-3-2-10123正态分布的密度函数图特征2:正态分布以均数为中心,左右对称; 特征3:正态分布有两个参数,即均数 和标准差 越小,曲线越尖峭•通常用N( , 2)表示均数为 ,方差为 2的正态分布 用N( 0, 1)表示标准正态分布.特征4:正态曲线下面积的分布有一定规律。
实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的 例数占总例数的百分数(频数分布)或观察值落在该区间的概率•正态曲线下一定区间的面积可以通过标准正态分布函数表求得。
对于正态或近似正 态分布的资料,已知均数和标准差,就可对其频数分布作出概约估计•2.三大分布与正态分布的密度函数比较[3]2.1 2分布收敛于正态分布2(n),则对任意x ,有n m P (帶x)t 2/2dt证明:因为 nn2(n)分布的 E( 2) E( x 2)E(X j 2)i 1i 1D(X )i 1nD( 2) D( X i 2)i 1nD(x 2)2n所以由独立同分布中心极限定理得 Y X 」,N(0,1)v2n因为X ~n 1 x 2 2x 2e2,x(n)2n/2 2所以 x n •. 2ny 因为 f Y (y)dyf x (x)dx是位置参数, 固定不变时, 越大,曲线沿横轴越向右移动;反之, 越小,则曲线沿横 轴越向左移动是形状参数,当固定不变时,越大,曲线越平阔;n 1所以 f Y (y)1—(n 、,2Hy)21e*n 旳(尹2n1n 2 (1 ,2n (-)2n/222 占1 ;(n •阿 y)y)2 e 2 n■. 4m(m 1)!2m(2m)m1(1所以2分布的极限分布为正态分布.F 面用MATLAB 来验证上面结论,首先定义 2(n)分布函数和相应的正态分布令n 2m ,利用Stirling 公式 m! , 2 m m m e m e m,0m1 12m则上式 ^4^(2m)m1(1I .m 1 (m . my)■my) edx dy4m.2 m m ^ e m e m:心八(m , my)m(1: IEm 1m(1em 1eN(n,2n),再依次增大n ,比较两者关系:⑷从上面三个图形可以看出,n 越大,2 3 4(n)分布密度函数与正态分布N(n,2n)度函 数越接近,这就和所证结论相符合•2.21分布收敛于标准正态分布证法1:由于自由度为n 的t 分布的概率密度函数为 (n 1) () x 2 Up(x; n)= .(1 —) 2X (n ) n(□)2因此(1)式等价于lim p(x;n)二 一一 en24 利用函数的性质先利用 Stirling 公式:m! 、、2 m m mem,01 12m若X n 服从自由度为n 的t 分布,n im P(X n x)t 2/2tdt(1)x 2/2(2)(2丿1(卫2k 1) n 1 n 3 n 2k 1 n2 . 2 …… 2( 2一n 2 n 4 n 2k 2 n 2k 2 n ( ........ )2 2 2 2证明limn事实上,n 2k 1(n 1)(n 3)……(n 2k 1) (n ;、 2、、n (n 2)(n 4)……(n 2k 2)(n ? 2 当n 2k 时1(2k 1)(2k 3)……1 (卫 2、.2k(2k 2)(2k 4)……2 ⑴1)2k 1 e2忌 22k 2 2 (k 1) (k 2k)2e2k 1 1 严 1 1 / 2k (1 亍)e 』n2k 1时亦可推出同样的结果。
综合上诉,即证明(2)式 所以,t 分布的极限分布是正态分布•F 面用MATLAB 来验证上面结论,首先定义t (n )分布函数和相应的正态分布1)!厂 (2 k 2、2k22k2((k 1)!)2、不药刁(心)2k1广e 2 2k 22k 2 C.2(k 1)i )2e22厂1另外, 由特殊极限公式可得lim(1nn 1 ~2~n2 n x _ lim[(1 )x 「] nnn 1 x 2x 22 ?( ) x 2 n 22] e数越接近,这就和所证结论相符合•2.3F分布收敛于标准正态分布证明:当m 时Y/m P1所以F L X /n所以F分布的极限分布是正态分布.F面用MATLAB来验证上面结论,首先定义F(m, n)分布函数和相应的正态分2卄n 2n (m n 2) 古八、-叶丄布N( , 2),再依次增大n 2 m(n 2) (n 4)n 2若F竽m服从为第一自由度为m,第二自由度为n的F分布,则n im P(X n x) L X t2/2e dt.因为E(X/n) 1,D(X/n) 2n~~2 n所以由中心极限定理,当时L N(0,1)2n,比较两者关系从上面三个图形可以看出,n 越大,F(m, n)分布密度函数与正态分布在实际应用中我们往往在取得总体的样本后,通常是借助样本的统计量对未知的总体分布进行推断,为此须进一步确定相应的统计量所服从的分布,正态分布、 2(n)分布、t 分布、F 分布是统计学最基本的四种分布, 而2(n)分布、t 分布和F 分布又都收敛于正态分布,可见正态分布在统计学中的地位.实际上, 证明2(n)分布、t 分布和F 分布收敛于正态分布的方法很多,本质上都是应用 了大数定理 2n 2(m n 2)2 2 m(n 2) (n 4))度函数越接近,这就和所证结论相符合和中心极限定理.既然三大抽样分布都收敛于正态分布,则当样本容量很大时,就可以用正态分布来近似三大抽样分布. 本文主要还利用了计算机软件来验证数学上的理论证明,在现代数学学习中,我们是离不开计算机的,因此我们也应多学习一些软件的使用.参考文献:[1] XX学士学位论文.统计学三大分布与正态分布的差异.扬州大学.2010[2] 范玉妹,汪飞星,王萍,李娜. 概率论与数理统计. 机械工业出版社.2007[3] 宗序平,赵俊,陶伟. 统计学上三大分布推导方法.2009[4] 王福昌,曹慧荣.2(n)分布、t分布和F分布的近似计算.2008[5] 李贤平,沈崇圣,陈予毅. 概率论与数理统计. 复旦大学出版社. 2005。