第五章大数定律和中心极限定理第5章概述大数定律和中心极限定理就是使用极限方法研究大量随机现象统计规律性.阐明大量重复试验的平均结果具有稳定性的一系列定律都称为大数定律.论证随机变量(试验结果)之和渐进服从某一分布的定理称为中心极限定理.切比雪夫不等式证明222(), (),,{}.X E XμD XσεσP Xμεε= =-≥≤定理设随机变量具有数学期望方差则对于任意正数不等式成立对连续型随机变量的情况来证明.(),X f x设的概率密度为则有.}{22εσεμX P ≤≥-221()()x μf x dx ε∞-∞≤-⎰.122σε=22()x μεx μf x dxε-≥-≤⎰22}{εσεμX P ≤≥-.1}{22εσεμX P -≥<-⇔得}{εμX P ≥-()x μεf x dx -≥=⎰定理说明,由随机变量的数学期望和方差,也可以对随机变量取值的统计规律提供一些信息.例1 在每次试验中,事件A 发生的概率为0.5.(1)利用切比雪夫不等式估计在1000次独立试验中,事件A 发生的次数在400 ~600之间的概率;(2)要使A 出现的频率在0.35 ~0.65之间的概率不小于0.95, 至少需要多少次重复试验?解: 设X 表示1000次独立试验中事件A 发生的次数,则X ~B (1000,0.5),E (X )=1000⨯0.5=500,D (X )=1000⨯0.5⨯0.5=250,{}400600P X <<{}{}400500500600500|()|100P X P X E X =-<-<-=-<由切比谢夫不等式得(2)设需要做n 次独立试验, 则X ~B (n , 0.5), 求n 使得0.350.650.95X P n ⎧⎫<<≥⎨⎬⎩⎭22()250110.975100100D X ≥-=-={}{}95.015.05.05.065.05.05.035.065.035.0≥<-=-<-<-=⎭⎬⎫⎩⎨⎧<<n n X P n n n X n n P n X P {}2.222,95.09.011)15.0(25.01)15.0(115.05.022≥≥--=-≥<-n nn nn DX n n X P 只要成立,由切比谢夫不等式得故至少需要做223次独立试验.},,n X με-≥若存在某常数,,,1n nn X Y n μσ=∑相互独立,且具有相同的数学期望和相同的方差个随机变量的算术平均:1,,,2,n i X Y ==∑相互独立同分布,个变量的和的标准化变量为:(1)A np x np p -≤-,,,n X 相互独立同分布12,A n n X X X =+++16,,,X i X ,大数定律—概率论中有关阐明大量随机现象平均结果的稳定性的一系列定理。
迄今为止,人们已发现很多大数定律(laws of large numbers)所谓大数定律,简单地说,就是大量数目的随机变量所呈现出的规律,这种规律一般用随机变量序列的某种收敛性来刻画。
第一节大数定律},,n X με-≥定义若存在某常数,,,1n nn X Y n μσ=∑相互独立,且具有相同的数学期望和相同的方差个随机变量的算术平均:1.伯努利大数定理lim {||}1nn P p nμε→∞-<=,,0,n E n A p A με>定理设试验重复进行了次事件在每次实验中出现的概率为表示事件发生的次数,则对任意有证明:~(,),n b n p μ因为(),()(1)n n E np D np p μμ==-故21(1)(),()()nnn p p E p D D nnn nμμμ-===从而2{||}1DXP X EX εε-<≥-由切比雪夫不等式,lim ()1nn P p nμε→∞-<=从而22()(1)()11nnD p p n P p nnμμεεε--<≥-=-n →∞令2(1)11p p nε--→●伯努利大数定律说明了当重复独立试验次数n 很大时,频率与其概率之差可为任意小,即说明了其频率的稳定性。
从而在实际推断中,当试验次数较大时,可以用事件发生的频率来近似代替概率。
1,(1,2)0i i A X i n i A ⎧==⎨⎩第次实验中事件发生若记,第次实验中事件不发生1,nn i i X μ==∑则11,n ni i X n n μ==∑1111()(),n ni i i p P A E X n n ====∑∑从而定理可写成:1111lim ()1n ni i n i i P X E X n n ε→∞==⎧⎫<=⎨⎬⎩⎭∑∑-2.切比雪夫大数定律1211,,()(1,2)0,11lim (())1ni n ni i n i i X X X c D X c i P X E X n n εε→∞==≤=>-<=∑∑设相互独立的随机变量序列的数学期望与方差都存在,且存在常数,使得,则对任意有211111111(())1n n n i i i i i i P X E X D X n n n εε===⎛⎫≥-<≥- ⎪⎝⎭∑∑∑21cn ε≥-证明:由期望与方差的性质知1111()()n ni i i i E X E X n n ===∑∑11()n i i D X n =∑211()ni i D X n==∑21nc n ≤⋅c n=利用切比雪夫不等式,1111lim (())1n ni i n i i P X E X n n ε→∞==-<=∑∑所以●切比雪夫大数定律表明,当n 很大时,X 1,X 2 ,…,X n 的算术平均值∑==ni iX n X 11的取值,集中在其数学期望11()()ni i E X E X n ==∑附近。
121,,()(),1lim ()1ni i ni n i X X X E X D X P X n μσεμε→∞=-<=∑2推论设随机变量序列相互独立,且具有相同的期望和方差:=,=则对任意正数,有这使我们关于算术平均值的法则有了理论上的依据。
12,,,n X X X 由大数定律知,只要n 充分大,则以接近于1的概率保证这便是在n 较大情况下反映出的客观规律,故称为“大数”定律如我们要测量某段距离,在相同条件下重复进行n 次,得n 个测量值,它们可以看成是n 个相互独立的随机变量具有相同的分布、相同的数学期望μ和方差,2σ∑=≈ni iX n 11μ例212,,nξξξ设随机变量序列相互独立具有如下分布列n ξPna-0na212n 211n-212n .问是否满足切比雪夫大数定律解:由题意12,,n ξξξ相互独立又222111()0(1)022n E na na n n nξ=-⋅+⋅-+⋅=22()()()n n n D E E ξξξ=-222222222111[0(1)]022n a n a n n n =⋅+⋅-+⋅-2a =即每个随机变量都具有有限的数学期望,有限的方差,满足定律.人们已经知道,在自然界和生产实践中遇到大量随机变量都服从或近似服从正态分布,正因如此,正态分布占有特别重要的地位。
第二节中心极限定理那么,如何判断一个随机变量服从正态分布显得尤为重要。
如经过长期的观测,人们已经知道,很多工程测量中产生的误差X 都是服从正态分布的随机变量。
分析起来,造成误差的原因有仪器偏差X 1、大气折射偏差X 2,温度变化偏差X 3、估读误差造成的偏差X 4等等,这些偏差X i 对总误差的影响都很微小,没有一个起到特别突出的影响,虽然每个X i 的分布并不知道,但却服从正态分布。
∑=i X X例如:{}(1,)n X B p 设随机变量序列独立同分布于两点分布,1(,)nn k k Y X B n p ==∑那么其部份和服从二项分布,5,10,20(,0.5)n b n =分别对画出二项分布密度的图形n 易知,当变大时,这些图形越来越接近正态分布的密度曲线.024681012141618200.020.040.060.080.10.120.140.160.18024681012141618200.050.10.150.20.25024681012141618200.050.10.150.20.250.30.351. 棣莫佛---拉普拉斯定理221lim {}()(1)2t xn n X np P x e dt x np p π--∞→∞-≤==Φ-⎰1~(,),(1,2),,n X B n p n x R =∈定理设随机变量则对任意有~(,),,~(,),:X B n p n X N np npq 设随机变量则当很大时近似地有从而可得推近似公式论()()()b np a np P a X b npq npq--<≤=Φ-Φ()()b np a np npq npq --≈Φ-Φ{}{}a EX X EX b EX P a X b P DX DX DX---<≤=<≤证:{}a np X np b np P npq npq npq---=<≤例3 在人寿保险公司里有3000个同一年龄的人参加人寿保险.在一年里,这些人的死亡率为0.1%. 参加保险的人在一年的头一天交付保险费10元,死亡时,家属可以从保险公司领取2000元.求:保险公司一年中获利不小于一万元的概率;解:设一年中死亡人数为X , 则~(3000,0.001)X B 30000.0013(1) 1.7312EX np DX np p ==⨯==-=2~(3,1.7312)()X N 由定理知近似(1.7329)0.96≈Φ={30000200010000}P X -≥{010}P X =≤≤33103{}1.7312 1.7312 1.7312X P ---=≤≤(4.04)( 1.733)=Φ-Φ-保险公司每年利润为:3000102000()X ⨯-万元注意:(1),0.1,p p n p np ≤≤泊松分布告诉我们当时二项分布可用泊松分布作近似计算,而上述定理不受值的限制.但若很大,很小(5),则用正态分布作近似不如泊松分布精确.(2)"",,n n n n ≥≥很大是一个较为模糊的概念经验告诉我们如果取50(有时可放宽到30),则近似程度便可以满足一般要求.当然,越大精度越好.棣莫佛---拉普拉斯定理:lim {}()(1)n n X np P x x np p →∞-≤=Φ-~(,),(1,2),,n X B n p n x R =∈设随机变量则对任意有说明:1(1,2)0i A i i n A i ξ⎧==⎨⎩若在第次实验中发生令若在第次实验中不发生1n n ii X ξ==∑则111()lim ()()()n n i i i i n n i i E P x x D ξξξ==→∞=-≤=Φ∑∑∑即{}n ξ设为任一随机变量序列,其和的标准化随机变量111()()n ni i i i n n i i E Y D ξξξ===-=∑∑∑{}lim ()n n P Y x x →∞≤=Φ在什么条件下满足?这是此后300多年来,概率论研究的一个中心,故称作中心极限定理(Central Limit Theorems )。