当前位置:文档之家› 数学中的概率分析之伯努利大数定律

数学中的概率分析之伯努利大数定律

三、伯努利大数定律现在我们来介绍伯努利《推测术》的最重要部分――包含了如今我们称之为伯努利大数定律的第4部分。

回到本章开始那个缶中抽球的模型:缶中有a 白球,b 黑球,p =aa b +。

有放回地从缶中抽球N 次,记录得抽到白球得次数为X ,以XN 去估计p 。

这个估计法现今仍是数理统计学中最基本的方法之一。

此处的条件是,每次抽取时都要保证缶中a +b 个球的每一个有同等机会被抽出。

这一点在实践中并不见得容易。

例如,产生中奖号码时用了复杂的装置。

在实际工作中,统计学家有时用一种叫做“随机数表”的工具。

这时一本大书,各页按行、列排列着数字0,1,…,9,它们是用据信是“充分随机”的方法产生的。

在使用时,“随机地”翻到其中一页并“随机”点到一个位置,以其处地数字决定抽出地对象。

伯努利企图证明的是:用XN 估计p 可以达到事实上的确定性――他称为道德确定性。

其确切含义是:任意给定两个数0ε>和0η>,总可以取足够大的抽取次数N ,使事件X p N ε⎧⎫−>⎨⎬⎩⎭的概率不超过η。

这意思是很显然:Xp N ε−>表明估计误差未达到指定的接近程度ε,但这种情况发生的可能性可以随心所欲地小(代价是加大N )。

为忠实于伯努利地表达形式,应指出两点:一是伯努利把ε限定为1()a b −+,虽然其证明对一般ε也有效。

他作这一限定与所有缶子模型的特殊性有关:必要时把缶中的白、黑球分别改为ra 和个,则p 不改变,rb 1()a b −+改为1ra rb +,只须r 取足够大,可使此数任意小。

其次,伯努利要证的是:对任给c>0,只须抽取次数N 足够大,可使X X P p cP p NN εε⎛⎞⎛−≤>−>⎜⎟⎜⎝⎠⎝⎞⎟⎠. (8) 这与前面所说是一回事。

因为由上式得1(1)X P p c N ε−⎛⎞−><+⎜⎟⎝⎠, (9)取c 充分大可使它小于η。

另外要指出的是:伯努利使用的这个缶子模型使被估计的p 值只能取有理数,因而似乎有损于其结果的普遍性,但其证明对任意的p 成立,故这一细节并不重要。

伯努利上述对事实上确定性的数学理解,即(8)式,有一个很值得赞赏之点,即他在概率论的发展刚起步的阶段,就给出了问题的一个适当的提法。

因为,既然我们想要证明的是当N 充分大时,XN 和p 可以任意接近,则一个看来直截了当的提法是limN X p N →∞=, (10)而这不可能实现。

因为原则上不能排除“每次抽到白球”的可能性,这时XN 总为1,不能收敛于p<1。

或者退一步:要求(10)式成立的概率为1,这个结论是对的,但直到1909年才由波莱尔证明,其难度也比伯努利的提法大得多。

设想如当时伯努利就采用这个提法,他也许不一定能在有生之年完成这一工作。

波莱尔得结论比伯努利强,故现今把它们得结论分别称为强大数律和弱大数律。

如今具有概率论初步知识的人都知道,伯努利大数律是契比谢夫不等式的简单推论。

但在伯努利时代尚无方差概念,更不用说这一不等式了。

伯努利用的是直接估计概率的方法,大意如下:令()0A P Np X Np N ε=<<+,((1))A P Np kN X Np k N k εε=+<≤++,k=1,2,……只须证明:当N 充分大时有(注3), (11)()012A c A A >++⋅⋅⋅这就解决了X>Np 的一边。

对X<Np 的一边如法炮制,即可得处(8)式。

附带指出:可以把伯努利的结论(9)引申一点点:如果我们知道缶中球的总数a+b ,或者更广一些,知道a +b 不超过某已知数M ,则可以把(3)式改进为:可以找到p 的一个估计(不是ˆ()p X XN ),使当N 充分大时有 。

(12)1ˆ(())(1)P pX p c −≠<+但如不给定a+b 的界限,则找不到这样的估计量(注4)。

ˆ()p X 伯努利当初提出的目标,比单纯证明(9)式要高:(9)式只肯定了当取N 充分大时,用XN估计p 可达到任意指定的精度ε,而可靠度不小于11(1)c −−+。

伯努利希望弄清楚到底需要N 多大。

解决了这个问题,在实用上就可以根据所需的精度和可靠度,去规划所须观测次数N 。

他证明了以下的结果:定义=不小于1m[]log (1)log(1)log c b a −+−a 的最小整数, (13)=不小于2m[]log (1)log(1)log c a b −+−b 的最小整数, (14)111()()(11m a b b a b m N a +++−=+), (15) 222()()(11m a b a a b m N b )+++−=+。

(16)则取能满足(9)式。

伯努利给了若干数字例子,其一为:a =30,b =20(p =max(,)12N N N =35),150ε=,c =1000。

用上述结果算出所需的次数N 为25550。

可以与由契比谢夫不等式计算的结果作一比较。

按此不等式,有(注5)23113260015505055X P N N N −⎛⎞⎛⎞⎛⎞⎛⎞−−>≤=⎜⎟⎜⎟⎜⎟⎜⎟⎝⎠⎝⎠⎝⎠⎝⎠。

为使此值不超过11(1)1001c −+=,N 至少应为600600,这比伯努利给出的值大20多倍。

这反映了一个事实:伯努利在证明(9)式中所作的概率估值,比契比谢夫不等式所作出的要精细得多。

虽然如此,25550这个数仍嫌过大。

美国统计史学者斯蒂格勒认为,伯努利之所以久未发布其研究成果,与他对一点的不满意有关。

因为在伯努利时代,一个中等城市的规模尚不过几千人,25550简直可算时“天文数字”。

不过,后世的学者所看重的不在这些地方。

如今大家都公认由伯努利工作发端的大数定律已成为整个数理统计学的基础。

人们也对伯努利工作的哲学意义给予很高的评价。

如斯蒂格勒指出:伯努利证明了数学家不仅可以后验地认识世界,还可以用数学去估量他们的知识的限度。

伯努利在结束《推测术》时就其结果的意义作了如下的表述:如果我们能把一切事件永恒地观察下去,则我们终将发现:世间的一切事物都受到因果律的支配,而我们也注定会在种种极其纷纭杂乱的事象中认识到某种必然。

关于决定最小N 的问题,一些与伯努利同时或稍后的学者也研究过。

例如伯努利的侄儿尼科拉斯在1713年给以为友人的信件中报告了他得出的一个有关结果,比伯努利的上述结果有所改善。

如对伯努利的例子,用尼科拉斯的公式估出所需N 未17350。

稍后到1733年,狄莫弗发展了用正态分布逼近二项分布的方法(见第二章),这是一个实质性、意义深远的改进。

按此法估出的N 约为6600,这已是没有改进余地的了。

6600这个数字仍然很大,它显示,虽然自然界的奥秘可通过实验观察发现,但自然界并不轻易露出自己的真面目。

这个例子也提醒我们:在报章杂志等中不时可以看到的、根据一小批样本而计算出的某种特征的个体的比率,作为样本来自的大群体中该特征所占比率的估计,其准确度和可靠性,通常远小于没有受过统计学训练的公众所认为的程度。

注1:(3)、(4)两式等价的证明。

把 写为 ,(4)式化为 ()12r i −+(1)112222r r r −+−−−i1 。

1(1)1121212(,)2212101r r r r i r i e r r C r i −−+−−+−+=⋅∑−=此式与(3)式比较看出:只须证明。

(A1)1111221212200r r r r r i r iC C i ii i −−+−−+−+=∑∑==此式当 时成立。

用归纳法,假定(A1)在 12r =2r k≤时成立,在(A1)左边令。

因为12r k =+ ,111111r k r k r k C C C i i i ++−+=+−−−有111111000k k k r k r k r k C C C i i i i i i ++−+=+∑∑∑−===1111100k k r k r k C C i ii i −+−+−=+∑∑==1111120k r k r k C Ck ii −+−+−=+∑=。

对后一和用归纳假设,由(A1)得+1111111122000k k k r k r k r i r k k i k iC C C C i k i ii i i −++−−+−+++=+=∑∑∑===,证明了(A1)在12r k =+也成立。

注2:(7)式地证明以记在A 已胜i 局、B 已胜j 局的情况下,A 最终获胜的概率。

则我们要求的就是。

按规定,有(,)h i j (0,0)h (,)1h i j =,当; 4,2i i j ≥−≥(,)0h i j =,当; 4,2j j i ≥−≥(2,2)(3,3)h h ==⋅⋅⋅假定再赌一局。

若A 胜(概率p ),情况变为(1,)i j +。

若B 胜(概率q ),情况变为(,1)i j +。

故按全概率公式,有。

(,)(1,)(,1)h i j ph i j qh i j =+++令i =j =3,得,分别在上式中令(i,j )=(4,3)及(3,4),得(3,3)(4,3)(3,4)h ph qh =+(4,3)h 及(3,4)h 的表达式,代入上式得22(3,3)(5,3)2(4,4)(3,5)h p h pqh q h =++。

22(3,3p pqh =+)于是得22222(3,3)1p r h p q r ==++。

再在式中令(i,j)=(2,3),得22(2,3)(3,3)(2,4)1pr h p h qh r =+=+。

注意到 1p p r q p ==−,有1r p r =+。

于是332(2,3)1r h r r r =+++。

循此以往,依次得,,,,…,直至,就是(1)式。

(3,2)h (2,2)h (3,1)h (1,3)h (0,0)h 这个问题可以推广为:一方胜局达到m 且比对方得胜局多n ,则此方获胜。

(1)式对应于m =4,n =2的情况。

一般情况原则上也可用上述步骤求解,但对大的m 和n 公式将繁杂得难以想象。

例如乒乓球相当于m =21和n =2。

注3:(11)式得证明。

我们先介绍一个证明,其思想与伯努利得原始证明一致,但形式略广一些,然后指出伯努利原始证明差异之处。

我们只点明主要的步骤,一些容易的细节请读者自己补出。

1. 1. 先证明存在常熟u (与k 无关),使,1A uA k <+k 0k=0,1,2,… (A2) 若此式已证,则有,故 0k A u Ak< 1(1)12A A u u −++⋅⋅⋅<−A。

(A3) 为证(A2),记1k b Np kN ε=++。

按Ak 的定义,有1111()(1)(()(1)(1)k k k k kk k k A P X b P X b P X b N A P X b P X b P X b N 1)εε++++=+=++⋅⋅⋅+=+−==+=++⋅⋅⋅+=+−11()(max ,,()(1)k k k k P X b P X b N P X b P X b N εε++⎡⎤==+≤⎢⎥==+⎣⎦L 1)−−。

相关主题