当前位置:文档之家› 统计规律

统计规律

统计规律1问题的提出在统计学中有大数定律如下:定义11 若L L ,,,,21n ξξξ是随机变量序列,如果存在常数列,使对任意的L L ,,,,21n a a a 0>ε,有1P lim 1=⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧<−∑=∞→εξn n i i n a n 成立,则称随机变量序列{}n ξ服从大数定律。

贝努里定理是所述这类大数定律中著名的一个。

设n μ是n 重贝努里试验中事件A 出现的次数,又A 在每次试验中出现的概率为)10(<<p p ,则对任意的0>ε,有1lim =⎭⎬⎫⎩⎨⎧<−∞→εμp n p n n显然,这种大数定律并不能告诉我们:为什么每次试验中A 出现的概率是p 以及当时,为什么p A p =)(n Aμ服从二项式分布。

这里的大数定律,实际上仅是数学的演绎,并非实证的规律,就是说,只要我们给出了随机变量序列(当然是包含足够的关于其分布的信息),就可以证明它们是否有上述定义和定理的结论成立。

但在实证研究中,我们实际上是通过对实际数据的分析来论证统计规律的存在的。

同时,教科书中又这样描述统计规律:在一定条件组实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果,但大量重复观察时,所得的结果却呈现某种规律,称为随机现象的统计规律性2。

这种描述显然是不符合科学规范的,有含糊其词之嫌。

如“某种规律”与“统计规律性”是何关系,与概率又有何联系。

下面我们以概率的定义和假设检验为基础,来定义统计规律,使统计规律以科学的规范性,成为可通过实践检验真假的命题。

2假设检验解释数理统计中的假设检验包括参数和非参数两部分,下面仅对参数检验做出某些讨论。

一般参数检验系统可描述如下3:设总体ξ的分布函数);(θx F 中含有未知参数θ,参数空间记作Ω,即Ω∈θ,则考虑如下假设的检验问题0H :0Ω∈θ,:1H 0Ω−Ω∈θ1华东师范大学数学系.概率论与数理统计教程. 北京:高等教育出版社,1983年,第196页。

2中山大学数学力学系.概率论与数理统计(上册). 人民教育出版社,1980年,第2页。

3中山大学数学力学系.概率论与数理统计(下册). 人民教育出版社,1980年,第165页。

检验的法则一般如下:将样本空间χ剖分为互不相交的两部分0χ及0χχ−,对,令Ω∈∀∗θ{}{}0010),,(),(χθθχξξθχθ∗∗∗==∈=p p M n L 若令0χ为否定假设的否定域(又称拒绝域),则在假设检验的抉择中可能犯两类错误,其中第一类错误是:当0H 0Ω∈θ时,),,(1n ξξL 的观察值01,,χ∈n x x L 即犯拒真错误;第二类错误是:当0Ω∈θ时,),,(1n ξξL 的观察值 01,,χχ−∈n x x L 即犯认假错误。

通常记犯第一类错误的概率为α,即{}αθχξξθχ=Ω∈∈=0010),,(),(0n H p M L而犯第二类错误的概率为{}{}1),(1),,(1),,(001001H n n M p p θχθχξξθχχξξ−=Ω∈∈−=Ω∈−∈L L 对于以上所述检验法则,通常都认为其基本思想是所谓小概率事件原理:“小概率事件(或概率很小的事件)在一次试验或观察中是几乎不可能发生的”。

然而,仔细想一下上述确定否定域的逻辑过程,就会发现,它实质上与小概率事件原理根本无关。

在显著性检验中,它的基本思想不过是在控制犯第一类错误的情况下使犯第二类错误的概率尽可能小。

然而,即使对于这种确定否定域的逻辑,当我们考虑它的经验意义时,仍然是可置疑的。

因为:当实际上0Ω∈θ时,我们有何必要去考虑0Ω−Ω∈θ时犯错误的概率呢?我们不可能同时犯两类错误,也就是,实际上两类错误是不相容的独立事件。

所以,这里有实际经验意义的问题是:当为真时,什么样的否定域是最合理的否定域?是使0H α最小的否定域吗?似乎也不妥,因为,对同一α,在正态总体检验中会有无穷多的对应区间。

而且,拒绝域越小,α越小。

实质上,这个问题的答案不能纯粹依赖于数学演绎,而必须凭借经验判断。

以正态总体均值双尾检验为例:0H :0μμ= :1H 1μμ≠此种检验一是用来检验一批产品是否合格,二是用来检验生产工艺技术系统是否处于正常状态。

在假定总体为正态分布的情况下,这两种检验必然要以0μ作为接受区间的中心值,而对的否定临界点通常是要在允许误差值以内。

在T 检验中,样本标准差越大越容易被接受,这显然与质量检验的目的相违背,所以,在质量规格中必须对标准差0H s σ有所限制,从而首先要进行标准差或方差检验。

再说显著性水平α的经验意义。

对否定域{}αθθχξξχ==∈0010),,(,n p L ,说明0θθ=为真时,),,(1n ξξL 的观察值落在0χ内从而被拒绝的可能性即概率为0H α,而为真时被接受的概率为0H α−1。

所以,只要确实为真,当0H α为小数时,它一般不会被否定。

从而,大的α−1对接受有利。

由此,我们也可发现,0H α并不是越小越好,而要看实际工作的需要而定。

所以,一般来说,假设检验仅能告诉我们一种选择的概率情况,而如何选择,要借助于经验。

如在教育与生物调查统计的均值双尾检验中,α定大一些,将使为真时接受的概率较小(相对较小,并不一定很小), 而一旦接受, 其犯错误的概率就比较小,从而使研究结果更可信。

这显然不能用小概率原理思想来解释。

H 0H 3统计规律的定义定义2 (基本统计规律) 设A 是一个随机试验E 的可能结果,A μ是A 在一次n 重贝努里试验中出现的次数,如果(1)在试验中,A 的概率存在,即:存在10≤≤p ,使n A n μ∞→lim c p成立,或(2)做组重贝努里试验,假设N n H :n f AA μ=p =在显著性水平α下通过假设检验,那么,我们就称随机试验E 的结果A 的发生服从统计规律。

而命题“A 在一次随机试验E 中发生的概率为”就是一个统计规律。

p “c ”在这里称为“公认等于”,即“一定范围的专家的公认结论”。

这种逻辑正是现实社会逻辑(包括科学活动)的表现。

在实际中,有两种类型的统计规律。

比如说,)(x f y =是一个统计规律,那么在试验中它可能以两种方式之一出现:(1)在试验中,)(x f y =一发生,就是完全准确的;(2) 只是一种近似平均关系。

)(x f y =由此,我们区分出如下两类统计规律,其中)(x f y ∝表示和之间存在某种逻辑关系。

y )(x f 定义3 (第一类统计规律) 在一项试验的结果中,若有关系式)(x f y ∝在次同样试验中(准确)成立的次数n A μ服从定义2中的(1)或(2),则称)(x f y ∝为第一类统计规律。

设有一变量η,当成立时,)(x f y ∝1=η,当)(x f y ∝不成立时,0=η,则第一类统计规律实际上是说,η是一个服从某二点分布的随机变量。

而“η服从二点分布”这一关于其具体分布的命题则是下面的第二类统计规律。

),(q p 为了叙述第二类统计规律,我们首先给出“统计成立”的定义。

定义4 (在统计意义下成立) 设在试验E 中有变量y 和x ,若假设在显著性水平)(:0x f y H ∝α下成立,则称试验E 中)(x f y ∝在统计意义下成立,简称统计成立。

定义5 (第二类统计规律) 在一项试验的结果中,若有关系式)(x f y ∝在次同样试验中统计成立的次数N A μ服从定义2中的(1)或(2)式,则说)(x f y ∝为第二类统计规律。

如“某人的英语词汇量为6000”。

首先,测量词汇量的方法有多种,每种的结果都会稍有不同;其次,即使同种方法,在随机抽样的情况下,每次测量的结果也会有所不同,并且极少可能有一次的结果恰为6000。

所以,这个关于词汇量的命题只能是一个第二类统计规律。

说明:(1)在上述定义中,当N A →μ或时,人们就可以抽象出一个决定性的定律:,当然,这种抽象也不是严格的数学逻辑,所以其结果就可能是一定精确度下的。

1→p )(x f y ∝(2)在第二种统计规律中,次试验中的每一次一般是一个n 重贝努里试验。

N 在科学和生产社会实践中,大量存在的是第二类统计规律。

当试验结果与的差别仅被解释为测量误差时,就被认为是一种确定性的规律或科学定律。

如:当)(x f y ∝)(x f y ∝定义2中的试验E 是抛掷一枚绝对均匀的硬币,那么,“正面在一次抛掷中朝上的概率为21”就是一个第二类统计规律。

大量的物理学定律在实验的意义下也只是一定精度的第二类统计规律。

4大数定律与统计规律的关系数理统计学中的大数定律实际上是一种统计规律的抽象反映。

下面分别对大数定律的定义和贝努里大数定律予以说明。

4.1关于定义大数定律的定义实际上说的是这样一种统计规律: 令∑==ni i n n S 11ξ,则当定义1中的结论成立时,应有这样一种统计规律:序列{和具有相同的极限。

}n S {}n a 但是这个统计规律不能用严格的数学逻辑来检验,只有用试验来检验, 它可表述为下面的公理。

公理1 若随机变量序列{}n ξ服从大数定律,即存在常数列{}n a ,使对任意0>ε,有 11=⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧<−∑=∞→εξn n i i n a n P lim 成立,则有统计规律“⎭⎬⎫⎩⎨⎧=∑=n i i n x n S 11和{}n a 极限相同”。

其中{}i x 是{}i ξ的观测值。

公理1 的一个应用是“均值估计”,即有下面的推论:推论 设是一个统计总体,Ωξ是定义在Ω上的单值函数,ξ表示ξ的总体均值,若E 是对的一个容量为的简单随机抽样,则Ω∞<n ξ的样本均值n X 存在如下的统计规律:“{n X }的极限是ξ”。

这个推论是用样本均值估计总体均值的理论依据,而估计的精度不仅与 有关,而且与n ξ在Ω上的分布标准差或方差有关。

对于相同的,总体方差越小,估计的精度越高,这就是区间估计的基本性质。

n 相对于大数定律, 上述公理可称为大数公理。

4.2关于贝努里大数定律构造变量i δ,使当A 在第次试验中出现时i 1=i δ,当A 在第次试验中不出现时i 0=i δ,则贝努里大数定律是说随机变量序列{}i δ服从大数定律,而其相应的统计规律是“{∑=ni i n 11δ}的极限是”。

p 这个统计规律可以作为用样本分布估计总体分布的理论依据,如估计球袋中各色球的分布比例。

同样,这种估计的精度与和总体分布n p 有关。

对既定n ,21=p 时,精度最差,p 越小,精度会越高。

综上可推知:大数定律反映的是一种极限统计规律, 这种极限可看作是实证极限. 而作为统计规律, 它可以直接通过增大试验次数来检验,也可检验下面的 ),(εN 命题,即:“有一序列{,对}n s 0>ε,, 使当时,0>∃N N n >εα<−n s 。

相关主题