典型例题分析例1.分别从方差为20和35的正态总抽取容量为8和10的两个样本,求第一个样本方差是第二个样本方差两倍的概率的范围。
解 以21S 和22S 分别表示两个(修正)样本方差。
由222212σσy x S S F =知统计量2221222175.13520S S S S F ==服从F 分布,自由度为(7,9)。
1) 事件{}22212S S =的概率 {}{}05.320352352022222122212221===⎭⎬⎫⎩⎨⎧⨯==⎭⎬⎫⎩⎨⎧===F P S S P S S P S S P因为F 是连续型随机变量,而任何连续型随机变量取任一给定值的概率都等于0。
2) 现在我们求事件{}二样本方差两倍第一样本方差不小于第=A 的概率:{}{}5.322221≥=≥=F P S S P p 。
由附表可见,自由度9,721==f f 的F 分布水平α上侧分位数),(21f f F α有如下数值:)9,7(20.45.329.3)9,7(025.005.0F F =<<=。
由此可见,事件A 的概率p 介于0.025与0.05之间;05.0025.0<<p 。
例2.设n X X X ,,, 21是取自正态总体),(2σμN 的一个样本,2s 为样本方差,求满足不等式95.05.122≥⎭⎬⎫⎩⎨⎧≤σS P 的最小n 值。
解 由随机变量2χ分布知,随机变量σ/12S n )(-服从2χ分布,自由度1-=n v ,于是,有{}{}95.0)1(5.1)1(5.1)1(2,05.02222=≤≥-≤=⎭⎬⎫⎩⎨⎧-≤-=v v v P n P n S n P χχχσ 其中2v χ表示自由度1-=n v 的2χ分布随机变量,2,05.0v χ是自由度为1-=n v 的水平05.0=α的2χ分布上侧分位数(见附表)。
我们欲求满足2,05.015.1v n χ≥-)(的最小1+=v n 值,由附表可见226,05.0885.3839)127(5.1χ=>=-, 22505.0652.375.401265.1,)(χ=<=-。
于是,所求27=n 。
例3.假设随机变量X 在区间[]1,+θθ上有均匀分布,其中θ未知:)(1n X X ,, 是来自X 的简单随机样本,X 是样本的均值,{}n X X X ,,min 1)1( =是最小观察值。
证明21ˆ1-=X θ 和 11ˆ12+-=n X )(θ 都是θ的无偏估计量。
解 由X 在[]1,+θθ上均匀分布,知2/)12(+==θEX EX i 。
1) 由θθθθ=-+=-+=-=∑∑==2121212221211ˆ111n i n i i n EX n E , 可见1ˆθ是θ的无偏估计量。
2) 为证明2ˆθ是θ的无偏估计。
我们先求统计量)1(X 的概率分布。
{}⎪⎩⎪⎨⎧>+≤≤-<=≤=。
若,;若;若)(111,,0θθθθθx x x x X P x F其密度为⎩⎨⎧+≤≤=。
其他,若,01,1)(θθx x f由于n X X ,,1独立且与X 同分布,知)1(X 的分布函数为 {}{}{}x X x X P x X P x X P x F n >>-=>-=≤=,,111)1()1(1 )()( {}{}x X P x X P n >>-= 11 []nx F )(11--=;[])1()1()()(1)()(11)1()1(+≤≤-+=-='=--θθθx x n x f x F n x F x f n n于是,有⎰⎰+-+-+==111)1()1()1()(θθθθθdx x x n dx x xf EX n⎰⎰+-+-+++-+-+=111)1)(1()1()1(θθθθθθθθdx x n x d x n n nθθ++=⎪⎭⎫ ⎝⎛+++-=11111n n n n 。
θθ=+-=11ˆ)1(2n EX E , 从而2ˆθ是θ的无偏估计。
在证2ˆθ的无偏估计时,先求估计量分布再求其数学期望。
此外,下面将看到,1ˆθ是矩估计量,)1(X 是最大似然估计量。
3) 有效性的验证,即验证两个无偏估计量哪一个更有效(方差较小),只需 计算它们的方差并加以比较,验证估计量的最小方差超出了本课程的要求。
读者只需了解一些常用的最小方差估计量。
例如,对于正态分布总体),(2σμN ,样本均值X 和修正样本方差2S 相应为μ和2σ的最小方差无偏估计量;事件频率n pˆ是它的概率p 的最小方差无偏估计量。
如果要求有效率,则用公式)ˆ()(0θθD D 计算,其中()2),(ln 1)()ˆ(⎥⎦⎤⎢⎣⎡∂∂=≥θθθθx f nE D D ——称为罗.克拉美不等式。
例4.设总X 服从正态分布),(20σμN ,其中方差20σ为已知常数;关于未知数学期望μ有两个二者必居其一的假设: 1100μμμμ==:,:H H ,其中0μ和1μ都有已知常数,并且10μμ<。
根据来自总体X 的简单随机样本n X X X ,,, 21,确定假设0H 的α水平否定域(即拒绝域),并计算第二类错误概率。
解 取统计量 nX U 0σμ-=做检验的统计量。
在假设00μμ=:H 成立的条件下,),(10~N U 。
由于{}{}{}{}ααααα=≤=-≤=≥=≥-122u U p u U P u U P u U P 。
所以以下四种都是假设0H 的水平α的否定域: {}{}αα221u U V u U V ≥=≥=;; {}{}αα-≤=-≤=1423u U V u U V ;, 其中αu 是标准正态分布α水平双侧分位数(见附表)。
在假设11:μμ=H 成立的条件下,统计量)1,(~∆N U ,其中001/)(σμμ-=∆n 。
因此,以)4,3,2,1(=i V i 为假设否定域的检验的第二类错误概率为:{}{}⎰∆--====iV x i i dx e V P H V P 2)(11221πμμβ。
特别(设)(x Φ是标准正态分布函数)1)()(212122)(122-∆-Φ+∆+Φ===⎰⎰∆-∆---∆--ααμππβαμααu du e dx eu u u u u x ;)(2122)(222∆-Φ==⎰∞-∆--ααπβu dx eu x ; )(2122)(322∆+Φ==⎰∞+-∆--ααπβu dx eu x ;)()(22121112)(2)(41212∆-Φ-∆+Φ-=+=--∞+∆--∞-∆--⎰⎰--ααμππβααu dx edx eu x u x 。
为了便于比较,设91101.0010=====n ;,,,σμμα,则13.0,28.1,65.1,39.02.01.0====∆u u u 。
查附表并经计算,容易得到9988.09999.00427.00855.04321====ββββ,,,。
计算结果表明,尽管四个检验的一类错误的概率都等于1.0=α,但它们的第二类错误的概率却不相同。
以2V 为否定域的检验的第二类错误的概率最小,为我们所选用。
例5.对二项分布),(p n B 作统计假设 3.0:,6.0:10==p H p H 。
假设0H 的否定域取为{}{}21c c V n n ≥≤=μμ ,其中n μ表示n 次试验中成功的次数。
对(1);3,9,1,1021====n c c n μ (2)6,17,7,2021====n c c n μ,求显著性水平α和第二类错误的概率β。
解 (1)显著性水平α是第一类错误的概率,于是 {}{}6.00=∈=∈=p V P H V P n μμα0479.04.06.04.06.0109101011010≈+=∑∑=-=-i i i ii iii C C 。
{}{}111H V P H V P n n ∈-=∈=μμβ {}3.01=∈-=p V P n μ 8506.07.03.07.03.011091010101010≈--=∑∑=-=-i i i ii iiiC C 。
(2){}{}6.00=∈=∈=p V P H V P n n μμα 0370.04.06.04.06.0201720702020≈+=∑∑==-i i i ii iiiC C 。
{}{}3.011=∈-=∈=p V P H V P n n μμβ 2277.07.03.07.03.0120172020702010≈--=∑∑=-=-i i i ii iiiC C 。
例6.谋装置的平均工作温度据制造厂家称不高于190℃。
今从一个由16台装置构成的随机样本册的工作温度的平均值和标准差分别为195℃和8℃。
根据这些数据能否说明平均工作温度比制造厂所说的要高?设05.0=α,并假定工作温度服从正态分布。
解 设工作温度为X ,根据题设),(~2σμN X 。
考虑假设 190,190:10>≤H H μ 由于总体方差2σ未知,故用t 检验。
这里,151,16=-==n v n 对给定的05.0=α,查表得75.15.1,1.0,20==t t v 。
于是由表情形知假设0H 的否定域为{}75.1≥=t V 。
由条件和0H 知8,195,1900===S X μ,因此5.216/8190195=-=t 。
由于75.15.2>=t ,所以否定域假设0H ,说明平均工作温度比制造厂说的要高。
例7 某电话交换台在一小时(60分钟)内每分钟接到电话用户的呼唤次数有如下纪录:问统计资料是否可以说明,每分钟电话呼唤次数服从泊松分布?()05.0=α 解 设X 表示每分钟电话呼唤次数,需要检验的假设 X H :0服从泊松分布。
泊松分布中未知参数λ的最大似然估计为∑===62601ˆk k kv λ。
我们用)6,,1,0(!2ˆ ==-k e k pk k k估计概率{})6,,1,0( ===k k X P p k ;用)4,3,2,1,0(ˆ==k pn E k k 估计{}k X =的期望频数。
为避免期望频数太小,将呼唤次数为5和6的情况,合并为5≥X 的情况,为第6组:其实际频数为2+1=3,期望频数为 16.3)(655=+=p p n E 。
计算结果列入下表:所以统计量1762.0)(5022=-=∑=k kk k E E v χ。
统计量2χ的自由度16--=m v ,其中1=m 是用到参数估计值的个数,故4=v 。
对于, 05.0=α,查表得488.924,05.0=χ;假设0H 的否定域为{}488.92≥=χV 。
由于2χ=0.1762<9.488,所以不否定假设0H ,即可以认为电话呼唤次数服从泊松分布。