第五章统计量及其分布一、教材说明本章内容包括:总体与样本,样本数据的整理与显示,统计量及其分布,三大抽样分布.本章的基本概念和重要结论是学习数理统计的基础.1、教学目的与教学要求1)掌握数理统计的总体、样本、样本经验分布函数、统计量及常用统计量等基本概念.2)掌握三大分布的定义,并能熟练应用来求随机变量的分布.3)牢记Fisher定理的内容及其三大推论.4)使学生了解数理统计研究问题的方法与概率论研究问题方法的不同.5)了解如何对样本数据进行整理与现实.2、本章重点与难点本章重点是数理统计的基本概念、三大分布的定义、Fisher定理及其推论.难点是Fisher 定理结合三大分布来求随机变量的分布.二、教学内容本章共分总体与样本、样本数据的整理与显示、统计量及其分布、三大抽样分布等4节来讲述本章的基本内容.§5.1总体与样本教学目的:要求学生理解数理统计的两个基本概念:总体和样本,以及与这两个基本概念相关的统计基本思想和样本分布.教学重点:掌握数理统计的基本概念和基本思想.教学难点:掌握数理统计的基本概念和基本思想.5.1.1总体与样本在一个统计问题中,把研究对象的全体称为总体,构成总体的每个成员称为个体.对于实际问题,总体中的个体是一些实在的人或物.比如,我们要研究某大学的学生身高情况,则该大学的全体学生构成问题的总体,而每一个学生即是一个个体.事实上,每一个学生有许多特征:性别、年龄、身高、体重等等,而在该问题中,我们关心的只是该校学生的身高如何,对其他的特征暂不考虑.这样,每个学生(个体)所具有的数量指标——身高就是个体,而所有身高全体看成总体.这样,抛开实际背景,总体就是一堆数,这堆数中有大有小,有的出现机会多,有的出现机会小,因此用一个概率分布去描述和归纳总体是合适的,从这个意义上说:总体就是一个分布,而其数量指标就是服从这个分布的随机变量.例5.1.1 考察某厂的产品质量,将其产品分为合格品和不合格品,并以0记合格品,以1记不格品,若以p表示不合格品率,则各总体可用一个二点分布表示:不同的p反映了总体间的差异.在有些问题中,我们对每一研究对象可能要观测两个或更多个指标,此时可用多维随机向量及其联合分布来描述总体.这种总体称为多维总体.若总体中的个体数是有限的,此总体称为有限总体;否则称为无限总体.实际中总体中的个体数大多是有限的,当个体数充分大时,将有限总体看作无限总体是一种合理抽象.5.1.2 样本与简单随机样本样本为了了解总体的分布,从总体中随机地抽取n 个体,记其指标值为 n x x x ,,,21 , 则n x x x ,,,21 称为总体的一个样本,n 称为样本容量或简称为样本量,样本中的个体称为样品.首先指出,样本具有所谓的二重性:一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此样本是随机变量,用大写字母 n X X X ,,,21 表示;另一方面,样本在抽取以后经观测就有确定的观测值,因此样本又是一组数值,此时用小写字母n x x x ,,,21 表示.简单起见,无论是样本还是其观测值,均用n x x x ,,,21 表示.每个样本观测值都能测到一个具体的数值,则称该样本为完全样本,若样本观测值没有具体的数值,只有一个范围,则称这样的样本为分组样本.从而知道分组样本与完全样本相比在信息上总有损失,但在实际中,若样本量特别大,用分组样本既简明扼要,又能帮助人们更好地认识总体.例5.1.4 略. 简单随机样本从总体中抽取样本可有不同的抽法,为了能由样本对总体作出较可靠的推断就希望样本能很好地代表总体.这就需要对抽样方法提出一些要求,最常用的有如下两个要求:1)样本具有随机性:要求每一个个体都有同等机会被选入样本,这便意味着每一样品i x 与总体X 有相同的分布.2)样本要求有独立性:要求每一样品的取值不影响其它样品的取值,这便意味着n x x x ,,,21 相互独立.若样本n x x x ,,,21 是n 个相互独立的具有同一分布的随机变量,则称该样本为简单随机样本,简称为样本.注(1)若总体X 的分布函数为)(x F ,则其样本的联合分布函数为)(1i ni x F =∏(2)若总体X 的密度函数为p (x ),则其样本的联合密度为)(1i ni x p =∏(3)若总体X 的分布列为 )(i x p ,则其样本的联合分布列为)(1i ni x p =∏(4)对有限总体不放回抽样,若总体中有几个个体,抽取样本容量为n ,当N n << (1.0≤Nn)时,不放回抽样得到的样本可认为是简单随机样本. 例5.1.5 设有一批产品共N 个,需进行抽样检验以了解其不合格品率p ,现从中抽出n个逐一检查它们是否是不合格品,记合格品为0,不合格品为 1.则总体为一个二点分布:p X P p X P -1)0(,1(====).设 1,...,n x x 为该总体的一个样本,采用不放回抽样得到.这时,第二次抽到不合格品的概率依赖于第一次抽到的是否是不合格品:11)11(12--===N Np x x P 1)01(12-===N Npx x P但当N 很大时,上述两个概率近似都等于p ,所以当N 很大,而n 不大时,不放回抽样得到的样本可近似看成简单随机样本.§5.2样本数据的整理与显示教学目的:要求学生熟练掌握样本数据整理与显示的常用方法.教学重点:熟练掌握求经验分布函数的方法,会用直方图和茎叶图的方法求频率分布. 教学难点: 样本数据整理与显示的常用方法的灵活应用.教学内容:本节内容包括经验分布函数,频数频率分布表,直方图和茎叶图. 5.2.1 经验分布函数定义 设n x x x ,,,21 是取自总体分布函数为)(x F 的样本,若将样本观测值从小到大进行排列为)()2()1(,,,n x x x ,则)()2()1(n x x x ≤≤为有序样本,如下函数(1)()(1)()0,(),,1,2,,11,n k k n x x kF x x x x k n n x x +<⎧⎪⎪=≤<=-⎨⎪⎪>⎩当当当称为经验分布函数.显然,)(x F n 是单调非降右连续的跳跃函数(阶梯函数),在点*k x x =处有间断,在每个间断点的跃度为),,3,2,1,1n k n=(,且1)(0≤≤x F n ,0)(lim =-∞→x F n x ,1)(lim =+∞→x F n x ,它满足分布函数的三个性质,所以必是一个分布函数.例5.2.1某食品厂生产听装饮料,现从生产线上随机抽取5听饮料,称得其净重为:351 347 355 344 351,求此样本的经验分布函数.略.例 某厂从一批荧光灯中抽出10个,测其寿命的数据(单位千时)如下:95.5, 18.1, 13.1, 26.5, 31.7, 33.8, 8.7, 15.0, 48.8, 48.3求该批荧光灯寿命的经验分布函数)(x F n (观察值).解:将数据由小到大排列得:8.7,13.1,15.0,18.1,26.5,31.7,33.8,48.8,49.3,95.5, 则经验分布函数为:⎪⎪⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎪⎪⎨⎧=19.08.07.06.05.04.03.02.01.00)(x F n 5.955.953.493.498.488.488.338.337.317.315.265.261.181.180.150.151.131.137.87.8≥<≤<≤<≤<≤<≤<≤<≤<≤<≤<x x x x x x x x x x x 经验分布函数的性质01 对每一个固定的x ,)(x F n 是事件“X x ≤”发生的频率,当n 固定时,)(x F n 是样本的函数,是一个随机变量,且)()(x F x F Pn −→−.02定理5.2.1(格里纹科定理):设n x x x ,,,21 是取自总体分布函数为)(x F 的样本,)(x F n 是经验分布函数,有1)0)()(sup lim (==-+∞<<∞-∞→x F x F P n x n .注 此定理表明,当n 相当大时,经验分布函数是总体分布函数的一个良好的近似.5.2.2 频数频率分布表样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表,其基本步骤是:1、对样本进行分组:首先确定组数k ,作为一般性原则,组数通常在5-20个.对容量较小的样本,通常将其分为5组或6组,容量为100左右的样本可分7到10组,容量在200左右的样本可分9~13组,容量为300左右级以上的样本可分12到20组.2、确定每组组距:每组组距可以相同也可以不同.但实际中常选用长度相同的区间,以d 表示组距.3、确定每组组限.4、统计样本数据落入每个区间的个数——频数,并列出其频数频率分布表. 具体例子略.5.2.3 样本数据的图形显示:常用的样本数据的图形显示主要有直方图和茎叶图,具体例子略.设),,,(21n X X X 为来自总体X 的一个样本,其样本观察值为),,,(21n x x x ,将该组数值n x x x ,,,21 分成l 组,可作分点:l a a a a ,,,,210 (各组距可以不相等),则各组为:(0a ,1a ],(1a ,2a ],……,(1-l a ,l a ],若样本观察值中每个数值落在各组中的频数分别为1m ,2m ,3m ,…,l m ,则频率分别为:n m 1,nm2……n m l ;以各组为底边,以相应组的频率除以组距为高,建立l 个小矩形,即得总体X 的直方图.由上分析可知:直方图中每一矩形的面积等于相应组的频率设总体X 的密度函数为)(x f ,则:总体X (真实值)落在第k 组(1-k a ,k a ]的概率为:⎰-kk a a dx x f 1)(.由伯努利大数定理可知:当n 很大时,样本观察值(单个)落在该区间的频率趋近于此概率;即:(1-k a ,k a ]上矩形的面积接近于)(x f 在此区间上曲边梯形的面积,当n 无限增大时,分组组距越来越小,直方图就越接近总体X 的密度函数)(x f 的图象.(这与定积分的意义具有同样的道理).§5.3统计量及其分布教学目的:理解数理统计的基本概念:统计量,熟练掌握样本均值、样本方差、样本原点矩、样本中心矩等常用统计量的计算公式,掌握次序统计量及其抽样分布.教学重点:样本均值、样本方差、样本原点矩、样本中心矩等常用统计量的求法;次序统计量的抽样分布.教学难点:次序统计量的抽样分布.教学内容:本节内容包括统计量与抽样分布,样本均值及其抽样分布,样本方差与标准差,样本矩及其函数,次序统计量及其分布,样本分位数与中位数5.3.1 统计量与抽样分布样本来自总体,含有总体各方面的信息,但这些信息较为分散,有时不能直接利用.为将这些分散的信息集中起来以反映总体的各种特征,需要对样本进行加工,最常用的加工方法是构造样本的函数,为此:定义5.3.1 设n x x x ,,,21 为取自某总体的样本,若样本函数),,(1n x x T T =中不含有任何未知参数,则称T 为统计量,统计量的分布为抽样分布.按上述定义:设n x x x ,,,21 为样本,则211,i ni i n i x x ==∑∑都是统计量,当2,σμ未知时,σμ11,x x -等都不是统计量.注 统计量不依赖于未知参数,但其分布一般是依赖于未知参数的.5.3.2 样本均值及其抽样分布样本均值、样本方差、样本k 阶矩及k 阶中心矩 定义5.3.2 设n x x x ,,,21 是来自某总体的样本.称∑==ni i x n x 11 为样本均值∑=-=ni i x x n S12*)(12为样本方差 2**SS = 为样本标准差∑=--=ni i x x n S 122)(11 为样本(无偏)方差 2S S = 为样本(无偏)标准差∑==n i ki k x n a 11 为样本k 阶(原点)矩∑=-=ni k i k x x n b 1)(1为样本k 阶中心矩注(1)∑=--=n i i x x n S 122)(11=][11122∑=--ni ix n x n (2)在分组样本场合下:若i x 为第i 组的组中值,i f 为该i 组的个数,k 为组数,则∑==++=ki i k k f n n f x f x x 111,其中 .∑=--=k i i i x x f n S 122)(11=][11122∑=--k i ii x n x f n . 例 从某班级的英语期末考试成绩中,随机抽取10名同学的成绩分别为:100,85,70,65,90,95,63,50,77,86(1)试写出总体,样本,样本值,样本容量;(2)求样本均值,样本方差及二阶原点矩.解:(1)总体:该班级所有同学的英语期末考试成绩X ;样本:(1X ,2X ,3X ,…,10X )样本值:)x ,,x ,x (n 21=(100,85,70,65,90,95,63,50,77,86) 样本容量:n =10(2)101111010ii x x ===∑(100+85+……+86)=78.1 22222111()[21.9 6.97.9]252.519n ii s x x n ==-=+++=-∑10222222211111(100857086)6326.91010n i i i i a x x n =====++++=∑∑次序统计量定义 5.3.7设n x x x ,,,21 是取自总体X 的样本,将其从小到大排序得到(1)(2)()n x x x ≤≤≤.定义)(i X :不论n x x x ,,,21 取怎样的一组观测值,)(i X 总取()i x 为其观测值,称)(i X 为第i 个次序统计量,从而有)()2()1(n X X X ≤≤.{}i ni X X ≤≤=11min ,{}i ni n X X ≤≤=1)(max 分别称为样本的最小、最大次序统计量.注 样本n x x x ,,,21 独立同总体分布,但)()2()1(,,,n X X X 既不独立又不同分布. 三、统计量X 与2S 的性质 定理5.3.1 0)(1=-∑=ni ix x.证明 略.定理 5.3.2数据观察值与均值的偏差平方和最小,即在形如∑=-ni ic x12)(的函数中,∑=-ni ix x12)(最小,其中c 为任意给定常数.证明 略.定理5.3.3 设n x x x ,,,21 是来自某个总体X 的样本,x 为样本均值.1) 若总体分布为),(2σμN ,则x 的精确分布为)1,(2σμnN .2) 若总体分布未知或不是正态分布,但2)(,)(σμ==X Var X E ,则n 较大时的渐近分布为)1,(2σμn N ,记为x .~)1,(2σμnN .证明 略.例5.3.3 略.定理 5.3.4 设总体X 具有二阶矩,即2)(,)(σμ==X Var X E <∞+, n x x x ,,,21 为从该总体中得到的样本,x 和2s 分别是样本均值与样本方差,则22211()(),()(),(s )()E x E X Var x Var X E Var X n nμσσ======.证明 略.5.3.5 次序统计量及其分布定义 5.3.7 设n x x x ,,,21 是来自总体为X 的一个样本,将其由小到大排序为(1)(2)()n x x x ≤≤≤,(若i x =j x 则其先、后次序可任意排),称i x 为该样本的第i 个次序统计量.特别地,称(1)=1min()i i nx x ≤≤ 为最小次序统计量,(n)=1max()i i nx x ≤≤为最大次序统计量.单个次序统计量的分布定理5.3.5 设总体X 的密度函数为()p x ,分布函数为()F x ,n x x x ,,,21 为样本,则第k 个次序统计量()k x 的密度函数为-1-!()=(())(1-())()(k-1)!(n-k)!k n k k n p x F x F x p x .例5.3.7 利用定理5.3.5 ,先求出(2)x 的密度函数为(2)()p x ,再求概率(2)1(<)2P x 多个次序统计量的联合分布定理5.3.6 设总体X 的密度函数为()p x ,分布函数为()F x ,n x x x ,,,21 为样本,次序统计量(i),)(<)x x i j (的联合密度函数为i-1j -i-1-!(y,z )=((y ))((z )-F(i -1)!(j-i -1)!(n -j)!n j ij n p F F F z p ≤. 例5.3.9 略§5.4三大抽样分布教学目的:掌握2χ分布,-F 分布,-t 分布的定义,分位数的定义及性质,会查分位数表 教学重点:三大分布的定义,性质 及应用 教学难点:三大分布的性质教学内容:本节内容包括2χ分布,-F 分布,-t 分布及一些重要结论.5.4.1 2χ分布(卡方分布)定义5.4.1设n X X X ,,,21 独立同标准正态分布)1,0(N ,则∑==ni iX122χ的分布称为自由度为n 的2χ分布,记为)(~22n χχ.)(2n χ的密度函数为:112221()2()2n x n p x xen --=Γ,x >0.性质1 可加性 若)(~),(~22m Y n X χχ且X 与Y 独立,则.)(~2n m Y X ++χ.类似的,若k X X X ,,,21 相互独立,分别服从,,,2,1),(2k i n i =χ 可以证明:)(~121∑∑==ki i ki in x X2 若)(~2n X χ, 则 n X E =)(,()2Var X n =证明:设n X X X ,,,21 为独立同分布于)1,0(N 的随机变量,则X 与∑=nj jX12同分布,且∑∑∑=======ni ni i ini in X D X E X E X E 11212)()()()(又由i X 独立并注意到)1,0(N 的四阶矩为3,可得∑∑∑====-=-==ni n i n i iiin X E X E X Var X Var 11122422)13(]))(()([)()(32χ分布的分位数定义 若)(~22n χχ,对给定的α,10<<α,称满足αχχα-=≤-1))((212n P的)(21n αχ-是自由度为n 的2χ分布的α-1分位数.2χ分布的上α分位数已制成表格.如10,01.0==n α,则查表可得209.23)(201.0=n χ,又如6,005.0==n α,则548.18)6(2005.0=χα图6-2 分布的上 分位点-2χα注1 要会查2χ分位数.2 -t 分布、-F 分布仍有相应的分位数定义.5.4.2 -F 分布定义5.4.2 设2212~(),~()X m X n χχ,且X 与Y 独立,则称12//X mF X n=的分布为自由度为(,)m n 的F 分布,记为~(,)F F m n ,,m n 分别为分子、分母的自由度.(,)F m n 的密度函数可由商的分布来推导,此处略. F 分布的上α分位点,我们称满足{}ααα==>⎰+∞),()(),(m n Fdy y f m n F F P的点),(m n F α为),(m n F 分布的上α分位点.性质 (1)若),(~1),,(~m n F Fn m F F 则. (2)),(1),(1m n F n m F αα=-.事实上,设~(,)F F m n ,则 ),,(~1m n F F且{},),(111),(111),(11),(⎭⎬⎫⎩⎨⎧≥-=⎭⎬⎫⎩⎨⎧≥-=⎭⎬⎫⎩⎨⎧≤=≥=m n F F P m n F F P m n F F P m n F F P ααααα于是αα-=⎭⎬⎫⎩⎨⎧≥1),(11m n F F P , 由α分位点的定义,显然α图6-7 F 分布的上 分布点α),(1),(1m n F n m F αα=- 成立. 例5.4.1 利用公式),(1),(1m n F n m F αα=-查表即可. 5.4.3 t —分布定义5.4.3 设212~(0,1),~()X N X n χ,且1X 与2X 相互独立,则称随机变量T =服从自由度为n 的t 分布,记为)(~n t T .t 分布的密度可由商的分布公式来推导,此处略,但必须注意:注 (1)、);(n x t 关于0=x 对称;(2)、);(n x t 在0=x 达最大值;(3)、);(n x t 以x 轴为水平渐近线;(4)、2221),(lim x x e n x t -∞→=π;即∞→n 时,t 分布)1,0(N →,一般地,当n >30时,t 分布与)1,0(N 非常接近.(5)若)(~n t T ,则1>n 时,()0;2,()2n E T n Var T n =>=-时 性质(1) 若),1(~),(~2n F t n t t 则;(2)1()().t n t n αα-=-补例 求下列上分位数:(1) 分位数的为其中。