第4章数理统计的基础知识数理统计与概率论是两个有密切联系的学科, 它们都以随机现象的统计规律为研究对象.但在研究问题的方法上有很大区别:概率论——已知随机变量服从某分布,寻求分布的性质、数字特征、及其应用;数理统计——通过对实验数据的统计分析, 寻找所服从的分布和数字特征, 从而推断整体的规律性. 数理统计的核心问题——由样本推断总体从本章开始,我们将讨论另一主题:数理统计。
数理统计是研究统计工作的一般原理和方法的科学,它主要阐述搜集、整理、分析统计数据,并据以对研究对象进行统计推断的理论和方法,是统计学的核心和基础。
本章将介绍数理统计的基本概念:总体、样本、统计量与抽样分布。
由于大量随机现象必然呈现出它的规律性,因而从理论上讲,只要对随机现象进行足够多次观察,被研究的随机现象的规律性一定能清楚地呈现出来。
但客观上只允许我们对随机现象进行次数不多的观察试验,也就是说, 我们获得的只是局部观察资料。
数理统计就是在概率论的基础上研究怎样以有效的方式收集、整理和分析可获的有限的, 带有随机性的数据资料,对所考察问题的统计性规律尽可能地作出精确而可靠的推断或预测,为采取一定的决策和行动提供依据和建议.§4.1 总体与样本一、 总体与总体分布1.总体:具有一定的共同属性的研究对象全体。
总体中每个对象或成员称为个体。
研究某批灯泡的质量,该批灯泡寿命的全体就是总体;考察国产 轿车的质量,所有国产轿车每公里耗油量的全体就是总体;某高校学习“高等数学”的全体一年级学生。
个体与总体的关系,即集合中元素与集合之间的关系。
统计学中关心的不是每个个体的所有具体特性,而是它的某一项或某几项数量指标。
某高校一年级学生“高等数学”的期末考试成绩。
对于选定的数量指标 X (可以是向量)而言,每个个体所取的值是不同的,这一数量指标X 就是一个随机变量(或向量);X 的概率分布就完全描述了总体中我们所关心的这一数量指标的分布情况。
数量指标X 的分布就称为总体的分布。
说明例如 服装厂生产的各式服装,玩具厂生产的儿童玩具,检验部门通常将产品分成若干等级。
3X 总体分布就是设定的表示总体的随机变量.的分布.4.1 X X 定义统计学中称随机变量(或向量)为,并把随机变量(或向量)的分布称为总体总体分布.1X 表示总体的既可以是随机变量,也可以.是随机向量.2 有时个体的特性本身不是直接由数量指.标来描述的.总体的分布一般来说是未知的,统计学的主要任务正是要对总体的未知分布进行推断。
二 样本与样本分布以下假定所考虑的样本均为简单随机样本,并简称为样本。
样本的双重理解全体样本值组成的集合称为样本空间12122.4.n n X X X X X X X X n 称(,,,)为总体的,若,,, 是独立同分布的随机变量,且与总体同分布,样本中所含分量简单随机的个数称为该样本定义本的样容量1212n n X X X x x x 在未观察具体的抽样结果时,样本(,,,)视为随机向量.观察具体的抽样结果后,样本便可理解为所得的一组具体的观察值(,,,),称为样本值.1212i 1(),(,,)(n nn i X F x X X X F x x x F x ==∏ 设总体的分布函数为则样本(,,,)的分布函数为,).称之为样本分布.121122i 1(){},(,,){,,,}(nn n n i X p x P X x x X p x x x P X x X x X x p x ========∏ 若总体为随机变量,概率分布为取遍所有可能值,则样本的概率分布为离散型 ,).2(41,X X N μσ 称总体为正态总体,如它服从正态分布.正态总体是统计应用中最 例常见的总体.现设总体服从正态分布),则气样本密度.由下式给出:212i 12211(,,)()}(21exp{()}2ni n i n ni i x f x x x f x x μσμσ==-=-=--∑ ,).(01){1}.4,{0}1X p p P X p P X p <<====- 称总体为伯努利总体,如它服从以为参数的伯努利分布.即例.2比如我们从某班大学生中抽取10 人测量身高, 得到10 个数.我们只能观察到随机变量取的值而见不到随机变量.它们是样本取到的值而不是样本. 总体、样本、样本值的关系总体(理论分布)?样本样本值统计是从手中已有的资料—样本值, 去推断总体的情况—总体分布F (x )的性质.总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,事实上, 我们抽样后得到的资料都是具体的、确定的值. 因而可以由样本值去推断总体. 是总体的代表, 含有总体的信息分散、复杂样本是联系二者的桥梁121122,,,{,,,}n nn s n s n n X X X P X i X i X i p -==== 其样本()的概率分布为: (1-p)12101k n n i k n s i i i ≤≤= 其中(1)取或,而+++,它恰等于样本中取值为的分量之总数.1211221112(,,,){,,,}{}.!!!!43knn nn n k k isnn k k n X X X X P X i X i X i P X i ee i i i i λλλλλ=--========∏∏设总体服从参数为的泊松分布,为其样本,则样本的概率分布为: 例 .12k n n i k n s i i i ≤≤= 其中(1)取非负整数,而+++.三 统计推断问题简述12(,,,).n X X X X X 借助于总体的一个样本,对总体的未知分布进行推断,我们把这统计推类问题统称断问题为 为利用样本对未知的总体分布进行推断,我们需要借助样本构造样本的适当的函数,正是利用这些函数所反映的总体分布的信息来对总体分布所属的类型,或总体分布中所含的未知参数作出统计推断.§4.2 统计量一、统计量的定义二、常用的统计量以后简称修正样本方差为样本方差.12(,,)4,3n X X X X 不含设为总体的一个样本,称此样本的任一总体分布未知参数的函数为该样 本的 定义.统计量.221212125,,.(,,,)(,,4,)4n n n n n n X EX DX X X X X SS X X X X nS X X X X σσ===+++= 设总体服从正态分布,未知为总体的一个样本,令 ,. 例则与均为样本.的统计量.(5),.n X U U U σσ-= 但若令 则不是该样本的统计量,因的表示式中含有总体分布中的位置参数12(,,,)n X X X X 设为总体的一个样本.1211()n X X X X X n =+++称样本的算术平均值为样本均值,记为. 样本均值,即 .220120 ()21.n i i S X X n S ==-∑样本方差是用来描述样本中诸分量与样本均值的均方差异的,它有两种定义方式。
直观的: .并称为样本的. 样本方差未修正样本方差2220121()11.n i i n S S X X n n S ===---∑统计学中更常用另一种定义,即 .并称修正样样本的本方差为一阶原点矩即为样本均值.二阶中心矩即为未修正样本方差上述五种统计量可统称为样本的矩统计量,简称为样本矩.他们皆可表为样本的显式函数。
三、枢轴量仅含一个未知参数,但其分布却已知的样本函数成为枢轴量。
S S =样本标准差定义为样本方差的算术平3.样本标准即差方根,11,.41nk k i i k A k A k X n ==≥∑. 样本记 并称为样原点距阶的原点距本11()1.5,nk i i k B X X k n B k ==-≥∑记 并称为样本. 样本中心距阶中心距的12(1)(2)()(1)(2)()()(,,,),,,, 6)n n n i X X X X X X X X X X X i ≤≤≤ 设为总体的一个样本.将样本中的诸分量按由小到大的.顺序统计量顺序统计次序排列成 则称(为样本的一组,称为样本的第个顺序量统计量.(1)12(1)12()(1)min(,,,)max(,,,).n n n X X X X X X X X X X ==-样本极 特别地,称小值样本极与分别为与,并称为值样本的大极差1212(,,,)(,,,;),.n nX X X X U X X X θθ 设为总体的一个样本,需推断总体分布中某一未知参数,构造一个样本函数服从一个已知分布2200120(,),(,5,,)(),4n X N X X X X X U μσσμμσ-=设总体其中已知,未知,为总体的一个样本,令例.§4.3 常用的统计分布统计的目的就是借助从总体X 中随机抽取的样本1(,,)n X X ,构造相应的统计量(枢轴量),通过研究它们的分布来对未知的总体分布进行推断. 因此,本节将要补充统计学中经常用到的分布: 分布、F分布与 t 分布。
一、分位数在统计推断中,经常用到统计分布的一类数字特征-分位数,在讲常用的统计分布之前,我们先给出分位数的一般概念和性质,这对于以后查阅常用统计分布表和解决第五章的有关参数的区间估计和假设检验的问题都是非常有用的.1、上侧分位数定义2、上侧分位数的性质2χ{}(),(4.6)-()()(4.)().X F x F P X F F F F F F X F x αααααααααααα=== 设随机变量的分布函数为,对给定的实数(0<<1),如果实数满足 > 即 1上侧 或 1- 7则称为随机变量的分布的水平的.或 定义4直接称为分布函数的水平的分位数上侧4分位数.1001122(1) (), (1);(4.8)(2)()();(3)(0,1),1(),()1;(4.9)(4){},(4.10){}1.(4.11)F F x F F X f x f x dx X N u u u P X F P FX F ααααααααααααααα-+∞--=-~=~-Φ=Φ=-≤=<≤=-⎰若是严格单调递增的则 若, 则若,记水平的上侧分位数为则即对于像标准正态分布那样的对称分布(密度函数为偶函数),统计学中还用到双侧分位数。
3、双侧分位数定义4、双侧分位数的性质5、上侧分位数和双侧分位数的例题二、 分布 1、 分布的定义()(01),{},(4.12)()()1.(4.13)(5)4..X F x T P X T F T F T T X F x ααααααααααα<<>=--=- 设是对称分布的连续型随机变量,分布函数为,对于给定的实数如果正实数满足 即则称为随机变量的分布的水平的,也简称位,双侧分位数分位数或直接称为分布函数的分平义水的位数定21()1-,2{}1()(4.14)(2)(4.15)(3)(4.16)X F T P X T F T T F F F ααααααααα-=>=-===-由分布的对称性容易知道以下关系式成立:(1)或20.0500.050.050.0250.0250.0254.6(0,1),0.05{}0.05()10.050.95,1.645.0.05()10.0250.975,1.96.XN P X u u u u u u α=>=Φ=-==Φ=-== 例设求水平的上侧分位数和双侧分位数.解:由于 , 所以 查表可得 而水平的双侧分位数为,它满足查表得 2χ2χ对定义4.6的几点说明22χ、分布的典型模式112221201()(4.18)2()2()(0).6()4.n x n a xX f x x e n a x e dx X n X n a χχ--+∞--=ΓΓ=>Γ~⎰2如果随机变量的密度函数为其中是函数,称服从个自由度的分布 定义,记作1(1)()()(1)!()22121231()()(1,2,)22221(2).2(3)()(3)22.(4)(1)=a a a n n n n n n x n x x n x χλχχΓ=Γ=-+--Γ=Γ==≥=-=-222当是正整数时当时(2)是的指数分布的密度函数为单峰曲线,从原点开始递增,在处取得最大值,然后递减, 渐进于轴,关于不对称的密度函数在0处取无穷大,以y 轴为 垂直渐进线12222212,,,,(0,1), 1,2,,4.1,() .n i n X X X n X N i n X X X X n χ~==++设是个相互独立的随机变量且则题 服从 分布命2χ分布关于自由度3、的可加性22221(),4.2(),().(2)(),,2.X m Y n X Y X Y m n X n EX n DX n χχχχ~~+~+~==()若且与相互独立,则若则 命题1222221222222212122,,,()()m n m m m m n m nX X X X m X X X X Y X X X X Y X Y X X X X Y m n χχ+++++~++++++++~+设 独立、服从标准正态分布. (1)由于,根据定义4.6与命题4.1,与同分布,与同分步,再由与独立知,与同分 布 以证,明所.2χ4、分布的计算2221(),(4.6)(4.10){()}{()}X n P X n P X n ααχχχα-~>=<=时由与两式可以得到当122222122211142422122211(2)(),.,[]3(),[][]([])31 2.2.n n nnniii i i i i i i i n n nii i i X X X X n X X X X EX E X EX DX n E X D X E X E X X X X DX D X DX n χ=====~++======-=-====∑∑∑∑∑设,,,相互独立且均服从标准正态分布,由知与同分布于是此外由于见习题四(B)的第四题便知再因,,,相互独立,即得上述命题2.χ中第一个结论实际上说明分布同正态分布一样具有可加性2222(,)45()x n n n αχχχαχ≤由于分布是常用的统计分布,但又难于利用其密度函数进行直接计算,通常也为其制定了统计用表.附表3中对自由度的分布给出了水平的上侧分位数之值.222212222122(;),,({()}{()}){()}()}1-x n P X n X n P n X n ααααχχχχαχχα--<⋃>=<<= 因为不是对称函数,故对分布而言不存在双侧分位数但在以后统计推断中,将用到等式 ,或.222(10),0.05,{ 3.940}{18.307}0.05,{3.24720.483}0.95.45,P X P X P n n X X χαχχ=<=>=≤≤=>取水平查表可知 当自由度充分大(如)时,分布可近似地看作正态分布,于是由正态分布的分位数可近似地求得分布例如设的分位数.三、F 分布对定义4.7的说明1F 、分布的定义11()2211101(;,)()()(1)(4.20)(,)22( 4.,)(1)(0,0).(,)7m m n p q X m m m f x m n x x m n n nn B B p q x x dx p q X m X n F F m n --+--=+=~->>⎰ 如果随机变量的密度函数为其中是B(贝塔)函数,称服从第一自由度为,第二自由度为的分布, 记作定义***32.121F m m n x x m n m n x F ≥-=<+分布的密度函数曲线也为单峰曲线,当第一自由度时,曲线在处达最大值显见,即图形的峰值恒在小于1处取到.此外,不难看出,当两个自由度与都变得越来越大时,接近,从而函数曲线就在非常接近1的地方达到最高点.图4.5给出了若干分布的密度函数曲线.2F 、分布的典型模式221(),(),4.20),(,).4.3(,)4.(,).3Xm Yn X Y XnX m Z Y mYnZ Z F m n X F m n X F n m χχ-==~~~设且与相互独立,记则的密度函数为(因此由命题不难看出,若,则命题四、t 分布 1、t 分布的定义对定义4.8的说明F 3、分布的计算1-221-22({(,)}{(,)}){(,)(,)}1-P X F m n X F m n P F m n X F m n αααααα<⋃>=<<= 或1(1)4(5,10)4{ 3.33}0.05,{ 4.24}0.025.(10,5)4{ 4.74}0.05,{ 6.62}0.025.11(,)(,F X F P X P X Y F P Y P Y F m n F n m αααα-~>=>=~>=>== 例子:对于较小的,可以直接由附表查出分布的上侧分位数.设,查表知又设,查表知 (2)当接近于时,可以利用下式求出所需的上侧分位数.(4.21))0.950.9750.050.02511(,),(,).(,)(,)(5,10)11{}0.05,{ 4.24}0.95.4.74 6.62F m n F m n F n m F n m X F P X P X ==~<=≤≤=这样,当时,查表可知12211(;)(1),(4.23)4..8()n X x t x n x n X n t X t n +-=+-∞<<∞~如果 随机变量的密度函数为称服从自由度为的分布, 记义作 定2、t 分布的典型模式3、t 分布的计算211222(1)0. 1,5,10,lim(1).n x x t y x x n t n t x e nn t +--→∞==∞+==∞分布的密度函数曲线也为单峰曲线,但关于轴对称,在处取到最大值轴为其水平渐近线.图4.6给出了自由度时分布的密度函数曲线. (2) 当自由度很大时,分布也接近于标准正态分布,这是因为 时的分布的密度函数曲线,即为标准正态分布的密度函数曲线,但比标准正态分布的尾部有更大的概率.201,(),4.23),().4.4(1,)().4.4X N Y n X Y XT T T t n X F n t n χ=~~~设(,)且与相互独立,记则的密度函数为(因此由命题不难看出,若命题5()t t n t αααα附表对于一些充分小的值给出了分布的水平的上侧分位数之值.由于分布具有对称的密度函数,当接近1时,可按下式求出相应的上侧分位数:122()().(4.24)(),{()}{-()}.{()}.(8)0.05,(8) 1.860,(8) 2.306,{t n t n X t n P X t n P X t n t P X t n X t t t P αααααααααα-=->=<=>==== 因此,如由(4.6),(4.10)与上式得: 再由于分布具有对称的密度函数,具有双侧分位数,由(4.12)与(4.15)知 例如,设,取水平查表可知故有1.860}{ 1.860}{2.306}0.05.(),X P X P X n t t n u u ααα>=<=>=≈ 此外,由于自由度充分大时,分布近似于标准正态分布,故有其中为标准正态分布的上侧分位数.§4.4 抽样分布总体的分布是未知的,或是部分未知的.对总体的分布进行的统计推断称为非参数统计推断;对总体未知的重要数字特征(如总体数学期望、总体方差)或总体分布中所含的未知参数进行统计推断.这类问题称为参数统计推断.在参数统计推断问题中,经常需要利用总体的样本构造出合适的统计量(或枢轴量),并使其服从或渐近服从已知的确定分布。