当前位置:文档之家› 第五节数理统计的基础知识

第五节数理统计的基础知识

第五章数理统计的基础知识在前四章的概率论部分中,我们讨论了概率论的基本概念、思想和方法。

知道随机变量的统计规律性是通过随机变量的概率分布来全面描述的。

在概率论的许多问题中,概率分布通常是已知的或假设为已知的,在这一前提下我们去研究它的性质、特点和规律性,即讨论我们关心的某些概率、数字特征的计算以及对某些问题的判断、推理等。

但在许多实际问题中,所涉及到的某个随机变量服从什么分布我们可能完全不知道,或有时我们能够根据某些事实推断出分布的类型,但却不知道其分布函数中的某些参数。

例如:1、某种电子元件的寿命服从什么分布是完全不知道的。

2、检测一批灯泡是否合格,则每个灯泡可能合格,也可能不合格,则服从(0-1)分布,但其中的参数p未知。

对这类问题要深入研究,就必须知道与之相应的分布或分布中的参数。

数理统计要解决的首要问题就是:确定一个随机变量的分布或分布中的参数。

数理统计学是研究随机现象规律性的一门学科,它以概率论为理论基础,研究如何以有效的方式收集、整理和分析受到随机因素影响的数据,并对所考察的问题作出推理和预测,直至为采取某种决策提供依据和建议。

数理统计研究的内容非常广泛,可分为两大类:一是:怎样有效地收集、整理有限的数据资料。

二是:怎样对所得的数据资料进行分析和研究,从而对所考察对象的某些性质作出尽可能精确可靠的判断—本书中参数估计和假设检验。

第一节数理统计的基本概念一、总体与总体的分布在数理统计中,我们将研究对象的全体称为总体或母体,而把组成总体的每个元素称为个体。

总体中所包含的个体的个数称为总体的容量.容量为有限的总体称为有限总体;容量为无限的总体称为无限总体. 总体和个体之间的关系就是集合与元素之间的关系.在实际问题中,研究对象往往是很具体的事物或现象,而我们所关心的不是每一个个体的种种具体的特征,而是其中某项或某几项数量指标,记为X。

例如:研究一批灯泡的平均寿命时,该批灯泡的全体构成了研究的总体,其中每个灯泡就是个体。

但在实际问题中,我们仅仅关心灯泡的使用寿命(记X表示该批灯泡的寿命)。

则X就是我们研究的总体(所有灯泡寿命的集合),每一个灯泡的寿命就是一个个体。

再如:考查某一群体的身高和体重,则全体人员的(身高、体重)是总体,每个人的身高和体重是个体。

由此给出定义:总体:对所研究对象的某些指标进行试验,将试验的全部可能的观测值称为总体记为X。

个体:每一个可能的观测值称为个体。

对不同的个体,X的取值一般是不同的。

例如在试验中观察若干个个体就会得到X的一种数值,但在试验或观察之前,无法确定会得到一组什么样的数值,所以X是一个随机变量或随机向量,而X的分布也就完全描述了我们所关心的指标,即总体的分布。

为方便起见,以后我们将X的可能取值的全体组成的集合称为总体,或直接称随机变量X为总体,X的分布也就是总体的分布。

例如:正态总体:是指表示总体某个数量指标的随机变量服从正态分布。

【注1】总体的分布一般情况下是未知的,这就需要利用总体中部分个体的数据资料来对总体服从的分布进行检验—这是分布拟合检验(非参数检验)问题;有时即使知道总体所服从的分布,但分布中的参数未知,这也需利用利用总体中部分个体的数据资料来对总体服从的分布中的未知参数进行统计推断(参数估计)。

而这就需要从总体中抽取若干个体进行观察,从中获得研究总体的一些观察数据,然后通过这些数据的统计分析,对总体的分布进行判断或对总体的参数做出合理的估计。

而一般的方法是按照一定的原则从总体中抽取若干个体进行观察,这个过程称为随机抽样。

二、样本与样本的分布由于每个个体的观察结果具有随机性,因此可以将第i 次抽取的个体记为i X ,则为随机变量,为此引入以下概念。

1、样本:从一个总体X 中,随机的抽出n 个个体12,,,n X X X L ,通常记为),,,(21n X X X 这样取得的12,,,n X X X L 称为总体X 的一个样本。

样本所含的个体数目称为样本容量.【注2】:(1)由于每个i X 都是从总体X 中随机抽出的,因此是一个随机变量,而样本),,,(21n X X X 就是n 维的随机向量。

(2)在依次取n 个个体12,,,n X X X L 观测完毕后,得到n 个具体的数据),,,(21n x x x ,称为样本),,,(21n X X X 的观测值—样本值。

因此样本本身是随机向量,而一经抽取就是一组确定的数值,这就是所谓的样本两重性。

2、简单随机样本我们的目的是根据从总体中抽取的一个样本值),,,(21n x x x 对总体X 的分布或某些特征进行各种分析推断,所以要求抽取的样本能很好地反映总体的特性,为此我们要求随机抽取的样本),,,(21n X X X 满足:(1)具有代表性。

即样本的每个分量X i 与总体X 有相同的分布;(2)具有独立性。

即12,,,n X X X L 是相互独立的随机变量,也就是说,n 次观察值之间是互相独立的;满足上述两条的样本称为简单随机样本,今后如无特别说明,所说的样本均指简单随机样本。

在实际问题中,抽取简单随机样本的方法很简单: (1)放回抽样;(2)不放回抽样:有限总体,当样本容量远小于总体容量时,不放回近似代替放回; 无限总体,总是用不放回抽样.综合上述,给出明确的数学概念:定义一:一个随机变量X 或其相应的分布函数(分布律、密度函数)称为一个总体。

定义二:若随机向量12,,,n X X X L 是相互独立的随机变量且每个分量X i 与总体X 有相同的分布,则称12,,,n X X X L 是来自总体的容量为n 的简单随机样本。

简单随机样本的分布有如下性质:设总体X 的分布函数为()F x (称为总体分布函数),或密度函数()f x 或分布律(称为总体概率密度),则来自总体的样本),,,(21n X X X 的 联合分布函数:121(,...)()nn ii F x x x F x,称为样本分布函数联合密度函数:121(,...)()nn ii f x x x f x,称为连续样本密度函数联合分布律:1211221(,,)(,...)()nn n n ii p x x x P X x X x X x P X x L ,称为离散样本密度【例1】 总体X 服从参数为p 的(0-1)分布,{1},{0}1P X p P X p ,求),,,(21n X X X 的分布。

【解】由题意X 的分布律为1{}(1),(0,1)xxP X x p p x ,设12(,,,)n x x x L 为来自X 的简单随机样本值,则),,,(21n X X X 的联合概率分布为1111211221(,,)(,...)(1)(1)nniiiii i nx n x x x n n n i p x x x P X x X x X x p p ppL【例2】总体X 服从2(,)N ,求样本),,,(21n X X X 的联合密度函数.【解】设12(,,,)n x x x L 为来自X 的简单随机样本值,则),,,(21n X X X 的联合概率分布为221221111(,,,)()]exp{()}22nnn i n ii i x f x x x x L 三、统计推断问题简述总体和样本是数理统计中的两个基本概念. 样本来自总体,自然带有总体的信息,从而可以从这些信息出发去研究总体的某些特征(分布或分布中的参数). 另一方面,由样本研究总体可以省时省力(特别是针对破坏性的抽样试验而言). 我们称通过总体X 的一个样本n X X X ,,,21 对总体X 的分布进行推断的问题为统计推断问题.总体、样本、样本值的关系:总体↙ ↖推断(个体)样本 → 样本值抽样在实际应用中, 总体的分布一般是未知的, 或虽然知道总体分布所属的类型, 但其中包含着未知参数. 统计推断就是利用样本值对总体的分布类型、未知参数进行估计和推断.通过观察或试验得到的样本值,一般是杂乱无章的,例如: 例1样本的一些例子与观察值的表示方法:(1) 某食品厂用自动装罐机生产净重为345克的午餐肉罐头, 由于随机性, 每个罐头的净重都有差别. 现在从生产线上随机抽取10个罐头, 秤其净重, 得如下结果:344 336 345 342 340 338 344 343 344 343这是一个容量为10的样本的观察值, 它是来自该生产线罐头净重这一总体的一个样本的观察值.(2) 对363个零售商店调查周售额(单位:元)的结果如下:154211013561]30000,20000(]20000,10000(]10000,5000(]5000,1000(1000商店数零售额这是一个容量为363的样本的观察值, 对应的总体是所有零售店的周零售额. 不过这里没有给出每一个样本的具体的观察值, 而是给出了样本观察值所在的区间, 称为分组样本的观察值.这样一来当然会损失一些信息, 但是在样本量较大时, 这种经过整理的数据更能使人们对总体有一个大致的印象.通过该例可以看出,以上的两种样本值的表示方法,虽然能够反应出总体的一些大致的信息,但不够直观,判断不出总体服从什么分布。

为了对总体的分布有一个大致的判断,就需要对所获得的样本值进行整理,而分组数据统计表或频率直方图是两种常用整理方法.四、分组数据统计表和频率直方图1. 分组数据表:若样本值较多时,可将其分成若干组,分组的区间长度一般取成相等, 称区间的长度为组距. 分组的组数应与样本容量相适应. 分组太少,则难以反映出分布的特征,若分组太多,则由于样本取值的随机性而使分布显得杂乱. 因此,分组时,确定分组数(或组距)应以突出分布的特征并冲淡样本的随机波动性为原则. 区间所含的样本值个数称为该区间的组频数. 组频数与总的样本容量之比称为组频率.2. 频数直方图:设n X X X ,,,21 是总体X 的一个样本,又设总体具有概率密度f ,如何用样本来推断f ?注意到现在的样本是一组实数,因此,一个直观的办法是将实轴划分为若干小区间,记下诸观察值i X 落在每个小区间中的个数,根据大数定律中频率近似概率的原理,从这些个数来推断总体在每一小区间上的密度。

具体做法如下:设n x x x ,,,21 是样本的n 个观察值.(i) 求出n x x x ,,,21 中的最小者)1(x 和最大者)(n x ;(ii) 选取常数a (略小于)1(x )和b (略大于)(n x ),并将区间],[b a 等分成m 个小区间(一般取m 使nm在101左右): mab t m i t t t i i,,,2,1),,[ , 一般情况下,小区间不包括右端点.(iii) 求出组频数i n ,组频率i i f nn,以及),,2,1(,n i tfh i i(iv) 在),[t t t i i 上以i h 为高,t 为宽作小矩形,其面积恰为i f ,所有小矩形合在一起就构成了频率直方图频率直方图能够大体刻画总体的分布情况。

相关主题