当前位置:文档之家› 第六章数理统计学的基本概念

第六章数理统计学的基本概念

第六章数理统计的基本概念一、教学要求1.理解总体、个体、简单随机样本和统计量的概念,掌握样本均值、样本方差及样本矩的计算。

2.了解分布、t分布和F分布的定义和性质,了解分位数的概念并会查表计算。

3.掌握正态总体的某些常用统计量的分布。

4.了解最大次序统计量和最小次序统计量的分布。

本章重点:统计量的概念及其分布。

二、主要内容1.总体与个体我们把研究对象的全体称为总体(或母体),把组成总体的每个成员称为个体。

在实际问题中,通常研究对象的GAGGAGAGGAFFFFAFAF某个或某几个数值指标,因而常把总体的数值指标称为总体。

设x为总体的某个数值指标,常称这个总体为总体X。

X 的分布函数称为总体分布函数。

当X 为离散型随机变量时,称X的概率函数为总体概率函数。

当X为连续型随机变量时,称X 的密度函数为总体密度函数。

当 X服从正态分布时,称总体X 为正态总体。

正态总体有以下三种类型:(1)未知,但已知;(2)未知,但已知;(3)和均未知。

2.简单随机样本数理统计方法实质上是由局部来推断整体的方法,即通过一些个体的特征来推断总体的特征。

要作统计推断,首先要依照一定的规则抽取n个个体,然后对这些个体进行GAGGAGAGGAFFFFAFAF测试或观察得到一组数据,这一过程称为抽样。

由于抽样前无法知道得到的数据值,因而站在抽样前的立场上,设有可能得到的值为,n维随机向量()称为样本。

n称为样本容量。

()称为样本观测值。

如果样本()满足(1)相互独立;(2) 服从相同的分布,即总体分布;则称()为简单随机样本。

简称样本。

设总体X的概率函数(密度函数)为,则样本( )的联合概率函数(联合密度函数为)GAGGAGAGGAFFFFAFAF3. 统计量完全由样本确定的量,是样本的函数。

即:设是来自总体X 的一个样本,是一个n元函数,如果中不含任何总体的未知参数,则称为一个统计量,经过抽样后得到一组样本观测值,则称为统计量观测值或统计量值。

4. 常用统计量(1)样本均值:(2)样本方差:(3)样本标准差:它们的观察值分别为:GAGGAGAGGAFFFFAFAFGAGGAGAGGAFFFFAFAF这些观察值仍分别称为样本均值、样本方差和样本标准差。

(4)样本(k 阶)原点矩11,1,2,n k k i i A X k n ===∑(5)样本(k 阶)中心矩11(),2,3,n k k i i B X X k n ==-=∑ 其中样本二阶中心矩211(),n k i i B X X n ==-∑又称为未修正样本方差。

(6)顺序统计量将样本中的各个分量由小到大的重排成(1)(2)()n X X X ≤≤≤则称(1)(2)(),,n X X X 为样本顺序统计量,()(1)n X X -为样本的极差。

(7)样本相关系数:GAGGAGAGGAFFFFAFAF1()()()()n n i i i i i xy x y x x y y x x y y r S S =----==∑∑ 其中:,x y 分别为数据{}{},i i x y 的样本均值,,x y S S 分别为样本a 标准差。

GAGGAGAGGAFFFFAFAF5、直方图与箱线图(1)直方图先将所有采集的数据进行整理,得到顺序统计量,找出其中的最小值(1)x ,最大值()n x ,即所有的数据都落在区间(1)(),n x x ⎡⎤⎣⎦上,现取区间(1)(),n x k x k ⎡⎤-+⎣⎦(其中k 可取0.5,1.5等),该区间能覆盖区间(1)(),n x x ⎡⎤⎣⎦,将区间(1)(),n x k x k ⎡⎤-+⎣⎦等分为m 个小区间(先取一个区间,其下限比最小的数据稍小,其上限比最大的数据稍大,然后将这一区间等分为m 个小区间,通常n 较大时m 取1020,当50n <时则m 取56。

若m 取得过大,则会出现某些区间内频数为零,分点通常取比数据精度高一位,以避免数据落在分点上),小区间的长度记为∆,(1)()()()n x k x k l m +--∆==,∆称为组距,小区间的端点称为组限,数出数据落在每个小区间内的数据的频数i f ,算出频率GAGGAGAGGAFFFFAFAF(1,2,)i f i l n =,然后自左至右依次在各个小区间上做以(1,2,)if n i l =∆为高的小矩形,这样的图形就称其为频率直方图。

显然这种小矩形的面积就等于数据落在该小区间的频率(1,2,)i f i l n =,直方图的外廓曲线接近于总体X 的概率密度曲线。

(2)p 分位数定义 设有容量为n 的样本观察值12,,,n x x x ,样本(01)p p <<分为数记为p x ,它具有以下性质:(1)至少有np 个观察值小于或等于p x ;(2)至少有(1)n p -个观察值大于或等于p x 样本p 分位数可按以下法则求得:将12,,,n x x x 按从小到大的顺序排成(1)(2)()n x x x ≤≤≤ 01,若np 不是整数,则只有一个数据满足定义中的两点要GAGGAGAGGAFFFFAFAF求,这一数据位于大于np 的最小整数处,即为位于[]1np +处的数。

02,若np 是整数,则1,np np x x +都符合性质要求,故p x 取1,np np x x +的平均值。

综上可得:[](1)()(1)12np p np np x x x x ++⎧⎪=⎨⎡⎤+⎪⎣⎦⎩ np np 不是整是整 特别的:1()20.51()()2212n n n x x med x x ++⎧⎪⎪==⎨⎡⎤⎪+⎢⎥⎪⎣⎦⎩ n n 奇偶 0.25分位数又称为第一四分位数,又记为1Q ;0.75分位数又称为第三四分位数,又记为3Q(3)箱线图:数据集的箱线图是由箱子和直线组成的图形,它是在基于以下5个数据的图形概括:最小值GAGGAGAGGAFFFFAFAF 13,,,,Min Q M Q 最大值Max ,做法如下:(1)画一水平数轴,在轴上标记最小值13,,,,Min Q M Q 最大值Max ,在数轴上方画一个上下侧平行于数轴的矩形箱子,箱子的左右两侧分别位于13,Q Q 的上方,在M 点的上方画一条垂直线段,线段位于箱子的内部;(2)自箱子的左侧中点引一条水平线直至最小值上方;在同一水平高度自箱子右侧引一条水平线直至最大值上方。

箱线图完成。

在数据集中某一个观察值不寻常的大于或小于该数集中的其他数据,称为疑似异常值。

第一四分位数1Q 与第三四分位数3Q 之间的距离:31IQR Q Q =-称为四分位数间距,若数据小于131.5 1.5Q IQR Q IQR -+或大于,就认为他是疑似异常值。

GAGGAGAGGAFFFFAFAF将上述箱线图的做法修改如下: (1’)同(1) (2’)计算31IQR Q Q =-,若一个数据小于131.5 1.5Q IQR Q IQR -+或大于,则认为它是一个异常值,并以*表示;(3’) 自箱子的左侧中点引一条水平线直至数据中除去疑似异常值之后的最小值上方,再自箱子的右侧中点引一条水平线直至数据中除去疑似异常值之后的最大值上方; 这样做出的箱线图称为修正箱线图。

6关于Γ分布(1)Γ(Gamma )函数10(),(0)x x e dx s αΓα+∞--=>⎰它具有以下运算性质:(1)();()(1)!,;n n n N ΓααΓαΓ+==-∈特别地:(1)1Γ=GAGGAGAGGAFFFFAFAF1()2Γ= 1201()2x x e dx Γ+∞--=⎰2,2t x t dx tdt =⇒==2221200011()222xt t t x e dx e tdt e dt e dt t Γ+∞+∞+∞+∞------∞====⎰⎰⎰⎰ 令222222()()()t t s t I edt I e dt eds e dt +∞+∞+∞+∞-----∞-∞-∞-∞=⇒==⎰⎰⎰⎰220r d e rdr I πθπ+∞-==⇒=⎰⎰ 所以1()2Γ=(2)设随机变量X 服从Γ分布,即:(,)X Γαθ,其密度函数为:GAGGAGAGGAFFFFAFAF11()()0x x e f x αθαθΓα--⎧⎪=⎨⎪⎩0x qita > 0,0αθ>>定理:设随机变量X ,Y 都服从Γ分布且相互独立,即:(,)XΓαθ,(,)X Γβθ其密度函数分别为:11()()0x X x e f x αθαθΓα--⎧⎪=⎨⎪⎩0x qita > 0,0αθ>>11()()0y Y y e f y αθαθΓα--⎧⎪=⎨⎪⎩0y qita > 0,0βθ>>则Z X Y =+服从参数为,αβθΓ+的分布,即:(,)X Y Γαβθ++7、经验分布函数 设12,,n X X X 是总体F 的一个样本,用(),()S x x -∞<<+∞表示12,,n X X X 中不大于x 的随机变量的个数,定义经验分布函数为:1()(),()n F x S x x n=-∞<<+∞ 例题1:设总体F 有一个样本值1,2,3,则经验分布函数为:GAGGAGAGGAFFFFAFAF30,11,123()2,2331,3x x F x x x <⎧⎪≤<⎪=⎨≤<⎪⎪≥⎩例题2:设总体F 有一个样本值1,1,2,则经验分布函数为:30,12(),1231,2x F x x x <⎧⎪=≤<⎨⎪≥⎩格里汶科定理:(1933年)对于任意一实数x ,当n →∞时,()n F x 以概率1收敛于分布函数()F x{}lim sup ()()01n n x P F x F x →∞-∞<<+∞-==8. 三个重要分布 (1)分布 设为独立标准正态变量,称随机变量的分布为自由度为n 的分布,记为。

其密度函数为:GAGGAGAGGAFFFFAFAF11221()2()20n x n x e n f x Γ--⎧⎪⎪=⎨⎪⎪⎩00x x >≤性质:(1)若22(),n χχ则22(),()2E n D n χχ==因为(0,1)iX N所以:()0,()1i i E X D X ==2()()1i i E X D X == 221()()ni i E E X n χ===∑又 24224()()(())()1312,(1,2,)i i i i D X E X E X E X i n =-=-=-==其中:22224433222()()222t t ti t E X t e dt t e d t de ππ+∞+∞+∞----∞-∞-∞==--=-⎰⎰222233322222()2t t t t tde t de e dt t edt π+∞+∞+∞----+∞-∞-∞-∞-∞⎡⎤=-==⎢⎥⎢⎥⎣⎦⎰⎰22222222()3t t t t tde te e dt edt +∞+∞+∞----+∞-∞-∞-∞-∞⎡⎤==-==⎥⎥⎦⎰⎰⎰(2)2χ分布的可加性 设22221122(),()n n χχχχ,并且相互独立,则有:2221212()n n χχχ++(3)2χ分布的分位点GAGGAGAGGAFFFFAFAF对于给定的正数(01)αα<<,称满足条件222()(())()n P n f x dx ααχχχα+∞>==⎰的点2()n αχ为2()n χ分布的上α分位点。

相关主题