当前位置:文档之家› (抽样检验)统计量与抽样分布

(抽样检验)统计量与抽样分布

第六章 统计量及抽样分布概率论和数理统计都是研究随机现象规律性的数学分支。

(1) 概率论特点:先提出随机现象的数学模型,然后研究其特性和规律 (2) 数理统计:(3) I )以概率论为理论前提,从实际观测或试验出发; II) 研究如何有效的收集、整理和分析受到随机因素影响的数据,并为之建立适当的数学模型;III)对其进行检验,在此基础上对所研究的问题作出推断和预测,为采取行动和决策提供依据和建议。

§1总体、样本与统计量一、总体与样本在实际问题中,我们往往只能通过观察和试验来获取研究对象的信息,但是,如果要把 全体研究对象逐个一一检查,常常是不必要或不可能的. 如:(1)对自动生产线上高速生产的零件逐个检查,要耗费很多的人力、物力、财力及时间,且非必要;(2)为考察某些产品如灯泡的寿命,横梁的耐冲击强度等而进行的破坏性试验,逐个检查将使生产失去意义 所以,实际问题中,只能也只需通过测试部分对象的数据,由此来推断全体研究对象的性质,由部分推断总体。

这是数理统计面对的基本问题。

1、 总体:研究对象的全体,如一批灯泡的寿命具体:研究对象的某个或某几个特性的数量指标,所有的可能取值所构成的集合。

如,研究对象:一个城市的居民家庭;X :人均收入;Y :人均支出;Z :人均居住面积,则三个总体:{}()()(){}()()(){}121122111222,,...,,,,,,,,,,,,,n X X X X X Y X Y X Y X Y Z X Y Z X Y Z ===L L L 通常我们学习研究对象的一个特性的数量指标,所有可能取值所构成的集合。

如,X :灯泡寿命,总体{}12,,X x x =L ,其中灯泡是研究对象,寿命是数量指标。

2、 个体:组成总体的每一个基本单元(集合中的元素)3、 样本:从总体中随机地抽取几个个体所组成地集合,称为总体地一个样本:()12,,n X X X L ,通常看为n 维随机变量(1) 样本容量:样本中所含个体地个数n ,()1,2,n =≤L 总体中个体元素个数(2) 样本值:12,,n X X X L 的一个观测,记为:12,,n x x x L4、 抽样:从总体中抽取样本的过程。

这里指随机抽样。

目的:通过样本得到总体的相应情况。

(1)简单随机抽样:数理统计最常用的抽样方法。

满足特点:代表性:总体中每个个体被抽入样本的机会均等,即每个i X (个体)与总体X具有相同分布;独立性:样本中每个个体取什么值并不影响其它个体取什么值,即12,,n X X X L 相互独立。

(2)简单随机样本:简称样本(指用简单抽样方法获得的样本)。

即:12,,n X X X L 为简单随机样本()1212,,,,n n X X X X X X ⎧⎪⇔⎨⎪⎩L L 相互独立;与X具有相同的分布如,一批灯泡5万只,随机抽取1000只检查其寿命i X ,()1,2,1000i =L ,其中4只寿命低于规律值,为次品,总体{}1250000,,X X X X =L ,一个样本121000,,,X X X ∴L 样本的次品率为0.4%。

可推断,总体的次品率为0.4%。

(4) 这里可得到简单随机样本的方式:通常采用有放回地重复随机抽样:通常针对有限总体,尤其总体容量较小时;无放回…………………:指无限总体或样本容量相对较少,如小于等于总体的5%时。

5、 样本12,,n X X X L 的联合密度函数()()()()1212,,n n p x x x p x p x p x =L L ,其中:总体X 是连续型随机变量,其密度函数为()p x 。

二、统计量1、统计量:设12,,n X X X L 为取自总体X 的一个样本,()12,,n g x x x L 为一个连续函数,且不含未知参数,则称()12,,n g x x x L 为统计量。

如:总体()2~,X N μσ,12,,n X X X L 为取自总体X 的一个样本, (1)μ未知,σ已知,则含μ的不是;(2)σ未知,μ未知,则含μ或含σ的不是;简单地讲:统计量满足a )是样本12,,n X X X L 的实值函数;b )样本观测值()12,,n x x x L ?,就可求出统计量的具体值。

2、常用统计量设12,,n X X X L 为取自总体X 的一个样本,(1)样本均值:11ni i X X n ==∑(2)样本方差:()()2222111111nn i ii i S X X X nX n n ===-=---∑∑ 证明:(略)(3)样本均方差(标准差):S =样本方差2S 与均方差S 都反映了总体波动的大小,即反映总体()D X例1、从一批袋装食品中随机抽取6袋,测得其重量(单位:克),如下:462,465,451,472,459,448。

求样本均值X 和样本方差2S 。

解:总体X :指这批食品的重量(各袋重量构成的集合); 样本()126,,X X X L 是抽取6袋食品的重量样本值:(462,465,451,472,459,448)为这次抽取6袋食品测得的重量(1)612611462465448459.5666i i X X X X X =++++++====∑L L (2)()6222222212611166615i i S X X X X X X =⎡⎤=-=++-⎢⎥⎣⎦-∑L ()222214624654486459.579.55=+++-⨯=L 或2S ()()()2221462459.5465459.5448459.579.55⎡⎤=-+-++-=⎣⎦L §2样本分布函数设12,,n x x x L 为取自总体X 的一组样本值,可用频率分布表和直方图粗略地描述总体X 地分布。

一、频率分布表1、设总体X 是离散型随机变量,12,,n x x x L 是样本12,,n X X X L 地一组样本值。

12,,n X X X L 取到的值为12,,m a a a L ,且取到12,,m a a a L 的个数分别为12,,m v v v L ,(1)频数:i a 出现的次数i ν; (2)频率:i i f nν=,其中,12m n v v v =+++L ,即n 个数据中,取到i a 值的频率、比例;(3)频率分布表:可近似地反映(代替)总体X 的分布律二、直方图当总体X 是连续型随机变量时,可采用直方图来处理样本值。

1、 方法:(1)将样本值12,,n x x x L 从小到大排列,***12,,n x x x ⇒L 样本值落入区间](()**1,,n a b xx ⊃,a 略小于*1x ,比*1x 通常多一位小数;b 略小于*n x ,比*n x 通常多一位小数。

(2)将n 个样本值的各个不同取值所在的区间](,a b ()1m +等分()1m +等分,使m a 的值落入分割的小区间中,0121m m a t t t t t b +=<<<<<=L ,每一小区间长度:()1,0,1,1i i b at t i m m +--==+L m 大小,通常与样本容量对应,(3)依次数出样本值落在区间](1,i i t t +中的个数i ν,()0,1,i m =Li i f nν=——为样本值落入区间](1,i i t t +中的频率;(4)画出(频率)直方图:每个直方条:宽](1,i i t t +,长1ii if t t +-(){}111ii i i i i i if f t t S P t x t t t +++=⨯-=≈<≤-小矩形(5) 相应密度函数的大致曲线:光滑连接每条长方形上边中点。

三、样本分布函数由样本的分布函数,推断(近似得出)总体X 的分布函数。

作法:将一组来自总体X 的样本值12,,n x x x L ,从小到大排列***12n x x x ≤≤≤L()*1**112**223*0,,,1,n n x x x x x n F x x x x n x x νν⎧<⎪⎪≤<⎪⎪⎪=≤<⎨⎪⎪⎪>⎪⎪⎩M ,()n F x ――称样本分布函数通常n 越大,近似程度越好。

§3常用统计量的分布四种常用的统计量及其分布 一、X 的分布1、定理:设12,,n X X X L 是取自正态总体X 的样本。

()2~,X Nμσ,则有:样本均值2~,X N n σμ⎛⎫ ⎪⎝⎭,()~0,1X N μσ-∴样本12,,n X X X L 独立与X 同分布,()()2,,i i E X D X μσ==()121n X X X X n∴=++L 也服从正态分布, ()()1211n E X E X X X n n n μμ∴=++=⋅=L ,()()22122211n D X D X X X n n nσσ=++=⋅=L例1、设总体()~12,4X N ,抽取容量为16的样本。

求样本平均值X 的分布及{}13P X > 解:()~12,4X N ,16n = (1)()21~,12,4X N N μσ⎛⎫= ⎪⎝⎭,即X 服从参数2112,4μσ==的正态分布; (2){}{}()()13121311311311210.97720.022812P X P X F ⎛⎫ ⎪->=-≤=-=-Φ=-Φ=-= ⎪ ⎪⎝⎭二、2χ-分布1、定义:若随机变量12,,n X X X L 相互独立,都服从同分布,()~0,1i X N ,则称随机变量222212n X X X X χ=+++=L 服从自由度n 的2χ分布,记:2~()X n χ(1)2~()X n χ,X 的密度函数图形2χ-分布的密度曲线是个对称的,其形状与自由度n 有关,随自由度n 的增大而渐趋于对称。

(2)2χ-分布:已知自由度n ,给定正数()0,1α∈,由2χ分布表⇒临界值2αχ⇒{}2P X αχα≥= 例2、设随机变量2~(20)X χ,求下列情况下的k (1){}0.05P X k ≥=,解:20,0.05n α==,查表:{}31.410.05,31.41P X k ≥=∴=——即临界值2αχ2、 定理:设12,,n X X X L 是取自总体X 的样本,()2~,X Nμσ,则样本均值X 和样本方差2S相互独立,且()()2221~1n S n χσ-- 三、t -分布1、定义:若随机变量()~0,1X N ,2~()Y n χ,且X 与Y相互独立,则称随机变量T X=n 的t 分布,记为:()~T t n (1)t 分布的密度函数图形:对称,当自由度n 增大,其曲线趋于标准正态分布曲线 (2)t 分布表:已知()~X t n ,给定正数()0,1α∈,自由度n 查表⇒临界值()t n α⇒(){}P X t n αα≥= 例3、已知:()~15X t ,求下列情形中的k (1){}0.05P X k ≥=,解:0.0515,0.05(15) 1.75n k t α==⇒==,即{}1.750.05P X ≥= *2两个定理(1)设12,,n X X X L 是取自正态总体()2~,X Nμσ的样本,则()~1X T t n Sμ-=-,其中:X :样本均值;S 样本均方差(2)设X 和21S 为总体X 的样本均值和样本方差,()211~,X Nμσ,容量为1n ;设Y 和22S 为总体Y 的样本均值和样本方差,()222~,Y N μσ,容量为2n 。

相关主题