《概率论与统计原理》第5章
第五章 统计原理
§5.1 数理统计的基本概念
5.1.1 总体和样本
在实际中,我们把研究对象的全体组成的集合称 为总体;组成总体的每一个元素称为个体;总体 的一个子集称为样本。
在数学上,我们把随机变量X称为总体,并把随机 变量X的概率分布称为总体分布;把相互独立且与 总体X 同分布的随机变量(X1,X2,…,Xn)称 为来自总体X的一个简单随机样本;n称为样本容 量;把样本(X1,X2,…,Xn)的每一个具体值
区间估计是指根据估计可靠程度的要求,由样本确定 总体参数的一个区间范围。
5.3.2 参数的点估计 最常用的点估计方法:矩估计法和极大似然估计法。
一、矩估计法
矩估计法是用样本矩来估计总体矩,用样本矩的函数 来估计总体矩的相应函数的一种估计方法。
例7 设总体X服从参数为λ的指数分布,其中λ未知。 (X1,X2, ,Xn)是来自X的简单随机样本,求λ 的矩估计量 。
例4 根据例1(2)和例2中的数据,分别求其经验分布 函数。
§5.2 抽样分布
5.2.1 χ2分布
设(X1,X2,…,Xn)是来自正态总体N(0,1)的样 本,称统计量
χ2 =X12+X22+…+Xn2 服从自由度为n的χ2分布,记为χ2 ~ χ2(n)。
χ2分布上α分位点:对于给定的α(0<α<1),称满足条
(x1,x2,…,xn)称为样本(X1,X2,…,Xn)的 一组样本观测值或样本实现。
5.1.2 统计量
设(X1,X2,…,Xn)是来自总体X的一个简单随 机样本,称样本的函数T=g(X1,X2,…,Xn)为 统计量,如果它不依赖于任何未知参数。统计量的
具体值亦称做统计量的实现。
几个常用的统计量:
家庭数
18 35 76 24 19 14 14
求样本均值和样本方差近似值。 5.1.3 经验分布函数
对于任意实数x,设μn表示样本(X1,X2,…,Xn) 的n个观察值中不大于x的观察值的个数,则μn表 示在对总体X的n次独立重复观测中,事件{X≤x}出 现的次数。因此在对总体X的n次独立重复观测中, 事件{X≤x}出现的频率
n
L ( ) L(x1, x2 , , xn; ) f (xi ; ) i 1
为似然函数 。
对于给定的样本观测值(x1,x2, ,xn),使似
然函数L(θ)达到最大值的参数值 ˆ ,称为未知
参数θ的极大似然估计值,相应的统计量称为未知 参数θ的极大似然估计量。
极大似然估计量,可以用微积分中求函数的极大值 的方法来求.不过,这里求的不是函数的极大值, 而求是函数的极大值点。
件
P{ 2 2 (n)}
为χ2(n)分布的上α分位点。
5.2.2 t分布 随机变量X~N(0,1),Y~χ2(n),且X和Y相互独立,
则称随机变量 T X Yn
服从自由度为n的t分布,记为T~t(n)。 t分布上α分位点:对于给定的α(0<α<1),称满足条
件
P{t t (n)}
为t(n)分布的上α分位点。
统计假设的检验,简称假设检验,是指按照一定 规则即检验准则,根据样本来判断所作假设的真 伪,以决定接受还是否定假设。
(1)检验准则
检验准则,简称为检验,指接受还是否定假设所 依据的规则。检验准则通常用原假设的否定域来 表示。
否定域亦称拒绝域或临界域,假设H0的否定域是 样本空间的一个区域V,当样本值落入区域V时, 否定假设H0 。
ˆ
三、评价估计量的标准 1、无偏性
设ˆ 是未知参数θ的估计量,如果E ˆ=θ,则称 是ˆ θ
的无偏估计量。 例12 设X为任意总体,EX =μ,DX = σ2存在。(X1,
X2, ,Xn)是来自总体X的简单随机样本,证明 (1)样本均值是μ的无偏估计量;(2)样本方差 是σ2的无偏估计量。
2、有效性 设 ˆ1与 ˆ2 为未知参数θ的两个无偏估计量,如果
5.2.3 正态总体的抽样分布
设(X1,X2,…,Xn)是来自正态总体N(μ,σ2)的 一个样本,则
(1)样本均值 X ~ N (, 2 n)
(2)随机变量
2
(n 1)S 2
2
1
2
n
(Xi
i 1
X )2
~
2 (n 1)
(3)样本均值和样本方差相互独立
(4)随机变量 T X ~ t(n 1)
(2)假设检验的理论依据
小概率原则。所谓小概率原则,就是根据具体问 题的要求,指定一个可以认为“充分小”的数α (0<α<1),并且把概率不大于α的事件认为是 “实际不可能事件”,即认为这样的事件在一次 试验或观测中实际上不会出现。
4、假设检验的基本步骤
(1)根据实际问题的要求提出原假设H0和备择假设 H1,并且在作出最后的判断之前,将始终在假设 H0成立的假定下进行分析;
2、统计假设的基本类型
(1)参数假设与非参数假设 可以用有限个参数表示的统计假设称为参数假设, 否则称为非参数假设。
(2)原假设与备择假设 两个二者必居其一的假设,其中一个称做原假设, 习惯上记为H0;而另一个称做备择假设,习惯上 记为H1。原假设也称为零假设;备择假设也称为 对立假设。
3、统计假设的检验
P{ˆ1 ˆ2} 1
则称(随机)区间 (ˆ1,ˆ2 ) 称为参数θ的区间估计
或置信区间,称概率1-α为置信区间的置信度(水 平)。
二、一个正态均值μ的置信区间
1、 总体方差σ2已知
均值的1-α为置信区间为
( X u / 2
,X
n
u / 2
)
n
其中uα/2为标准正态分布双侧分位数。
例14 某企业生产的滚珠直径X服从N(μ,0.0006)。
Fn (x)
n (x)
nห้องสมุดไป่ตู้
称为总体X的经验分布函数或样本分布函数 。
对于给定的样本值(x1,x2,…,xn),经验分布函 数具有分布函数的一切性质,经验分布函数也是一 个阶梯型的函数;经验分布函数依概率收敛于总体 的分布函数。
经验分布函数依概率收敛于总体的分布函数这个结 论,为进行统计推断提供了依据。
的置信水平为0.95的置信区间。
三、一个总体方差σ2的置信区间
总体方差σ2的1-α置信区间为
(n
2 /
1)S 2 2 (n 1)
,
(n
2 1
1)S 2 /2 (n 1)
其中
2 p,
是是自由度为ν的χ2分布水平p的上侧分位数。
标准差的1-α置信区间为
(n 1)S 2
2 / 2 (n 1) ,
(n 1)S 2
2 1
/2
(n
1)
例16 从自动车床加工的一批零件中随机抽取了16件, 测得零件长度的平均值为2.125cm,标准差为 0.017cm。假设零件的长度服从正态分布,求零件 长度标准差的0.95置信区间。
§5.4 假设检验
一、假设检验的基本概念
1、统计假设的概念
统计假设是关于总体参数或数字特征、总体的分 布以及两个或两个以上总体之间的关系的一切论 断或命题,简称假设。通常用字母“H”表示假设。
Sn
例5 设总体X服从N(0,0.32),(X1,X2,…,X10) 是来自X的一个容量为10的样本,求概率
10
P{
X
2 i
1.44}
i 1
例6 假设一种电子元件的使用寿命X(小时)服从正
态分布N(3000,8002)。一名顾客购买了50个元
件,试求这50个元件的平均使用寿命超过3250的概
率。
最大统计量 X (n) max{ X 1, X 2 , , X n }
极差
R X (n) X (1)
例1 设假设总体X服从参数为p(0<p<1)的0-1分布, p未知。(X1,X2,…,X5)是来自X的简单随机 样本。
(1)指出X1+X3,min(X1,X2,…,X5),X5+2p (X5 -X2),X2-EX4,(X3-X5)2,中哪些是统计 量,哪些不是统计量 ?
D ˆ1 <D ˆ2 则称ˆ1 是比 ˆ2 有效的估计量。
在未知参数的任意两个无偏估计中,显然应该选更有 效的,即方差较小的。
3、一致性
设 ˆ 为未知参数θ的估计量,如果 依ˆ 概率收敛于θ,
则称 是θˆ的一致估计量。
例13 设X为任意总体,其k阶原点矩ak= EXk(k>0)
存 随 体k在机阶。样原设 本点( ,矩证Xa1,明k的X样无2,本偏k与阶,一原X致点n)估矩是计a来量k 自。1n总in体1 XXik的是简总单
例10 设总体X服从参数为p的0-1分布,求参数p的极 大似然估计量。
若从一大批产品中,用还原方法抽取了50件产品, 发现其中有2件是次品,求p的极大似然估计值。
例11 假设总体X~N(μ,σ2), μ与σ2都未知.试根
据来自X的简单随机样本(X1,X2, ,Xn),求 μ与σ2的极大似然估计量。
1、样本均值
X
1 n
n i 1
Xi
2、样本方差
S 2
1 n 1
n i 1
(Xi
X )2
3、样本标准差
S
1 n 1
n i 1
(Xi
X )2
4、样本k 阶原点矩
ak
1 n
n i 1
X
k i
5、样本k 阶中心矩
k
1 n
n
(Xi
i 1
X )k
6、顺序统计量 最小统计量 X (1) min{ X 1, X 2 , , X n }
由于lnx是x的严格单增函数,因此 L(θ)和ln L(θ)在同 一处取极大值,因此我们也称ln L(θ)为似然函数。