当前位置:
文档之家› 数理统计学:统计量与抽样分布
数理统计学:统计量与抽样分布
主要内容
1.1 总体和样本 1.2 统计量与估计量 1.3 抽样分布 1.4 次序统计量 1.5 充分统计量 1.6 常用的概率分布族
数理统计学 是探讨随机现象统计规律性的一门学科, 它以概率论为理论基础,研究如何以有效的方式收集、 整理和分析受到随机因素影响的数据,从而对所研究对 象的某些特征做出判断。
1.1.2 样本
(2) 抽样, 即从总体抽取若干个个体进行检查或观察,用所 获得的数据对总体进行统计推断。 由于抽样费用低,时间 短,实际使用频繁。本书将在简单随机抽样的基础上研究各 种合理的统计推断方法,这是统计学的基本内容。应该说, 没有抽样就没有统计学
1.1.2 样本
• 从总体中抽出的部分(多数场合是小部分)个体组成的集合 称为样本。
(2)
(n 1)s2
2
~χ2(n-1);
(3) x与s2相互独立。
1.3.2 样本方差的抽样分布
例1.3.3
分别从正态总体N(μ1,σ2)和N(μ2,σ2)中抽取容
量为n1和n2的两个独立样本,其样本方差分别
为
s2 1
和
s2 2
。
(1)证明:对α∈(0,1),
s s s 2 2 (1) 2
Fn(x)依概率收敛于F(x)
1.2.3 样本的经验分布函数及样本矩
定理1.2.1(格里汶科定理)
对任给的自然数n,设x1,x2,…,xn是取自总体分布函数F(x) 的一组样本观察值,Fn(x)为其经验分布函数,记
则有
Dn sup Fn x F x
x
P
lim
n
Dn
0
1
1.2.3 样本的经验分布函数及样本矩
0
Fn x k / n
1
x x1 xk x xk1; k 1, x xn
,n 1
则称Fn(x)为该样本的经验分布函数。
1.2.3 样本的经验分布函数及样本矩
例1.2.5 某食品厂生产午餐肉罐头,从生产线上随机抽取5只罐头,称 其净重(单位:g)为: 351, 347, 355, 344, 351 计算其经验分布函数。
4. 消除样本量的影响 ·样本方差 ·例1.2.2
5. 样本修正方差 ·无偏估计
6. 样本标准差 ·无偏性不具有不变性 ·例1.2.3
1.2.2 估计量
7. 偏差平方和的计算 ·平移不变性
8. 分组样本 ·例1.2.4
1.2.3 样本的经验分布函数及样本矩
1. 经验分布函数
定义1.2.4
设总体X的分布函数为F(x),从中获得的样本观察值为 x1,x2,…,xn。将它们从小到大排序重新编号为x(1),x(2),…,x(n), 又称为有序样本。令
例1.0.1
某地环境保护法规定:倾入河流的废水中某种有毒物质 的平均含量不得超过3ppm(1ppm=10-6)。该地区环保组 织对某厂倾入河流的废水中该有毒物质含量连续进行 20天测定,记录了20个数据(单位:ppm):
x1, x2, …, x20 现要用这20个数据作如下统计推断:
● 该有毒物质含量X的分布是否为正态分布?
例1.1.1 网上购物已在我国很多城市兴起。为了解网上购物情 况,特在某市调查如下三个问题: 1.网上购物居民占全市居民的比例; 2.过去一年内网购居民的购物次数; 3.过去一年内网购居民的购物金额。
1.1.1 总体和分布
例1.1.2
彩色浓度是彩电质量好坏的一个重要指标。20世纪70年代 在美国销售的SONY牌彩电有两个产地:美国和日本,两地的 工厂按照同一设计、同一工艺、同一质量标准进行生产。 其彩色浓度的标准值为m,允许范围是(m-5,m+5),否则为不 合格。在70年代后期,美国消费者购买日产SONY彩电的热 情明显高于购买美产SONY彩电,这是为什么呢?
1.3 抽样分布
定义1.3.1 统计量的概率分布称为抽样分布。
具体可以分为: ①精确(抽样)分布。 ②渐近(抽样)分布。 ③近似(抽样)分布。
1.3.1 样本均值的抽样分布
定理1.3.1 设x1,x2,…,xn是来自某个总体的样本, x为其 样本均值。
(1)若总体分布为N(μ,σ2),则 x 的精确分布为N(μ,σ2/n); (2)若总体分布未知或不是正态分布,但E(x)=μ, Var(x)=σ2
1.1.1 总体和分布
一维总体 二维或多维总体(联合概率分布) 有限总体(抽样调查) 无限总体(本书)
1.1.2 样本
研究总体分布及其特征数有如下两种方法:
(1) 普查, 又称全数检查,即对总体中每个个体都进行检查 或观察。因普查费用高,时间长,不常使用,破坏性检查(如灯 泡寿命试验)更不会使用。只有在少数重要场合才会使用普 查。如我国规定每十年进行一次人口普查,期间九年中每年 进行一次人口抽样调查。
xi x
2
3. 样本标准差: s s2
1.2.2 估计量
在剖析样本方差的构造中讨论这三个统计量的优劣。 1. 样本均值是总体期望的无偏估计 2. 样本偏差 ·自由度:n-1 3. 偏差平方和 ·例1.2.1 ·样本量相等的情况下,偏差平方和大小可以比较出 样本散布的大小。
1.2.2 估计量
● 若是正态分布N(μ,σ2),其参数μ和σ2如何估计?
● 对命题“μ≤3.0”(符合排放标准)作出判断:是或 否。
1.1 总体和样本
1.1.1 总体和分布
在一个统计问题的研究中,我们把研究对象的全体称为 总体,其中每个成员称为个体。
人、物
某个指标(一堆数) 概率分布
某总体抽样
某分布抽样
1.1.1 总体和分布
• 样本中所含的个体称为样品。
• 样本中样品个数称为样本量或样本容量。
• 一切可能观察值的全体X={(x1,x2,…,xn)}称为n维样本空间。
1.1.2 样本
例1.1.3 样本的例子
1. 香港海洋公园的一次性门票为250港币,可以一年内无限 次入场的年票价格为695港币。为检验该票价制度的合理 性,随机抽取1000位年票持有者,记录了他们2009年1—4月 入园游览的次数,见表1.1.2。
m 1 2
y 2
,
y
0
2
卡方分布的期望与方差。
1.3.2 样本方差的抽样分布
多维随机变量的期望与方差。 定理1.3.2 设在两个n维随机向量X=(x1,x2,…,xn)'
与Y=(y1,y2,…,yn)'间有一个线性变换Y=AX,其中 A=(aij)为一个n×n阶方阵,则它们的期望向量和方差 协方差阵之间有如下关系:
则称为θ的无偏估计,否则称为 θ的有偏估计。
当估计将随着样本量n的增加而逐渐趋于其真值θ,这时
若记ˆ ˆn ,则有
lim E ˆ ,
n
则称ˆn 为θ的渐近无偏估计。
1.2.2 估计量
在统计中三个常用统计量是:
1.
样本均值:
x
1 n
n
xi
i 1
2. 样本方差:
s2 1 n
n 1 i1
2. 直方图
1.2 统计量与估计量
1.2.1 统计量
定义1.2.1 不含任何未知参数的样本函数称为统计量
样本均值
1.2.2 估计量
在对总体分布作出假定下,从样本对总体的某些特征作 出一些推理,此种推理都具有统计学的味道,故称为统计推 断。R.A.费希尔把统计推断归为如下三大类:
● 抽样分布(精确的与近似的); ● 参数估计(点估计与区间估计); ● 假设检验(参数检验与非参数检验)。
表1.1.2
游览次数
0
1
2
3
4
5+
人数
545
325
110
15
5
0
这是一个容量为1000的样本。 Nhomakorabea1.1.2 样本
2. 某厂生产的挂面包装上说明“净含量450克”,随机抽取 48包,称得重量如表1.1.3所示。 表1.1.3
449.5 461 457.5 444.7 456.1 454.7 441.5 446.0 454.9 446.2 446.1 456.7 451.4 452.5 452.4 442.0 452.1 452.8 442.9 449.8 458.5 442.7 447.9 450.5 448.3 451.4 449.7 446.6 441.7 455.6 451.3 452.9 457.2 448.4 444.5 443.1 442.3 439.6 446.5 447.2 449.4 441.6 444.7 441.4 457.3 452.4 442.9 445.8
这是一个容量为48的样本。
1.1.2 样本
3. 在某林区,随机抽取340株树木测量其胸径,经整理后得到 如表1.1.4所示的数据。
表1.1.4
胸(c径 度m长) 10~14 14~18 18~22 22~26 26~30 30~34 34~38 38~42 42~46
株数
4
11
34
76
112
66
22
图1.3.1 总体及其四个样本的样本均值
1.3.1 样本均值的抽样分布
例1.3.2 下图给出三个不同总体均值样本的分布,三个总体分别
是:(1)均匀分布;(2)倒三角分布;(3)指数分布。随着样本 量的增加,样本均值 的抽样分布逐渐向正态分布逼近, 它们的均值保持不变,而方差则缩小为原来的1/n。当样 本量为30时,我们看到三个抽样分布都近似于正态分布。 样本量的计算。
10
5
这是一个容量为340的样本。
1.1.2 样本
简单随机抽样,它满足如下两个要求: 1. 随机性:即要求总体中每个个体都有同等的机会被 选到样本中。 2. 独立性:样本中每个个体的选取并不影响其他个体 的选取。