当前位置:文档之家› 北邮考研概率论与数理统计62数据表示直方图等.pptx

北邮考研概率论与数理统计62数据表示直方图等.pptx



98.7 97.1 99.3 102.1 100.3 98.8 99.9
分布情况有一个几何直观上的粗略
一、直方图
了解,然后再进一步分析.
直方图是频数分布的图形表示,它的横坐标表 示所关心变量的取值区间,纵坐标有三种表示 方法:频数,频率,最准确的是频率/组距,它 可使得诸长条矩形面积和为1。凡此三种直方图 的差别仅在于纵轴刻度的选择,直方图本身并 无变化。
直方图
第10页
(1) 找 出 这 n 个 数 的 最 小 和 最 大 值 :
X (1)
min
1in
Xi ,
X (n)
max
1in
X
i

(2) 取区间 [a,b] ,使得 a 略小于 X (i) , b 略
大于 X (n) ;从中插入 k 1个分点
a a0 a1 ak b , Nhomakorabea10
第11页
11
第12页
161
168 166 162 172
156
170 157 162 154
第7页
对这20个数据(样本)进行整理,具体步骤如下: (1) 对样本进行分组:作为一般性的原则,组数通
常在5~20个,对容量较小的样本; (2) 确定每组组距:近似公式为
组距d = (最大观测值 最小观测值)/组数;
(3) 确定每组组限: 各组区间端点为 a0, a1=a0+d, a2=a0+2d, …, ak=a0+kd,
Fn(x)
x
例1 某食品厂生产听装饮料,现从生产线上 第4页 随机抽取5听饮料,称得其净重(单位:克)
351 347 355 344 351 这是一个容量为5的样本,经排序可得有序样本:
x(1)= 344, x(2)= 347, x(3)= 351, x(4)= 351, x(5)= 355
其经验分布函数为 0 , 0.2,
形成如下的分组区间 (a0 , a1] , (a1, a2], …, (ak-1 , ak]
其中a0 略小于最小观测值, ak 略大于最大观测值.
第8页
(4) 统计样本数据落入每个区间的个数——频数,
并列出其频数频率分布表。
表1 例2 的频数频率分布表
组序 分组区间 组中值 频数 频率 累计频率(%)
1 (147,157] 152 4 0.20 20
2 (157,167] 162 8 0.40 60
3 (167,177] 172 5 0.25 85
4 (177,187] 182 2 0.10
95
5 (187,197] 192 1 0.05
100
合计
20 1
第9页
6.2.3 样本数据的图形显当样取本示得取一值组作样频本率值直后方,图一,般对先总根体据的

96.7 99.4 101.1 100.4 96.9 99.5 101.0

100.1 98.5 97.0 99.1 101.2 100.2 98.0

97.2 99.2 101.6 100.2 98.1 97.4 99.0

101.6 100.4 98.1 97.5 99.4 101.8 100.5

99.5 101.2 99.9 103.1 98.2 95.8 99.1

101.3 100.0 103.8 98.1 96.0 99.0 101.4

100.1 98.3 96.3 99.2 101.5 100.2 104.5

98.5 96.6 99.3 101.4 100.3 97.8 98.4
第1页
§6.2 样本数据的整理与显示
一、经验分布函数 二、频数频率分布表 三、样本数据的图形显示
6.2.1 经验分布函数
第2页
设 x1, x2, …, xn 是取自总体分布函数为F(x)的样本,若将
样本观测值由小到大进行排列,为 x(1), x(2), …, x(n),则称
x(1), x(2), …, x(n) 为有序样本.
12
第13页
• 例3 某工厂用自动包装机包装产品,为了考察每袋产 品重量的波动情况,选取100袋产品测得其重量如下 :(单位:kg),根据测得的数据作出频率直方图.

97.8 94.6 98.9 100.9 99.8 102.7 97.9

95.5 99.0 101.1 99.6 102.9 97.7 95.7
一致收敛于分布函数 F ( x), 即
P
lnim
sup
x
Fn( x)
F(x)
0
1.
对于任一实数 x当 n 充分大 时, 经验分布函
数的任一个观察值 Fn( x) 与总体分布函数 F ( x) 只有微小的差别, 从而在实际上可当作 F ( x) 来
使用.
格里纹科(1933)定理表明:当n 相当大时,经验分布函数是总 体分布函数F(x)的一个良好的近似。 经典的统计学中一切统计推断都以样本为依据,其理由就在于此。
则Fn(x)是一非减右连续函数,且满足 Fn() = 0 和 Fn() = 1
可见,Fn(x)是一个分布函数,称Fn(x)为经验分布函数。
第3页
Fn(x)的图形是累积频率曲线。它是跳跃上 升的一条阶梯曲线。若观测值不重复,跃度为
1/n,若重复,按1/n的倍数跳跃上升。
当 n 时,Fn (x)依概率收敛于总体的分布函数 F (x)
x(1) x(2) x(n)
用有序样本定义如下函数
0, Fn ( x ) k / n, 1,
x < x(1) x(k ) x x(k 1) , x(n ) x
k 1, 2,..., n 1

Fn(x )
1 s(x ) n
s(x ) 表示x1,x2, ,xn中不大于x的随机变量的个数.
Fn(x) = 0.4, 0.8, 1,
由伯努里大数定律:
x < 344 344 x < 347 347 x < 351 351 x < 355 x 355
只要 n 相当大,Fn(x)依概率收敛于F(x) 。
更深刻的结果也是存在的,这就是格里纹科定理。第5页 定理1(格里纹科定理)
对于任一实数 x,当 n 时, Fn( x) 以概率 1
第6页
6.2.2 频数--频率分布表
样本数据的整理是统计研究的基础,整理数据的最 常用方法之一是给出其频数分布表或频率分布表。
例2 为研究某厂工人生产某种产品的能力, 我们随机调查了20位工人某天生产的该种产品 的数量,数据如下
160
196 164 148 170
175
178 166 181 162
相关主题