当前位置:
文档之家› 2.2.2用样本的数字特征估计总体的数字特征PPT课件
2.2.2用样本的数字特征估计总体的数字特征PPT课件
以员工平均工资收入水平去描述他们单 位的收入情况。这是不合理的,因为这些员 工当中,少数经理层次的收入与大多数一般 员工收入的差别比较大,平均数受数据中的 极端值的影响大,所以平均数不能反映该单 位员工的收入水平。这个老板的话有误导与 蒙骗行为
11
2.2.2 用样本的数字特征估 计总体的数字特征(2)
0.30 0.20
0.15
0.14
0.10
0.08
0.06
0.04
0.04
0.02
o
0.5 1 1.5 2 2.5 3 3.5 4 4.5 月均用水量/t
分总析结::在在样本频数率据分中布,直有5方0%图的中个22.体0,小把于频或率等分于中布位直数方,图也划有5分0%左的右个体两大
于个或面等积于相中位等数的,分因界此线,在与频x轴率分交布点直的方横图坐中,标中称位为数中左位边和数右。边的直方图
讨论:众数估计总体情况有什么优缺点?
能够体现样本数据的最大集中点,但它 对其它数据信息的忽视使得无法客观地反映 总体特征。
5
如何从频率分布直方图中估计中位数?
前四个小矩形的面积 注:图中的数据是小矩形的面积即频率
频率 /组距
和=0.49
后四个小矩形的
0.50
0.25
面积和=0.26
0.40
0.22
8
如何从频率分布直方图中估计平均数 ?
频率 /组距
0.50 0.40
0.25 0.22
0.30 0.20
0.15
0.14
0.08
0.10
0.06
. . 0.04
.
..
. . . . 0.04 0.02
o
0.25
0.5
0.75
1 1.5 2
1.25 1.75
2.5
2.25 2.75
3
3.25
3.5
3.75
想一想:某次数学期中考试,毛毛同学得了78分。
全班共30人,其他同学的成绩为1个100分, 4个90 分, 22个80分, 以及一个2分和一个10分。毛毛计 算出全班的平均分为77分,所以毛毛回家告诉妈妈 说,他这次成绩处于班级“中上水平”。这种说法 对吗?
10
探究 P73
你认为“我们单位的收入水平比别的 单位高”这句话应当怎么解释?
4 4.5
4.25
注:图中的数据是小矩形的面积即频率2.02
月均用水量 / t
平均数等于频率分布直方图中每个小矩形 的面积乘以小矩形底边中点的横坐标之和。
9
思考:平均数估计总体情况有什么优缺点?
平均数与每一个样本的数据有关,与众数、中 位数比较起来,平均数可以反映出更多的关于样本 数据全体的信息,但平均数受数据中的极端值的影 响较位射击运动员在一次射击测试中各射靶 10次,每次命中的环数如下:
甲:7 8 7 9 5 4 9 10 7 4
乙:9 5 7 8 7 6 8 6 7 7
如果你是教练,你应当如何对这次射击作出评价?
如果看两人本次射击的平均成绩,由于 x甲7,x乙7 思考:两人射击的平均成绩是一样的.那么两个 人的水平就没有什么差异吗?若有差异你能说明 其水平差异在那里吗?
7
对极端值不敏感有弊的例子:
某人具有初级计算机专业技术水平, 想找一份收入好的工作。这时如果采用各个 公司计算机专业技术人员收入的中位数作为 选择工作的参考指标就会冒这样的风险:很 可能所选择公司的初级计算机专业技术水平 人员的收入很低,其原因是中位数对极端的 数据不敏感。这里更好的方法是同时用平均 数和中位数来作为参考指标,选择平均数较 大且中位数较大的公司就业。
2.2.2用样本的数字特征估计总 体的数字特征(1)
(众数、中位数、平均数)
1
三数概念
1、众数 在一组数据中,出现次数最多 的数据叫做这一组数据的众数。
2、中位数 将一组数据按从小到大(或从 大到小)依次排列,把处在最中间位置的 一个数据(或两个数据的平均数)叫做这 组数据的中位数。 3、平均数 一组数据的总和除以数据的个 数所得的值。
2
求下面这组数据的众数、中位数、平均数
4、4、4、6、6、6、6、8、8、8 众数为6 中位数为6 平均数
x 4446666888 10
3 4 4 6 3 8 10 10 10
6
也可以说平均数为各个不同数字乘以相应频率之和。
3
如何从频率分布直方图中估计众数?如图:
频率 /组距
0.50 0.40 0.30 0.20 0.10
13
甲、乙两人射击的平均成绩相等,观察两人成绩的频率分 布条形图,你能说明其水平差异在那里吗?
频率 0.4
(甲)
频率 0.4
(乙)
0.3
0.3
0.2
0.2
0.1
0.1
O 4 5 6 7 8 9 10 环数 O 4 5 6 7 8 9 10 环数
甲的成绩比较分散,乙的成绩相对集中,比较稳定.
一组数据的最大值与最小值的差称为极差; 极差越大,数据越分散,极差越小,数据越集中.
况下是一个优点,但它对极端值的不敏感有时也会成 为缺点,你能举例说明吗?
对极端值不敏感有利的例子:
考察100位居民的月均用水量表中的数据,如果把 最后一个数据错写成22,并不会对样本中位数产生影
响也就是说对极端数据不敏感的方法能够有效地预防
错误数据的影响,而在实际应用中人为操作的失误经
常造成错误数据。
上的图面积中应,该设相中等位。数为x,则 0.0 4 0.0 8 0.1 5 0.2 2 (x2)0.50.5
x2.02
6
思考:2.02这个中位数的估计值,与样本数据的中
位数2.0不同,为什么?
从频率分布直方图本身得不出原始的数据内容, 频率分布直方图已经损失一些样本信息。
思考:中位数不受少数极端值的影响,这在某些情
o
0.5 1 1.5 2 2.5 3 3.5 4 4.5 月均用水量/t
2.2
众数在样本数5 据的频率分布直方图中,
就是最高矩形的中点的横坐标。
4
思考:频率分布直方图中估计的众数与原始
数据中的众数2.3不同,为什么?
在频率分布直方图,我们只能直观地看出 数据的大概分布情况,从直方图本身得不出 原始的数据内容,直方图已经损失一些样本 信息。
甲的环数极差=10-4=6 乙的环数极差=9-5=4. 因此我们可以得到一种“去掉一个最高分,去掉一个最低分”1的4 统计策略.
考察样本数据的分散程度的大小,最常用的统计量是标准差
1、标准差是样本数据到平均数的一种平均距离。 一般用s表示。它用来描述样本数据的离散程度。 在实际应用中,标准差常被理解为稳定性。