当前位置:文档之家› 统计学原理第三章

统计学原理第三章


例题5:某省某年电信职工收入调查资料如表。 某省某年电信职工收入调查资料如表。计算M 0和 M e
按月收入额分组 1000以下 1000-1300 1300-1600 1600-1900 1900-2200 2200-2500 2500以上 合计 调查职工人数 40 90 110 105 70 50 35 500 向上累积次数 40 130 240 345 415 465 500 — 向下累积次数 500 460 370 260 155 85 35 —
将数据按大小顺序排队形成次数分配后, 将数据按大小顺序排队形成次数分配后,在统计 分布中具有明显趋势点的数值, 分布中具有明显趋势点的数值,是数据一般水平 代表性的一种。 代表性的一种。如何找出众数 如何找出众数? 众数?
众数是一种位置平均数 众数是一种位置平均数, 一种位置平均数,是总体中出现次数最多 总体中出现次数最多 的变量值, 的变量值,因而在实际工作中有时有它特殊的用途。 因而在实际工作中有时有它特殊的用途。 诸如, 诸如,要说明一个企业中工人最普遍的技术等 级,说明消费者需要 说明消费者需要的内衣 消费者需要的内衣、 的内衣、鞋袜、 鞋袜、帽子等最普遍的 号码, 号码,说明农贸市场 说明农贸市场上某种农副产品最普遍的 农贸市场上某种农副产品最普遍的成交价 上某种农副产品最普遍的成交价 格等,都需要利用众数。 都需要利用众数。
2、分组数据:
N − S m −1 Me ≈ L + 2 ×i fm
Me——中位数; L——中位数所在组下限; fm——为中位数所在组的次数; N——总次数; d——中位数所在组的组距; Sm − 1——中位数所在组以下的累计 次数;
例1:2、3、4、5、6 中位数: 中位数:4 如果总数个数是奇数的话, 如果总数个数是奇数的话,按从小到大的顺序,取 中间的那个数。 中间的那个数。
xi
频数 3 5 8 14 10 6 4 50
fi
xi f i
322.5 562.5 940.0 1715.0 1275.0 795.0 550.0 6160.0

K
X = i =1K
X i Fi
i =1
∑ Fi
1055 . ×3+1125 . ×5+1175 . ×8+1225 . ×14+1275 . ×10+1355 . ×6+1375 . ×4 X= 3+5+8+14+10+6+4 3225 . +5625 . +9405 . +1715+1275+790+550 = 50 6160 = 50 =1232 .
二、中位数( 中位数(Median)
中位数是指将数据按大小顺序排列起来, 形成一个数列, 形成一个数列,居于数列中间位置的那个数 据。如何确定中位数? 如何确定中位数?
1、未分组数据: 未分组数据: N为奇数
Me = X
(
N &#X N + X N ( +1) 2 (2) 2
X 1 …… X k , 各组变量值出现的频数为 F1 …… Fk
设有K组,各组变量值或组中值 总体:
K

X = i =1K
样本:
k
X i Fi
i =1
∑ Fi
Fi X = ∑ Xi K i =1 ∑ Fi
K i =1
x = i =1k
∑ xi ∑
i =1
fi
fi
例题7:计算 x 按零件数分组 组中值 105-110 110-115 115-120 120-125 125-130 130-135 135-140 合计 107.5 112.5 117.5 122.5 127.5 132.5 137.5
男皮鞋号码/厘米 24.0 24.5 25.0 25.5 26.0 26.5 27.0 合计 销售量/双 12 84 118 541 320 104 52 1200
从表中可以看到, 从表中可以看到,25.5厘米的鞋号销售量最多, 厘米的鞋号销售量最多,鞋 号25.5厘米就是众数。 厘米就是众数。
如果我们计算算术平均数 如果我们计算算术平均数, 算术平均数,则平均号码为25.65厘 米,而这个号码显然是没有实际意义的, 而这个号码显然是没有实际意义的,而直接用25.5 厘米作为顾客对男皮鞋所需尺寸的集中趋势 厘米作为顾客对男皮鞋所需尺寸的集中趋势既便捷又符 集中趋势既便捷又符 合实际。 合实际。
向上累计次 数 5 16 30 57 77 91 100 --
中位数位次= Σf/2 =100/2 =50 ∵30<50<57 ∴ 中位数在110~120组 代入下限公式
N − S m −1 Me ≈ L + 2 ×i fm
100 − 30 M e ≈ 110 + 2 × 10 27
M e ≈ 117.4
但是必须注意,从分布的角度看, 从分布的角度看,众数是具有明 显集中趋势点的数值, 显集中趋势点的数值,一组数据分布的最高峰点所对 应的数值即为众数。 应的数值即为众数。 当然,如果数据的分布没有明显的集中趋势或最 高峰点, 峰点,众数也可能不存在; 如果有两个最高峰点, 峰点,也可以有两个众数。 个众数。 只有在总体单位 有在总体单位比较多 总体单位比较多, 比较多,而且又明显地集中于某 个变量值时, 个变量值时,计算众数才有意义。 有意义。
统计学原理
数信学院信息技术系
编写人:游运
第三章 数据分布特征的描述
3.1 分布集中趋势的侧度 3.2 分布离散程度的侧度 3.3 分布偏态与峰度的侧度 3.4 茎叶图与箱线图 3.5 统计表与统计图
经过第二章的学习, 经过第二章的学习,对数据分布的状况有了一个 初步认识, 初步认识,了解到各组次数及其分布的特点, 了解到各组次数及其分布的特点,但是还 缺少对数据总体分布特征的准确描述, 缺少对数据总体分布特征的准确描述,为了掌握统计 数据总体分布特征和规律, 数据总体分布特征和规律,还要作进一步的分析。 还要作进一步的分析。
例题4:计算 M 0 和 M e
按零件数 分组 105-110 110-115 115-120 120-125 125-130 130-135 135-140 合计 频数 (人) 3 5 8 14 10 6 4 50 频率 (%) 频数 6 10 16 28 20 12 8 100 3 8 16 30 40 46 50 频率 6 16 32 60 80 92 100 频数 50 47 42 34 20 10 4 频率 100 94 84 68 40 20 8 向上累积 向下累积
•四分位数、 分位数、十分位数等; •上四分位数、 分位数、下四分位数; •计算方法同中位数( 计算方法同中位数(见书26页)。
四、均值( 均值(算术平均数) 算术平均数)
x
是数据集中趋势的最主要测定值。 要测定值。 1、理解:是一组数据中该变量标志值总和(又称为 总体标志总量)除以其总体单位数所得的结果。
本章将从以下三个方面对统计数据总体分布特征 进行测定和描述: 进行测定和描述:
1、数据分布集中趋势的测定, 数据分布集中趋势的测定,描述各数据向其中 心值(均值)集中或靠拢的程度。 集中或靠拢的程度。
2、数据分布离散程度的测定, 数据分布离散程度的测定,描述各数据远离其 中心值(均值)的程度。 的程度。
解:从表中的数据可以看出, 从表中的数据可以看出,最大的频数值是14,即 众数组为120~125这一组, 这一组,根据公式得50名工人日加 工零件的众数为: 的众数为:
f − f −1 M0 ≈ L + ×i ( f − f −1 ) + ( f − f +1 )
14 − 8 M 0 ≈ 120 + ×5 ( 14 − 8 ) + ( 14 − 10 )
集中趋势是指一组数据向某一中心值靠拢的 程度, 程度,它反映了一组数据中心点的位置所在。 它反映了一组数据中心点的位置所在。 数据分布集中趋势的测定就是寻找数据水平的 代表值或中心值。 代表值或中心值。
从不同的角度测度, 从不同的角度测度,集中趋势的测定值有多个。 集中趋势的测定值有多个。
一、众数( 众数(Mode)
3、数据分布偏度与峰度的测定, 数据分布偏度与峰度的测定,描述数据分布的 形状, 形状,与正态分布相比较, 与正态分布相比较,反映其偏离正态分布的程 度。
教学内容
1.数据分布集中趋势的测度即数据的各种平均指 标的概念及计算。 标的概念及计算。 2.数据分布离散趋势的测度即数据的各种变异指 标的概念及计算。 标的概念及计算。 3.数据分布偏态与峰度测度系数的概念与计算。 数据分布偏态与峰度测度系数的概念与计算。 4. 统计表和统计图
2、分组数据: 分组数据: 等距分组的众数计算公式 :
f − f −1 M0 ≈ L + ×i ( f − f −1 ) + ( f − f +1 )
众数 众数 所在 组下 限的 邻组 次数 众数 所在 组次 数 众数 所在 组上 限的 邻组 次数 众数 组组 距
众数 所在 组下 限
例:根据下表的数据, 据下表的数据,计算50名工人日加工零件数的 众数。 众数。
1、未分组数据、 未分组数据、品质数列和单项式变量数列确定 品质数列和单项式变量数列确定 众数比较容易: 众数比较容易:指出现次数最多的变量值。 指出现次数最多的变量值。 例如: 例如:某制鞋厂要了解消费者 某制鞋厂要了解消费者最需要哪种型号的 消费者最需要哪种型号的 男皮鞋, 男皮鞋,调查了某百货商场 调查了某百货商场某季度男皮鞋的销售情 百货商场某季度男皮鞋的销售情 况,得到资料如下表( 得到资料如下表(某商场某季度男皮鞋销售情 况):
3、特点: 特点: 1)不受极值的影响。 中位数是以它在所有标志值中所处的位置确定的 全体单位标志值的代表值, 值的代表值,不受分布数列的极大或极 小值影响,从而在一定程度上提高了中位数对分布数 列的代表性。 列的代表性。 2)各变量值与中位数的离差绝对值之和最小
相关主题