当前位置:文档之家› 第3章统计数据的描述度量

第3章统计数据的描述度量

算术平均数的主要局限:易受极值影响
16
使用 Excel 函数求算术平均数
利用 Excel“公式”-“其它函数”-“统计”中的
AVERAGE 函数可以方便地计算出一组或多组数据的
算术平均数。
x

1 n
n
xi
i 1
语法规则:
格式:AVERAGE(<区域或数组1>,<区域或数组2>,…)
例:利用某汽车公司各销售点的销售数据,求平均销 售量。
k

X = wi Xi
i1
14
(2)加权算术平均数
X
Xi fi fi
wi X i
15
统计推断和统计分析几乎都离不开算术平均数: 用它作为一组资料集中趋势的测度量, 它是一组
数据的重心, 是数据规律性的反映 它又是对所提供信息运用最充分的指标, 最灵敏,
最适合代数方法处理, 具有优良的数学性质.
25% 25% 25% 25%
QL
QM
QU
上四分位数又称75百分位数(75 pecentile,有75 %的观测值小于它),下四分位数为25百分位数 (25 pecentile,有25%的观测值小于它)。
k百分位数(k-pecentile)意味着有k%的观测值 小于它。如果令a=k%,则k百分位数也称为a分 位数(a-quantile)。
1. 集中趋势的测度值之一 2. 不受极端值的影响 3. 可用于定序数据,也可用于数值型数据,
但不能用于定类数据
44
四分位数位置的确定
未分组数据:
下四分位数(QL)位置 = 上四分位数(QU)位置 =
第3章 统计数据的描述度量
1
本章主要介绍以下综合统计指标:
数据特征的描述
集中趋势
离中趋势
分布形状
均值 中位数 众数 其他指标
区域 方差 标准差 变异系数 其他指标
偏度 峰度
如何用少量数字来概括数据?
平均人数:1118.93 最大人数:3230 最小人数:148
除图表外,还可用少量所谓汇总统计量或概括统计量 (summary statistic)来描述定量变量的数据。
50
119 .64(万元)
众数组为“100~150”的组,
M0
L 1 1 2
d
100

42 35
50
(42 35) (42 26)
115 .22
(万元)
41
5.四分位数
上下四分位数(或分别称为第 一四分位数和第三四分位数, first quantile, third quantile) 则分别位于(按大小排列的) 数据的上下四分之一的地方。
f i — 各比率出现的频数
19
几何平均数的主要用途: 对比率进行平均 测定生产或经济变量时间序列的平均增长率 当观测值中有一项为0或负值时,不宜计算几何平均数
20
例:某公司原料成本随时间增长的情况如下表
1992 1993
成本
200 228
年增长率(%)
14
求原料成本的平均年增长率。
1994 239.4
22
3.中位数(median)
将总体各单位标志值 按由小到大的顺序排 列后,处于中间位置 的标志值称为中位数, 记为Me ,Med或Mdn。
23
中位数是一种位置平均数,不受极端数据的影响。 当统计资料中含有异常的或极端的数据时,中位 数比算术平均数更具有代表性。
5 笔付款:9元,10元,10元,11元,60元 均值= 20 元,不是一个很好的代表值, 中位数= 10 元,更能代表平均每笔的付款数。
中位数是位置平均数,不易受极端值的影响,是较 稳健的集中趋势度量指标。因此, 许多国家的政府发 布的个人所得和人口年龄的平均值,往往用中位数。 中位数的不足之处: 中位数的确定只与中间位置的1或2个数值有关,忽 略了其他数值的大小,缺乏敏感性,且不适合代数 运算。
29
4.众数(mode)
众数是一组资料中出现次数最多的标志值,记为M o。 众数明确反映了数据分布的集中趋势,也是一种位 置平均数,不受极端数据的影响。但并非所有数据 集合都有众数,也可能一组数据存在多个众数。
35
一般而言, 遇到资料中有较多的数值向某一数值集中的情况, 或者是资料按品质标志分组时,宜采用众数: 为掌握某日某集市上某种商品的价格水平, 用该日市场
上该商品的最普遍成交价来代表该商品的价格水平, 这 种价格就是众数; 若某班学生的统计学考试成绩有70%都是80分, 那么用80 这个众数就可以很好的说明该班学生的统计学考试成绩; 经济系教师的血型以A型居多,则以众数血型A作为集 中趋势最恰当。
这些数字从样本数据中得来,是样本的函数。任何样 本的函数,只要不包含总体的未知参数,都称为统计 量(statistic)。样本的随机性决定统计量的随机性(统 计量也是随机变量)
统计量的作用:
估计总体参数。许多情况下,样本统计量的值反 映了无法观测到的总体参数的大小
用来检验样本和假设的总体是否一致
30
在某些情况下,众数是一个较好的代表值: 服装行业中,生产商、批发商和零售商在进行生
产和存货决策时; 当要了解大多数家庭的收入状况时。
31
(1) 未分组数据众数的确定 在数据量很大的时候,可以使用 Excel 统计函数中的 MODE 函数返回众数。 格式:MODE(<区域或数组1>,<区域或数组2>,…) 功能:返回所有参数中数据的众数。
35
55
75
100~150
42
97
125
150~200
26
123
175
200~250
15
138
225
250以上
5
143
275
x

xifi fi
123.6(万元)
Σf/2=143/2=71.5,中位数所在组为“100~150”的组,
Me

L


f
/ 2 Sm1 fm
d
100

71.5 55 42
n
(xi X ) 0
i1
① 均值是各数值的重心 ② 以平均值猜测所有的数值,所产生的误差最小
11
n
(xi X )2 min
i1
12
3)与众数和中位数相比,平均数受抽样的影响较小 某研究机构欲调查某地区人均寿命,从中抽取1个样 本(100人),计算年龄平均数、众数和中位数。然 后再抽取第2个样本,计算其年龄平均数、众数和中 位数。多次抽取(如200次)就得到了200个平均数、 众数和中位数。 平均数非常集中,中位数和众数的分布更分散。
18
2.几何平均数
当统计资料是各时期的发展速度等前后期的两两 环比数据,要求每时期的平均发展速度时,就需 要使用几何平均数。
几何平均数是 n 个数连乘积的 n 次方根。
(1) 简单几何平均数
xG n x1 x2 xn
(2) 加权几何平均数
xG
f
x f1 1
x2f2
xnfn
13
4)K组资料,各组的项数和均值分别为( f1, X1 ),
(
f2,
X2 ),…,(
fk ,
X
),则K组资料总平均数
k
X f1X1 f2 X 2 ... fk X k = k
f1 f2 ... fk
i1
fi Xi
k
fi
i1
k

wi fi
fi
i1
8
(2)算术平均数的计算
(1)简单算术平均数
X

1 n
n i1
xi
n :总体单位总数; xi :第 i 个单位的标志值。
9
算术平均数的特征 统计特征: 算术平均数是同质总体各数据偶然性、随机性特征互 相抵消后的稳定数值,反映了数据集中的特征
10
数学特征: 1) 任一组数据的各项数值与其均值之差( 离差) 的代数 和为零:
36
算术平均数、中位数和众数间的关系
1.频数分布呈完全对称的
f
单峰分布,算术平均数、
中位数和众数三者相同。
0
X (Me,M0) x
2.频数分布为右偏态 时, 众数小于中位数,算术平 均数大于中位数。
3.频数分布为左偏态时, 众数大于中位数,算术平 均数小于中位数。
f
0
M0 Me X
x
f
0
X Me M0 x
注意:一些统计量前面有时加上“样本”二字,以 区别于总体的同名参数
样本均值 总体均值
样本标准差 总体标准差
§3.1 度量集中趋势的指标
常用的集中趋势度量指标: 算术平均数 几何平均数 中位数 众数 四分位数
7
1.算术平均数
(1)基本公式:
算术平均数

总体单位标志总量 总体单位总数
32
(2) 分组数据众数的确定
对于分组数据的统计资料,众数也要用插值法来估算。 (1)确定众数所在的组
对于等距分组,众数组是频数最高的组; (2)使用以下插值公式计算
M0

L

1 1 2
d
其中:
Δ1
Δ2
L — 众数组的下限
Δ1— 众数组与前一组的频数之差 Δ2 — 众数组与后一组的频数之差 d — 众数组的组距
Me L
f 2 Sm1 d fm
其中:L — 中位数所在组的下限;
Sm-1 — 中位数所在组前一组的累计频数; fm — 中位数所在组的频数; d — 中位数所在组的组距。
相关主题