集中趋势和离散趋势
Variance and Standard Deviation
返回总目录
集中趋势的测度
集中趋势是对频数分布资料的集中状况和平均水平的综 合测度。而离散趋势是对频数分布资料的差异程度和离 散程度的测度,用来衡量集中趋势所测度的代表性,或 者反映变量值的稳定性和均匀性。
常用来表达数列集中趋势的测度有算术平均数、调和平均 数、几何平均数、中位数和众数。这些测度在统计学中也 称为平均指标或平均数,可以用来反映标志值的典型水平 和标志值分布的中心位置或集中趋势。
几何平均数
(概念要点)
1. 2. 3. 4. 5. 集中趋势的测度值之一 N 个变量值乘积的 N 次方根 适用于特殊的数据 主要用于计算平均发展速度 计算公式为
GM N X 1 X 2 X N N X i
i 1 N
6. 可看作是均值的一种变形
1 log GM (log X 1 log X 2 log X N ) N
则
XH
m1 m2 m3 mn mn m1 m2 m3 X1 X 2 X 3 Xn
m
i 1 n
n
i
mi X i 1 i
调和平均数
(概念要点)
1. 集中趋势的测度值之一 2. 均值的另一种表现形式 3. 易受极端值的影响 4. 用于定比数据 5. 不能用于定类数据和定序数据 6. 计算公式为L源自fmfSm1
i
——中位数所在组的组距
也可以利用中位数所在组的上限来测算中位数,即中位数的 上限公式为 :
Me U
f
2
Sm 1 fm
i
式中: U
Sm1
——中位数所在组的上限 ——大于中位数组的各组次数之和
中位数最大的特点是:它是序列中间1项或2项的平均数,不受极 端值的影响,所以在当一个变量数列中含有特大值与特小值的情
均值
(概念要点)
1. 集中趋势的测度值之一 2. 最常用的测度值 3. 一组数据的均衡点所在 4. 易受极端值的影响 5. 用于数值型数据,不能用于定类数据和定 序数据
均值
(计算公式)
设一组数据为:X1 ,X2 ,… ,XN 简单均值的计算公式为
N
X1 X 2 X N X N
X
i 1
i
N
设分组后的数据为:X1 ,X2 ,… ,XK 相应的频数为: F1 , F2,… ,FK 加权均值的计算公式为
X 1 F1 X 2 F2 X N FN X F1 F2 FN
X F
i 1 K i
K
i
F
i 1
i
简单均值
(算例)
原始数据: 10 5 9 13 6 8
况下,采用中位数较为适宜。正式由于中位数的这一特点,在统
计研究中,当遇到掌握统计资料不多而且各标志值之间差异程度 较大或频数分布有偏态时,为避免计算标志值所得的算术平均数
►
数据分布的特征
集中趋势 (位置) 离散趋势 (分散程度) 偏态和峰度 (形状)
数据分布的特征和测度
数据的特征和测度
集中趋势
众 数 中位数 均 值
Mode Median Mean
离散程度
极差
分布的形状
偏 态
Skewness
四分位差 方差和标准差 离散系数
Range Quartiles
峰 度
Kurtosis
返回本章
集中趋势
(Central tendency)
1. 一组数据向其中心值靠拢的倾向和程度 2. 测度集中趋势就是寻找数据一般水平的代表值或中心值 3. 不同类型的数据用不同的集中趋势测度值
4. 低层次数据的集中趋势测度值适用于高层次的测量数据, 反过来,高层次数据的集中趋势测度值并不适用于低层次 的测量数据 5. 选用哪一个测度值来反映数据的集中趋势,要根据所掌握 的数据的类型来确定
log X
i 1
N
i
N
几何平均数
(算例)
一位投资者持有一种股票,1996年、1997年、1998年和1999 年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资 者在这四年内的平均收益率。
GM N X 1 X 2 X N 4 104.5% 102.0% 103.5% 105.4% 103.84%
X
i 1 K i 1 K
20 1
100 1
X甲
i
Fi
i
F
K i 1 K i
0 1 20 1 100 8 82 (分) 11 8
X乙
X F F
i 1 i
i
0 8 20 1 100 1 12 (分) 8 11
均值
(数学性质)
其计算公式为: X G n X 1 X 2 X 3 X n N X
在用几何平均数法计算平均数时,如果 N 大于2, 可采用对数法计算。计算公式为:
ln X G 1 1 ln X1 ln X 2 ln X 3 ln X n ln X N N
1 1 1 1 X X2 X3 Xn 1 1 N XH
即
XH
N 1 1 1 1 X1 X 2 X 3 Xn
N
X
1
设m为权数,则加权调和平均数的计算公式为:
m m1 m2 m3 n X X2 X3 Xn 1 1 m1 m2 m3 mn XH
N 1 2
当总体位数 N 为奇数时,中位数就是中位数位次上的那个数据; 当 N 为偶数时,中位数是中位数位次上2项数据的算术平均数。
分组资料时,中位数位次 f
2
可以利用中位数所在组的下限来测算中位数,即中位数的下
限公式为 :
Me L
f
2
S m 1 fm
i
式中:
Me
——中位数 ——中位数所在组的下限 ——中位数所在组的次数 ——总次数即各组次数总和 ——小于中位数组的各组次数之和
第3章 数据分布特征
观察:一个平均工资掩盖了多少差异
► ►
►
►
►
►
3月25日,北京市统计局宣布,2008年,北京市职工年平均工资为44715元,折合每月3726元,比2007年增长了12 %。与往年一样,这样的数据又是引来一片质疑声。因为它和太多市民对实际收入的感受差距很大,也解释不了为什么 大家的收入逐年增长,而消费却总是无法提振的尴尬。 有关部门对上述职工平均工资的统计给出了一些解释,使得社会对这一数据在统计意义上的正确性没有多少疑问, 却对它的代表性和实际意义产生了更多的怀疑。按照相关解释,目前的职工平均工资统计,所涉及的统计对象还只是企 事业单位、机关与社会团体,并没有将社会中小企业纳入。而且职工工资总额计算方法不是按实际发到职工手里的现金 计算,还包括单位代扣代缴的社会保险、住房公积金等。 这样一解释,大家有些明白了,原来北京市职工年平均工资统计里的“职工”只是你我中间的一部分人群,这部分 人群的收入可能是比较高而且稳定的,自然平均工资也相对偏高一些。但这种“有你没我”的统计,如何能反映整个城 市的收入全貌呢?再从收入本身来说,按照《中国保险报》人士的统计,北京地区养老保险单位缴费比例20%,个人缴 费比例8%;医疗保险单位缴费比例7.5%,个人缴费比例 2%;生育保险缴费比例为0.6%,单位承担;失业保险单位缴 费比例2%,个人缴费比例1%;工伤保险按行业性质分为0.6%、1.2%、2%三档基准费率,只由单位承担。以上合计, 社保总负担至少已占个人工资总额的42%左右,外加单位和个人各缴(扣)12%以内的住房公积金,“职工工资”里面将 有可能高达66%的份额并不在市民的腰包里。而剩下34%的“职工工资”,也还只是税前收入。难怪与大家的实际感受 有如此大的差异。 统计的口径是这样,再回到平均的概念上来。很多年来,我们的职工平均工资统计数据只有平均数,而没有覆盖社 会不同群体(如国企高管、公务员、教师、农民工)以及不同行业(如金融、电信、私企、电力、石油)的具体分布数 据。这样的统计无法显示不同行业以及同一行业内职工与管理人员巨大的收入差异,网民将这样的统计形象地概括为: “张家有财一千万,十个邻居穷光蛋,平均下来算一算,个个都有上百万”。一个与太多市民收入真实情况不相符的统 计层面的工资增长,自然无法得到大家在幸福感上的共鸣。可见,一个“平均”,掩盖了多少差异;一个“增长”,隐 藏了多少问题。 当然,并不是说平均值的统计方法是不需要的。GDP的人均值在分析一个国家经济增长阶段时有很大的价值,历史 地看,平均值的变化也总是有其时代意义的。但是,平均值的统计方法也是有缺陷的,因为它反映不了贫富分化和财富 流向的变动。 在统计数字与社会现实的差异面前,我们是应该为了统计数字的“喜人增长”而无视社会现实,还是应该为了真实 地反映社会现实,修正统计部门的计算口径和方法?答案是明摆着的,只有真实的数据才能让大家了解目前社会存在的 真正问题,也才能为正确的决策提供有价值的参考。这样真实的统计也许很难,但在失真和真实之间,统计部门其实没 有选择。 【作者:陈联科 来源:京华时报】
X1 X 2 X 3 X 4 X 5 X 6 X N 6 10 5 9 13 6 8 6 8.5
i 1 i
X
N
加权均值
(算例)
计算50 名工人日加工零件数的均值
表4-1 按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计 某车间50名工人日加工零件均值计算表 组中值(Xi) 107.5 112.5 117.5 122.5 127.5 132.5 137.5 — 频数(Fi) 3 5 8 14 10 6 4 50 XiFi 322.5 562.5 940.0 1715.0 1275.0 795.0 550.0 6160.0