当前位置:文档之家› 统计学教(学)案(第5章数据分布特征的测度)

统计学教(学)案(第5章数据分布特征的测度)

统计学
第一节总体分布集中趋势的测度
总体分布集中趋势是指总体中各单位的次数分布从两边向中间集中(靠拢)的趋势。

在分布数列中,越靠近中心值,标志值出现的次数越多,而远离中心值的次数较少。

由于对大多数统计总体来说,其总体单位的数值分布是以平均数为中心的,因此平均数反映了总体分布的集中趋势。

所以,对集中趋势进行测度,就是寻找总体一般水平的中心值或代表值,就是计算总体的平均数(平均指标)。

一、平均指标的概念和作用
㈠概念:平均指标是指在同质总体将各单位的数量差异抽象化,反映总体一般水平的代表值。

㈡特点
⒈将数量差异抽象化;
⒉必须具有同质性;
⒊反映总体变量值的集中趋势。

㈢作用:
⒈可用于同类现象在不同空间的比;
⒉可用于同类现象在不同时间的比。

式中,m 代表各组标志总量,其余符号与前相同。

例: 某食堂购进某种蔬菜,相关资料如下,求这种蔬菜的平均价格。

4-13 某种蔬菜价格资料及其计算表
早午晚
价格(元/千克)
购买金额(元)
购买量(千克)
x
m
m x
1.00 1.20 1.10
10.0 15.0 20.0 10.0 12.5 18.2 合计
-
45.0
40.7
根据上表计算食堂购进这种蔬菜的平均价格为:
10.015.020.045.0 1.106
/40.740.7m H m x
++=
===∑∑(元千克)
通过上例计算,可以看出,加权平均数实质上是加权算术平均数的一种变形式。

其变换形式如下:
m xf xf H m xf
f
x x =
==∑∑∑∑∑∑
3.几何平均数 (1)概念
几何平均数是n 个比率乘积的n 次方根。

(2)几何平均数的计算
社会经济统计中,几何平均法适用于计算平均比率和平均速度。

简单几何平均数的计算公式为:
n
21x x x G ⋅⋅⋅=Λ
G表示几何平均数;x 表示变量值;n 表示变量值个数。

加权几何平均数的计算公式为
n 21n
21f f f f n
f
2f 1x x x G +++⋅⋅⋅=ΛΛ
关于几何平均数的具体计算及应用将在第七章发展速度部分讲述。

(二)位置平均数的计算 1.众数 (1)概念
众数是总体中出现次数最多的标志值。

用字母M 表示。

(2)计算
根据变量数列的不同种类, 确定众数可采用不同的方法。

单项式数列确定众数 组距数列确定众数 下限公式
d
L M 211
o ⋅∆+∆∆+
=
上限公式
d U M 2
12
o ⋅∆+∆∆-
=
Mo: 表示次数;L:表示众数所在组的下限;U:表示众数所在组的上限;△1: 表示众数所在组次数与前一组次数之差;△2: 表示众数所在组次数与后一组次数之差;d: 表示众数所在组的组距。

2.中位数 (1)概念
中位数是将总体各单位的标志值按大小顺序排列,处于数列中点位置的标志值为中位数。

中位数将数列分为相等的两部分,一部分的标志值小于中位数,另一部分的标志值大于中位数。

在许多情况下,不易计算平均值时,可用中位数代表总体的一般水平。

例如,人口年龄中位数,可表示人口总体年龄的一般水平。

(2)计算
由未分组资料确定中位数
根据未分组资料确定中位数时,首先将标志值按大小顺序排列,然后根据公式(n +1)/2确定中位数的位置,再根据中位数的位置找出对应的标志值。

单项式分组资料确定中位数
直接可用公式2f
∑确定中位数的位次,再根据位次用较小累计次数或较大累计次数的方法将次累计次数刚超过中位数位次的组确定为中位数组,该组的标志值即为中位数。

组距分组资料确定中位数。

组距资料确定中位数与单项式资料不同的是需要采用公式计算。

下限公式:
d
f S 2
f
L M m
1m e --+=∑
上限公式:
d
f S 2
f
U M m
1m e +--=∑
式中:L: 表示中位数组的下限,U 表示中位数组的上限,fm: 表示中位数组的次
数,Sm-1 表示中位数所在组以前各组的累计次数,Sm+1 表示中位数所在组以后各组的累计次数,∑f: 表示总次数,d: 表示中位数所在组的组距。

第二节 总体分布离散程度的测度 一、标志变动指标概念
标志变动度就是说明总体单位标志值的差异大小和程度的指标。

在统计研究中,一方面要计算平均数,用以反映总体各单位标志值的一般水平,另一方面也要测定标志变动度,用以反映总体各单位标志值的差异程度。

同时,平均数的代表性还必须用标志变动度指标来测量,标志变动度大,平均数的代表性就小,相反,标志变动度小,平均数的代表性就大,如果标志变动度等于零,则说明平均数具有完全的代表性。

所以,为了全面准确地反映出总体特征,在计算了平均数之后,还要进一步计算标志变动指标,以便对平均数作出补充说明。


=
N
i
i
i
f
f
1把原点移到算术平均数处,以

(X
-
i
X的各次方为力臂的距离,以为各作用力的大小,则构成统计的k阶中心矩,即:


=
=
-
=
N
i
i
N
i
i
k
i
f
f
X
X
u
1
1
1


集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要掌握数据分布的形状是否对称、偏斜的程度以及扁平程度等。

反映这些分布特征的测度值有两个:(1)偏态;(2)峰度。

二、分布的偏态
(一)偏态的含义
偏态(Skewness)是对分布偏斜方向和程度的测度。

在客观实际生活中,一些现象变量的次数分配往往是非对称型的,如收入分配、市场占有份额、资源配置等等,这些变量经分组后,总体各单位在不同的分组变量值下分布并不
均匀对称,而呈现出偏斜的分布状况,统计上将其称为偏态分布。

(二)偏态的测度
利用众数、中位数和平均数之间的关系就可以判断分布是对称、左偏还是右偏。

显然,判断偏态的方向并不困难,但要测度偏斜的程度则需要计算偏态系数。

统计分析中测定偏态系数的方法很多,一般采用动差概念计算。

由公式可知:当算术平均数大于众数时,偏态系数为正值,属于正偏(右偏);当算术平均数小于众数时,偏态系数为负值,属于负偏(左偏)
经验:在分布适度偏斜的情况下,算术平均数与众数的距离约等于算术平均数和中位数之间距离的三倍,即有如下近似的等式关系:()
e M X M X -=-30 因此,偏态也可用算术平均数与中位数之间的关系来测定,即: ()
σ
e M X SK -=3 可知,偏态系数的变动围为33+≤≤-SK ,当SK=0时,表示对称分布;当SK=3时,表示极右偏态;当SK=-3时,表示极左偏态。

例题5.19 P124
(三)采用矩的概念测定分布偏态
偏态系数的计算公式为三阶中心矩与标准差的三次方之比:
()313133
σσα⋅-==∑∑==n i i i n i i f f X X v
当高于平均数的离差之和与低于平均数的离差之和相等时,全部离差之和等于0,分布为对称分布;当这两种离差之和不相等,经正、负相互抵消之后,结果便可显示出分布的偏斜程度。

一阶中心矩恒为0,而偶数阶离差不能正、负消减,惟独奇次阶的中心矩能满足正负离差和的比较,其中又以三阶中心矩为最简单。

从公式可以看到,当a=0 分布是对称的,
当a> 0 (为正值)时,为正偏或右偏;反之,a< 0 (为负值)时,为负偏或左偏。

偏态系数a 的数值一般在0与±3之间, a 越接近0,分布的偏斜度越小; 越接近±3,分布的偏斜度越大。

三、分布的峰度
在变量数列的分布特征中,常常以正态分布为标准,观察变量数列分布曲线顶峰的尖平程度,统计上称之为峰度测度。

如果分布的形状比正态分布更高更瘦,则称为尖峰分布,如果分布的形状比正态分布更矮更胖,则称为平峰分布。

峰度的测度。

相关主题