当前位置:文档之家› 统计学-数据的描述性分析

统计学-数据的描述性分析


3.2.2 数据的标准化
①定义 标准化数值是变量值与其平均数的离差除以标准
差后的值,也称为z分数或标准分数.设标准化数值为z,则有:
zi
xi
s
x
●对于来自不同均值和标准差的个体的数据,往往不能直 接对比.这就需要将它们转化为同一规格、尺度的数据后 再比较. ●标准分数是对某一个值在一组数据中相对位置的度量.
②全距(极差)
极差(Range)也叫全距,是一组数据的最大值与最小值之 差,即:
R max( xi ) min( xi )
组距分组数据可用最高组上限-最低组下限计算.
③四分位差 四分位差(quartile deviation)也称内距或四分间距(interquartile range),是指第三四分位数和第一四分位数之差.
7
问题
1、计算甲、乙、丙三个班的平均成绩;该平均值是真 实值还是近似值?如是近似值,什么情况下会是真实值?
2、计算甲、乙、丙三个班的中位数、众数;
3、如要选择从算术平均数、中位数和众数三个平均数 中选择一个数来分别代表甲、乙、丙三个班的整体水平, 请问你会选择哪个平均数?为什么?
4、如要分别反映甲、乙、丙三个班的考试情况,你会 选择用哪些指标来衡量?
四分位差的计算公式为:
Qr =Q3 Q1
把所有数据由小到大排列并分成若干等份,处于分割点位 置的数值就是分位数.
分位数可以反映数据分布的相对位置(而不单单是中心 位置). 常用的有四分位数、十分位数、百分位数. 四分位数(Quartile): Q1 ,Q2 ,Q3; 十分位数(Decile): D1 , D2 ,..., D9; 百分位数(Percentile): P1, P2 ,...,P99 ;
例:分类数据的众数
例:顺序数据的众数
②.中位数(Median)
中位数是一组数据按一定顺序排列后,处于中间位置 上的变量
负偏 注: (1)中位数总是介于众数和平均数之间.
正偏
(2) 皮尔逊经验法则 分布在轻微偏斜的情况下,众数、中位数和算术平均 数数量关系的经验公式为:
x Mo 3(x Me )
解: X i xi fi 2640 66个 fi 40
i
关于计算结果的说明
●根据原始数据和分组资料计算的结果一般不会完全相等, 根据分组数据只能得到近似结果.
●只有各组数据在组内呈对称或均匀分布时,根据分组资料 的计算结果才会与原始数据的计算结果一致.
(1).各变量值与均值的离差之和等于零.
中国工商银行的某笔投资的年利率是按照复利计算的,25 年利率分配(按时间数列):有一年是3%,有4年是4%,有8年 是8%,有10年为10%,有2年为15%.求平均年利率.
注:(1)
(2) 数值平均数主要适用于定量数据,而不适用于定性数据. (3) 简单数值平均数适用于未分组的资料,加权数值平均数 适用于分组的资料.
426.67万元
i1
5
2
s
xi x fi
i1 5
fi 1
250 426.672 19 350 426.672 30 L 650 426.672 11
119
i1
116.48 万元
⑥离散系数(Coefficient of variation)
离散系数也称变异系数,是各变异指标与其算术平均 数的比值.例如,将极差与其平均数对比,得到极差系 数;将标准差与其平均数对比,得到标准差系数.最常 用的变异系数是标准差系数:
3.1.1 数值平均数
数值平均数包括算术平均数、调和平均数和几何平均数.
①.算术平均数(均值, Arithmetic Mean)
总体均值常用X 或 表示,样本均值常用 x表示,样本均值
的计算公式:
简单算术平均数:
x
x1 x2
xn
n
x i
i1
nn
n
加权算术平均数:
xi fi
x
i 1 n
fi
n
xi x =0
i =1
(2).各变量值与均值的离差平方和最小.
n
2
xi x = min
i =1
②.调和平均数(倒数平均数, Harmonic Mean)
调和平均数分为简单调和平均数和加权调和平均数. (1)简单调和平均数 标志值的倒数的算术平均数的倒数.
1
n
n
H 1 1 L 1 1 1 L 1 n 1
把所有数据由小到大排列并分成四等份,处于三个分割点 位置的数值就是四分位数.
四分位数的计算 首先确定四分位数的位置,再找出对应位置的标志值即为 四分位数.设样本容量为n,则
Q1的位置
n 1 4
,
Q2的位置
2
n 1
4
,
Q3的位置
3
n 1
4
.
如果各位置计算出来的结果恰好是整数,这时各位置上的 标志值即为相应的四分位数;如果四分位数的位置不是整 数,则四分位数为前后两个数的加权算术平均数.权数的大 小取决于两个整数位置与四分位数位置距离的远近,距离 越近,权数越大.
标准差系数:标准差与其相应的均值之比,表示为 百分数.
V
(总体)
X

Vs
s(样本) x
特点: 1、反映了相对于均值的相对离散程度; 2、可用于比较计量单位不同的数据的离散程度; 3、计量单位相同时,如果两组数据的均值相差悬殊,离散 系数比标准差更有意义.
例子. 某管理局抽查了所属的8家企业,其产品销售数据 如表3.2所示,试比较产品销售额和销售利润的离散程度.
③.几何平均数(Geometric Mean)
是另一种形式的平均数,是n个标志值乘积的 n 次方根.主 要用于计算平均比率和平均速度. (1)简单几何平均数
1
G n x1 x2 L xn xi n
式中G表示几何平均数, xi表示各项标志值.
n
可以看作均值的一种变形lg G
1 n万元
s1 =309.19 万元
309.19 v1= 536.25 =0.577
销售利润 x2 32.5215万元
s2 =23.09万元
23.09 v2 = 32.5215 =0.710
结论:计算结果表明,v1 <v2 ,说明产品销售额的离散程度小 于销售利润的离散程度.
5、如要比较甲、乙、丙三个班的考试情况的优劣,你 又会选择什么样的指标来衡量? 6、甲乙丙三个班的考试成绩分别服从对称分布、左 偏分布、右偏分布中的哪种分布?为什么?
由组距数列确定中位数
n
先计算各组的累计次数,再按公式
i 1
fi
确定
2
中位数的位置,并对照累计次数确定中位数。
下限公式:
n
fi
Me L
3.1.2 位置平均数
①.众数(Mode)
一组数据中出现次数最多的变量值.
主要特点: ●不受极端值的影响. ●有的数据无众数或有多个众数.
说明:如果所有数据出现的次数都一样,那么这组数据没 有众数.
适用范围
众数主要用于分类数据,也可用于顺序数据和数值型数据, 对于未分组数据和单项式分组数据,众数位置确定之后便 找到了众数.
众数、中位数、平均数的特点和应用
1. 众数
– 不受极端值影响 – 具有不惟一性 – 数据分布偏斜程度较大且有明显峰值时应用
2. 中位数
– 不受极端值影响 – 数据分布偏斜程度较大时应用
3. 平均数
– 易受极端值影响 – 数学性质优良 – 数据对称分布或接近对称分布时应用
数值平均数与位置平均数的适用场合?
i:众数组的组距。
离散程度的描述
●反映各变量值远离其中心值的程度(离散程度),从另一 个侧面说明了集中趋势测度值的代表程度.
3.2.1 离散程度的常用指标
①异众比率
Vr = i
fi fm =1
fi
fm fi
i
i
式中, fi 为变量值的总频数; fm 为众数组的频数. i
异众比率越大,说明非众数组的频数占总频数的比重越大, 众数的代表性越差.
数据的描述性分析
本章内容
第一节 集中趋势的描述 第二节 离散程度的描述 第三节 分布的偏态与峰度
集中趋势
集中趋势反映的是一组数据向某一中心值 靠拢的倾向,在中心附近的数据数目较多, 而远离中心的较少。对集中趋势进行描述就 是寻找数据一般水平的中心值或代表值。
位置平均数
众数 中位数
平均数
算术平均数
案例1:甲班《统计学》考试情况如下表:
60分以下
2
60-70
8
70-80
22
80-90
10
90分以上
4
案例2:乙班《统计学》考试情况如下表:
60分以下
2
60-70
30
70-80
8
80-90
4
90分以上
1
案例3:丙班《统计学》考试情况如下表:
60分以下
2
60-70
5
70-80
12
80-90
25
90分以上
加权式(分组数据):
n
xi x fi
M D i1 i
fi
i 1
平均差虽然能较好地区别出不同组数据的分散情况或程度,
但它的缺点是绝对值不适合作进一步的数学分析.
⑤标准差和方差(Standard deviation and Variance) 方差是一组数据中各数值与其算术平均数离差平方的平 均数.标准差是方差中的平方根.
试求这组数据的第一和第三四分位数.
四分位差反映了中间50%数据的离散程度,数值越小说明 中间数据越集中.
④平均差(Mean deviation)
相关主题