当前位置：文档之家› 统计数据的特征描述

统计数据的特征描述

L
H
m
i 1 n
n
i
mi i 1 xi

nm m
i 1 n
1 xi

n

i 1
n
1 xi
例题见课本P44
3．几何平均数(geometric mean) 适用：计算平均比率和平均速度，即用于时间上有联系或有先后顺序关系的比率求平均。 1) 简单几何平均数 1 计算公式：
G n x1 x2 ...xn (xi ) n
数据-分类数据
Ｍ0＝商品广告
甲城市家庭对住房状况评价的频数分布
回答类别甲城市户数（户）百分比（％）
非常不满意不满意一般满意非常满意
合计
24 108 93 45 30
300
8 36 31 15 10
100
数据：顺序数据 M0＝不满意
1 下限公式 M 0 L d 1 2
解：按从小到大顺序的排列结果为 2300、2900、3000、3200、3500、4500、7000、8100
QL位置＝
QU位置= 3(n 1)=3(8+1)/4=6.75 4
QL＝[2900+0.25×(3000-2900)]万元=2925万元 QU =[4500+0.75×(7000-4500)]万元=6375万元
2) 加权几何平均数计算公式：
G
例题见P46
fi
i 1
n
x1 x2 ...xn
f1
f2
fn
fi x
fi i
平均值计算结果的说明
（1）根据原始数据和分组资料计算的结果一般不会完全相等，根据分组数据只能得到近似结果。（2）只有各组数据在组内呈对称或均匀分布时，根据分组资料的计算结果才会与原始数据的计算结果一致。
3.1.3 中位数中位数(median)是将一组数据按一定顺序排列后，
处于中间位置上的变量值，一般用Me表示。
适用:顺序数据和数值型数据 1．根据未分组数据计算中位数
n 1 中位数位置= 2
n
奇数：对应中位数位置的那个数值
偶数：对应于中位数位置左右相邻的两个数值
的平均值
原始数据：24,22,21,26,20－５个数据排序位置Ｍe＝22 原始数据：10,5,9,12,6,8－６个数据排序：5,6,8,9,10,12 位置：1,2,3,4, 5, 6 位置＝(n+1)/2=(6+1)/2=3.5 Ｍe＝(8+9)/2=8.5 ：20,21,22,24,26 ：1, 2, 3, 4, 5
数值平均值
特点： •最常用的测度值
总结
•均值利用了全体数据 •易受数据中极端值的影响
•用于数值型数据，而不能用于分类数据和顺序数据
3.1.2 众数众数(mode)是数据中出现次数最多的那个观测值，也就是是频数分布中频数或频率最大的数值，一般用M0 表示。适用：分类数据、顺序数据以及数值型数据。
3n S M 3 1 QU L3 4 d f Q3
L1和L3表示下四分位数和上四分位数所在组的下限； SM1-1和SM3-1分别表示下和上四分位数所在组以下各组的向上累计频数； fQ1和fQ3分别表示下四分位数和上四分位数所在组的频数； d表示下四分位数和上四分位数所在组的组距； n表示各组频数之和例见P55【例3.17】
x

ห้องสมุดไป่ตู้
x
i 1 n
n
i
fi

i 1

fi
x
i 1
n
fi
i
f
i 1
n
i
式中，x i是单项式分组形式下第i组的变量值或组距式分组形式下第i组的组中值； f i 是第i组的频数；n为组数。
已整理的单项式分组数据平均数算例
表 3- 1 家庭人口数
xi
职工家庭平均人口数的辅助计算表频数(职工户数)
注： LMe表示中位数所在组的下限； UMe表示中位数所在组的上限；
SMe-1表示向上累计至中位数所在组前一组的频数； SMe+1表示向下累计至中位数所在组后一组的频数；
fMe表示中位数所在组的频数；
dMe表示中位数所在组的组距；
n表示各组频数之和见P53－【例3.15】
3.1.4 分位数分位数是衡量数据位置的测定指标四分位数(quartile)就是一组数据排序后处于25%和 75%位置上的值，也称之为四分位点。 1．根据未分组数据计算四分位数
2．调和平均数(harmonic mean)
1)简单调和平均数简单调和平均数是各观测值倒数的算术平均数的倒数适用：未经分组整理的原始数据资料计算公式：
H 1 1 1 1 ... x1 x2 xn n n 1 1 1 ... x1 x2 xn n 1 i 1 xi
区别
指标众数中位数均值样本利用度稳健性
位置特征数位置特征数 100% 好好较差
适用数据
分类，顺序，数值顺序数据数值数据数值数据
关系
分布形态对称正态分布右偏分布左偏分布
常态
图形
e
x =M = M
0
x >M > M
e
0
x <M < M
e
0
§3.2 离散程度的描述
数据的离散程度反映各变量值远离其集中趋势测度值的程度。数据的离散程度越大，集中趋势测度值对该组数据的代表性就越差；离散程度越小，其代表性就越好。相关应用：投资的风险度常用指标：1 极差和四分位差 2 方差和标准差 3 变异系数和异众比率
fi
频率
fi
f
i 1
n
xi
i
fi
f
i 1
n
i
1 2 3 4 5 6
7 38 105 54 31 20
0.027 0.149 0.412 0.212 0.122 0.078
0.027 0.298 1.236 0.848 0.610 0.468
x
=0.027+0.298+1.236+0.848+0.610+0.468=3.487
3.1.5 集中趋势各测定指标之间的区别与关系
平均数、中位数、众数的特点算术平均数：（1）易受极端值影响；（2）数学性质优良,主要用于数值型数据；（3）数据对称分布或接近对称分布时应用。中位数: （1）不受极端值影响；（2）数据分布偏斜程度较大时应用；主要用于顺序数据。众数：（1）不受极端值影响；（2）具有不惟一性；（3）数据分布偏斜程度较大时应用；主要用于分类数据。
n
2) 加权调和平均数适用:已经分组整理并编制出频数分布的数据资料。 n 计算公式: mi m m ... m
H
1 2 n
m m1 m 2 ... n x1 x2 xn

mi i 1 x i
i 1 n
mi 表示第i个单位或第i组标志值对应的标志总量, 当各组标志总量相等，即m1=m2=…=mn= m时，即
第3章统计数据的特征描述
3.1 集中趋势的描述描述集中趋势的几个统计量及相互关系 3.2 离散程度的描述描述离散程度的几个统计量 3.3 分布形态的描述描述分布形态的几个统计量
数据的特征和测度
集中趋势
数值平均值
离散程度
方差和标准差
分布的形状
偏度
均值
众数
位置代表值中位数全距峰度
§3.1 集中趋势的描述
2 上限公式 M 0 U d 1 2
式中：L、U分别为众数组的下限和上限。
Δ1
是众数组与其前一组的频数之差；是众数组与其后一组的频数之差；
Δ2
d 是众数组的组距。例：P49页－例3.11
众数（Ｍode）
特点：
•不受极端值的影响
•可能没有众数或有几个众数（不唯一性）
•主要用于分类数据，也可用于顺序数据或数值型数据
位置＝(n+1)/2=(5+1)/2=3
2．根据分组数据计算中位数中位数位置= 见【例3.13】【例3.14】对于组距式分组数据
f
2
n S Me 1 d Me 下限公式： Me LMe 2 f Me n S Me 1 2 Me U d Me 上限公式： Me f Me
i (n 1) Qi位置＝ 4
i=1时，即为下四分位数QL (Lower Quartile) i=2时，即为中位数 i=3时，即为上四分位数QU (Upper Quartile)
例:第一组数据：2300、3500、2900、4500、7000、
3000、8100、3200(万元),计算两组数据的四分位数。
适用：数值型数据（不适用于分类数据和顺序数据）
简单算术平均值算术平均数加权算术平均值
简单调和平均数加权调和平均数简单几何平均数加权几何平均数
简单
平均数
常用形式：调和平均数几何平均数
加权
平均数
1．算术平均数(mean)
1) 简单算术平均数
1 = (67 + 78 + 49 + 56 + 98 + 87 + 62 20 + 100 + 73 + 45 + 70 + 44 + 96 + 80 + 49 + 61 + 60 + 88 + 93 + 60)分 = 70.8分
x
该班学生的数学平均成绩是70.8分。

e商务文档

统计数据的特征描述

相关文档推荐：