当前位置:文档之家› 统计数据的特征描述

统计数据的特征描述

L
H
m
i 1 n
n
i
mi i 1 xi

nm m
i 1 n
1 xi

n

i 1
n
1 xi
例题见课本P44
3.几何平均数(geometric mean) 适用:计算平均比率和平均速度,即用于时间上有 联系或有先后顺序关系的比率求平均。 1) 简单几何平均数 1 计算公式:
G n x1 x2 ...xn (xi ) n
数据-分类数据
M0=商品广告
甲城市家庭对住房状况评价的频数分布
回答类别 甲城市 户数(户) 百分比(%)
非常不满意 不满意 一般 满意 非常满意
合计
24 108 93 45 30
300
8 36 31 15 10
100
数据:顺序数据 M0=不满意
1 下限公式 M 0 L d 1 2
解:按从小到大顺序的排列结果为 2300、2900、3000、3200、3500、4500、7000、8100
QL位置=
QU位置= 3(n 1)=3(8+1)/4=6.75 4
QL=[2900+0.25×(3000-2900)]万元=2925万元 QU =[4500+0.75×(7000-4500)]万元=6375万元
2) 加权几何平均数 计算公式:
G
例题见P46
fi
i 1
n
x1 x2 ...xn
f1
f2
fn
fi x
fi i
平均值计算结果的说明
(1)根据原始数据和分组资料计算的结果一般不 会完全相等,根据分组数据只能得到近似结果。 (2)只有各组数据在组内呈对称或均匀分布时, 根据分组资料的计算结果才会与原始数据的计算 结果一致。
3.1.3 中位数 中位数(median)是将一组数据按一定顺序排列后,
处于中间位置上的变量值,一般用Me表示。
适用:顺序数据和数值型数据 1.根据未分组数据计算中位数
n 1 中位数位置= 2
n
奇数:对应中位数位置的那个数值
偶数:对应于中位数位置左右相邻的两个数值
的平均值
原始数据:24,22,21,26,20-5个数据 排序 位置 Me=22 原始数据:10,5,9,12,6,8-6个数据 排序 :5,6,8,9,10,12 位置 :1,2,3,4, 5, 6 位置=(n+1)/2=(6+1)/2=3.5 Me=(8+9)/2=8.5 :20,21,22,24,26 :1, 2, 3, 4, 5
数值平均值
特点: •最常用的测度值
总结
•均值利用了全体数据 •易受数据中极端值的影响
•用于数值型数据,而不能用于分类数据和顺序数据
3.1.2 众数 众数(mode)是数据中出现次数最多的那个观测值,也 就是是频数分布中频数或频率最大的数值,一般用M0 表示。 适用:分类数据、顺序数据以及数值型数据。
3n S M 3 1 QU L3 4 d f Q3
L1和L3表示下四分位数和上四分位数所在组的下限; SM1-1和SM3-1分别表示下和上四分位数所在组以下各 组的向上累计频数; fQ1和fQ3分别表示下四分位数和上四分位数所在组的 频数; d表示下四分位数和上四分位数所在组的组距; n表示各组频数之和 例见P55【例3.17】
x

ห้องสมุดไป่ตู้
x
i 1 n
n
i
fi

i 1

fi
x
i 1
n
fi
i
f
i 1
n
i
式中,x i是单项式分组形式下第i组的变量值或组距式 分组形式下第i组的组中值; f i 是第i组的频数;n为 组数。
已整理的单项式分组数据平均数算例
表 3- 1 家庭人口数
xi
职工家庭平均人口数的辅助计算表 频数(职工户数)
注: LMe表示中位数所在组的下限; UMe表示中位数所在组的上限;
SMe-1表示向上累计至中位数所在组前一组的频数; SMe+1表示向下累计至中位数所在组后一组的频数;
fMe表示中位数所在组的频数;
dMe表示中位数所在组的组距;
n表示各组频数之和 见P53-【例3.15】
3.1.4 分位数 分位数是衡量数据位置的测定指标 四分位数(quartile)就是一组数据排序后处于25%和 75%位置上的值,也称之为四分位点。 1.根据未分组数据计算四分位数
2.调和平均数(harmonic mean)
1)简单调和平均数 简单调和平均数是各观测值倒数的算术平均数的倒数 适用:未经分组整理的原始数据资料 计算公式:
H 1 1 1 1 ... x1 x2 xn n n 1 1 1 ... x1 x2 xn n 1 i 1 xi
区别
指标 众数 中位数 均值 样本利用度 稳健性
位置特征数 位置特征数 100% 好 好 较差
适用数据
分类,顺序,数值 顺序数据 数值数据 数值数据
关系
分布形态 对称正态分布 右偏分布 左偏分布
常态
图形
e
x =M = M
0
x >M > M
e
0
x <M < M
e
0
§3.2 离散程度的描述
数据的离散程度反映各变量值远离其集中趋势测 度值的程度。数据的离散程度越大,集中趋势 测度值对该组数据的代表性就越差;离散程度 越小,其代表性就越好。 相关应用:投资的风险度 常用指标:1 极差和四分位差 2 方差和标准差 3 变异系数和异众比率
fi
频率
fi
f
i 1
n
xi
i
fi
f
i 1
n
i
1 2 3 4 5 6
7 38 105 54 31 20
0.027 0.149 0.412 0.212 0.122 0.078
0.027 0.298 1.236 0.848 0.610 0.468
x
=0.027+0.298+1.236+0.848+0.610+0.468=3.487
3.1.5 集中趋势各测定指标之间的区别与关系
平均数、中位数、众数的特点 算术平均数 : (1)易受极端值影响; (2)数学性质优良,主要用于数值型数据; (3)数据对称分布或接近对称分布时应用。 中位数: (1)不受极端值影响; (2)数据分布偏斜程度较大时应用;主要用于顺序数据。 众数: (1)不受极端值影响; (2)具有不惟一性; (3)数据分布偏斜程度较大时应用;主要用于分类数据。
n
2) 加权调和平均数 适用:已经分组整理并编制出频数分布的数据资料。 n 计算公式: mi m m ... m
H
1 2 n
m m1 m 2 ... n x1 x2 xn

mi i 1 x i
i 1 n
mi 表示第i个单位或第i组标志值对应的标志总量, 当各组标志总量相等,即m1=m2=…=mn= m时,即
第3章 统计数据的特征描述
3.1 集中趋势的描述 描述集中趋势的几个统计量及相互关系 3.2 离散程度的描述 描述离散程度的几个统计量 3.3 分布形态的描述 描述分布形态的几个统计量
数据的特征和测度
集中趋势
数值平均值
离散程度
方差和标准差
分布的形状
偏度
均值
众数
位置代表值 中位数 全距 峰度
§3.1 集中趋势的描述
2 上限公式 M 0 U d 1 2
式中 :L、U分别为众数组的下限和上限。
Δ1
是众数组与其前一组的频数之差; 是众数组与其后一组的频数之差;
Δ2
d 是众数组的组距。 例:P49页-例3.11
众数(Mode)
特点:
•不受极端值的影响
•可能没有众数或有几个众数(不唯一性)
•主要用于分类数据,也可用于顺序数据或数值型 数据
位置=(n+1)/2=(5+1)/2=3
2.根据分组数据计算中位数 中位数位置= 见【例3.13】【例3.14】 对于组距式分组数据
f
2
n S Me 1 d Me 下限公式: Me LMe 2 f Me n S Me 1 2 Me U d Me 上限公式: Me f Me
i (n 1) Qi位置= 4
i=1时,即为下四分位数QL (Lower Quartile) i=2时,即为中位数 i=3时,即为上四分位数QU (Upper Quartile)
例:第一组数据:2300、3500、2900、4500、7000、
3000、8100、3200(万元),计算两组数据的四分位数。
适用:数值型数据(不适用于分类数据和顺序数据)
简单算术平均值 算术平均数 加权算术平均值
简单调和平均数 加权调和平均数 简单几何平均数 加权几何平均数
简单
平均数
常用形式: 调和平均数 几何平均数
加权
平均数
1.算术平均数(mean)
1) 简单算术平均数
1 = (67 + 78 + 49 + 56 + 98 + 87 + 62 20 + 100 + 73 + 45 + 70 + 44 + 96 + 80 + 49 + 61 + 60 + 88 + 93 + 60)分 = 70.8分
x
该班学生的数学平均成绩是70.8分。
相关主题