当前位置:文档之家› 数据分布特征的测度优秀课件

数据分布特征的测度优秀课件

Mo=不满意
统计函数—MODE
4.1.2 中位数(median)
1. 按数值大小排序后处于中间位置上的值;
50%
Me
2. 不受极端值的影响;
50%
3. 主要用于定序数据,也可用定量数据,但不能用 于定类数据;
数值型数据的中位数(奇数个数据)
例4-1: 9个家庭的人均月收入数据
原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000
9 0.18 18
汇源果汁
6 0.12 12
露露
9 0.18 18
合计
50
1
100
解:这里的变量为“饮 料品牌”,这是个定类 变量,不同类型的饮料 就是变量值
所 调 查 的 50 人 中 , 购买可口可乐的人数最 多,为15人,占被调查 总人数的30%,因此众 数为“可口可乐”这一 品牌,即
Mo=可口可乐
4 6 8 10 12
Median/Quart./Range箱线图
单批数据箱线图
最小值 141
下四分位数 中位数 上四分位数
170.8
182
197
最大值 237
140 150 160 170 180 190 200 210 220 230 240
某电脑公司销售量数据的 Median/Quart./Range箱线图
型数据。
众数
一个众数 原始数据:
659855
无众数 原始数据: 10 5 9 12 6 8
多于一个众数 原始数据: 25 28 28 36 42 42
定类数据的众数 (例题分析)
不同品牌饮料的频数分布
饮料品牌
频数
百分比 比例
(%)
可口可乐
15 0.30 30
旭日升冰茶 11 0.22 22
百事可乐
4.1.3 算术平均数
设一组数据为:X1 ,X2 ,… ,XN
简单算术平均数的计算公式为(未分组数据)
N
XX1X2
XN N
Xi
i1
N
设分组后的数据为:X1 ,X2 ,… ,XK 相应的频数为: f1 , f2,… ,fK
加权算术平均数的计算公式为(分组数据)
K
各单位标 志值的和总单 位数 NhomakorabeaX
X1f1X2f2 XNfN f1f2 fN
离散程度
分布的形状
位置 平均数
众数 中位数
数值 平均数
算术平均数 几何平均数
全距 方差 标准差 变异系数
偏态 系数
峰度 系数
数据分布特征的测度
4.1 集中趋势的测度 4.2 离中趋势的测度 4.3 偏度和峰度的测度
学习目标
u 了解集中趋势指标的概念、特点和作用,掌握各 种平均数的计算方法、应用条件以及几种平均数之间 的关系。 u 了解离中趋势指标的概念、种类和作用及与平均 指标的区别。其中重点是标准差与离散系数的计算。 u 了解数据的分布形态测定方法。 u 了解各项指标的应用原则,能结合实际调查资料 计算有关指标和进行初步的分析。
算术平均数 数值
调和平均数 平均数 数值型数据
几何平均数
定类数据
众数 (位置平均数)
中位数
定序数据
低层次数据的集中趋势测度值适用于高层次 的测量数据,反过来,高层次数据的集中趋 势测度值并不适用于低层次的测量数据
4.1.1 众数(mode)
1. 一组数据中出现次数最多的变量值; 2. 适合于数据量较多时使用; 3. 不受极端值的影响; 4. 一组数据可能没有众数或有几个众数; 5. 主要用于分类数据,也可用于顺序数据和数值
位 置 n110 15.5 22
中位数 9601080 1020 2
箱式图
中位数(位置和数值的确定)
位置确定 数值确定
中位数位 n置 1 2
Me
x12n2x1n2
x
n21
n为奇数 n为偶数
未分组数据—箱线图(box plot)
1. 用于显示未分组的原始数据的分布; 2. 由一组数据的5个特征值绘制而成,它由一个箱子
数据分布特征的测度
数据分布特征的描述
Std. Dev = 1.09 Mean = -.04 N = 100.00
数据的“中间位置”
离散程度的度量
这两个数据“胖瘦”一样吗?
数据分布的特征
集中趋势 (位置)
离中趋势 (分散程度) 偏态和峰态 (形状)
数据分布特征的描述
数据的分布特征和测度
集中趋势
位 置: 1 2 3 4 5 6 7 8
9
位置 n1915 22
中位数Me 1080
统计函数—MEDIAN
数值型数据的中位数(偶数个数据)
例4-2:10个家庭的人均月收入数据
排 序: 660 750 780 850 960 1080 1250 1500 1630 2000
位 置: 1 2 3 4 5 6 7 8 9 10
分布的形状与箱线图
QL 中位数 QU
QL 中位数 QU
QL 中位数 QU
左偏分布
对称分布
不同分布的箱线图
右偏分布
未分组数据—箱线图(box plot)
箱式图包含的信息比直方图和茎叶图都少,所以 它的最佳用途是用来同时比较多个分布。
例如, 为了解不同教育程度的人的收入差别,根 据某年71512个人的收入的抽样调查结果,得到的不 同受教育程度的人的收入分布如下图:
定序数据的众数(例题分析)
表4-1 某城市家庭对住房状况评价的频数分布
回答类别
非常不满意 不满意 一般 满意 非常满意
合计
户数 (户) 百分比 (%)
24
8
108
36
93
31
45
15
30
10
300
100.0
解:这里的数据为定 序数据。变量为“回 答类别”
该城市中对住房表 示不满意的户数最多 , 为 108 户 , 因 此 众 数为“不满意”这一 类别,即
4.1 集中趋势的测度
集中趋势指标
集中趋势指标(也叫平均指标)反映同类现 象的一般水平或平均水平,是总体内各单位参差 不齐的标志值的代表值,也是对变量分布集中趋 势的测定。
数据集中位置
变量x
x
u它是一个抽象值; u它是一个代表值; u它反映了总体(各单位标志值)分布的集中趋势。
按计算方 法不同
和两条线段组成; 3. 绘制方法:
首先找出一组数据的5个特征值,即最大值、最小值、
中位数Me和两个四分位数(下四分位数QL和上四分位数 QU);
连接两个四分位数画出箱子,再将两个极值点与箱子相 连接;
该箱线图也称为Median/Quart./Range箱线图 。
箱线图的构成 箱线图的构成:
X最小值 QL 中位数 QU X最大值
相关主题