第四章统计数据的描述
第四章 统计数据的描述
第一节 分布集中趋势的描述
一、众数(mode) • 一组数据中出现次数最多的变量值 • 适合于数据量较多时使用 • 不受极端值的影响 • 一组数据可能没有众数或有几个众数
众数
(不惟一性)
无众数 原始数据: 10 5 9 12 6 8
一个众数 原始数据:
659855
多于一个众数 原始数据: 25 28 28 36 42 42
分组数据:
QL位置
n 4
QU位置
3n 4
四分位数的求法
(9个数据的算例)
• 【例】:9个家庭的人均月收入数据
• 原始数据: 1500 750 780 1080 850 960 2000 1250 1630
• 排 序: 750 780 850 960 1080 1250 1500
统计函数—QUARTILE
四、均值(mean) (一)均值的概念 • 集中趋势的最常用测度值 • 一组数据的均衡点所在(重心) • 易受极端值的影响
(二)均值的算法
1、简单均值(simple mean)
设一组数据为: x1 ,x2 ,… ,xn
总体均值
n
x1 x2 xN
xi
i 1
N
N
样本均值
n
x
x1 x2 xn
xi
i 1
n
n
2、加权均值(weighted mean)
设一组数据为: 相应的频数为:
x1 ,x2 ,… ,xn f1 , f2 ,… ,fk
总体均值
K
x1 f1 x2 f2 xK fK f1 f2 fK
中位数的求法
(9个数据的算例)
• 【例】 9个家庭的人均月收入数据
• 原始数据: 1500 750 780 1080 850 960 2000 1250 1630
• 排 序: 750 780 850 960 1080 1250 1500 1630 2000
• 位 置:
9
1 2 3 4 5 6 7 8
x x(n 1) x(n 2 ) x(n n )
n 2 n
n 表示观察值的个数;α表示切尾系数,0 1
2
切尾均值
(例题分析)
•
【例】某次比赛共有11名评委,对某位歌手的给分
分x1 别, 是x:2 , x3 , x 4 , x5 , x6 , x7 , x8 , x9 , x10 , x11
第二节 分布离散程度的测度
一、极差 二、内距 三、方差和标准差 四、离散系数
一、极差(range) • 一组数据的最大值与最小值之差 • 离散程度的最简单测度值 • 极差越大,说明离散程度越大 • 易受极端值影响 • 未考虑数据的分布 7 8 9 10 7 8 9 10
计算公式为
R = max(xi) - min(xi)
去掉一个最高分和一个最低分,取1/11
x x x 1/11
111 /111
111 /112
x 11111/11
11 2111/11
x(2) x(3) x(10) 11 2
9.2 9.22 9.3 9.26 9
s i1 n 1
• 单变量分组的样本方差和标准差
k
(xi x)2 fi
s2 i1 n 1
k
(xi x)2 fi
s i1 n 1
注:在分 组数据里
n=∑fi
注解:样本方差自由度(degree of freedom)
1. 一组数据中可以自由取值的数据的个数
当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其
i 1
2. 各变量值与均值的离差平方和最小
n
(xi x)2 min
i 1
五、几何平均数(geometric mean)
• 1. n 个变量值乘积的 n 次方根
• 2. 适用于对比率数据的平均
• 3. 主要用于计算平均增长率
• 4. 计算公式为
n
G m n x1 x 2 x n n xi
1、样本方差的计算公式
未分组数据:
n
(xi x)2
s 2 i1 n 1
组距分组数据:
注意:
样本方差用自 由度n-1去除!
2、样本标准差的计算公式
未分组数据:
n
(xi x)2
s i1 n 1
组距分组数据:
k
(M i x)2 fi
s 2 i1 n 1
k
(M i x)2 fi
20
1000~1200
1100
35
1200~1400
1300
15
1400 以上
1500
10
k
x
xi fi
i1 k
fi
104000 1040 100
i1
k
s2
( xi
i 1 k
x)2 fi 1
fi
(500 1040 )2 5 (700
1040 )2 15 (1500 100 1
1.总体方差的计算公式
未分组数据:
2.总体标准差的计算公式
未分组数据:
N
(xi )2
2 i1
N
组距分组数据:
N
(xi )2
i1
N
组距分组数据:
K
(M i )2 fi
2 i1
N
K
(M i )2 fi
i1
N
(三)样本方差和标准差的计算公式
i 1
5. 可看作是均值的一种变形
n
lg G m
1 (lg n
x1 lg
x2
lg xn )
lg
i 1
n
xi
几何平均数的求法
(例题分析)
• 【例】一位投资者购持有一种股票,在2000年、 2001年、2002年和2003年收益率分别为4.5%、 2.1%、25.5%、1.9%。计算该投资者在这四年内 的平均收益率
i 1 K
fi
i 1
组距式分组
k
x
M1 f1 M 2 f2 M k fk f1 f2 fk
Mi fi
i 1 n
fi
i 1
加权均值计算表
零件数 80-90 90-100 100-110 110-120 120-130 合计
工人数 3 7
13 5 2
1040 )2 10
69090 .91
i 1
S=262.85
四、离散系数(coefficient of variation) 1. 标准差与其相应的均值之比 2. 对数据相对离散程度的测度 3. 消除了数据水平高低和计量单位的影响 4. 用于对不同组别数据离散程度的比较 5. 计算公式为
众数、中位数和均值的关系
均值 中位数 众数 均值 = 中位数 = 众数
众数 中位数 均值
左偏分布
对称分布
右偏分布
众数、中位数、均值的特点和应 用
1. 众数
– 不受极端值影响 – 具有不惟一性 – 数据分布偏斜程度较大时应用
2. 中位数
– 不受极端值影响 – 数据分布偏斜程度较大时应用
3. 均值
– 易受极端值影响 – 数学性质优良 – 数据对称分布或接近对称分布时应用
二、内距(Inter-Quartile Range,IQR) 1.也称四分位差 2.上四分位数与下四分位数之差
内 距= QU – QL
3. 反映了中间50%数据的离散程度 4. 不受极端值的影响 5. 可用于衡量中位数的代表性
三、方差与标准差(Variance and Standard deviation)
30
组中值 85 95
105 115 125 —
Mifi 255 665 1365 575 250 3110
加权均值 (例题分析)
k
xi fi
x
i 1 k
fi
i 1
3110 103.6( 7 件) 30
(三)均值的数学性质
1. 各变量值与均值的离差之和等于零
n
(xi x) 0
2
2
中 位 数 960 1080 1020 2
三、四分位数(quartile) (一)四分位数的概念 1.将一组数据(排序后)四等分的数据
25% 25% 25% 25%
QL
QM
QU
2.不受极端值的影响
(二)四分位数的位置
原始数据:
QL 位置
n 1 4
QU 位置
3(n 1) 4
位置 n1 91 5
2
2
中位数 1080
中位数的求法
(10个数据的算例)
• 【例】:10个家庭的人均月收入数据
• 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000
• 位 置: 1 2 3 4 5 6 7 8 9
10
位 置 n 1 10 1 5.5
(一)方差与标准差的概念 1. 离散程度的测度值之一
x = 8.3
2. 最常用的测度值 3. 反映了数据的分布
4 6 8 10 12
4. 反映了各变量值与均值的平均差异
5. 根据总体数据计算的,称为总体方差或标准 差;根据样本数据计算的,称为样本方差或 标准差