统计学-数据的描述统计量
【例4.6】沿用例3.2的数据,试结合直方图确定150名“网约车”司机日营业额的 众数。 解:在例3.2中,我们已经对150名“网约车”司机日营业额数据进行了分组和频数 统计,并最终绘制了直方图。为便于观察,将直方图复制至此,如图4-1所示。
图4-1 150名“网约车”司机日营业额的直方图
19
“位置”的度量——众数
20
“位置”的度量
• 均值、中位数和众数是描述数据“中心位置”的三个主要统计量。 • 由于均值利用了最多的原始数据信息,且容易理解,在日常生活中最
为常用。 • 但作为“重心”的均值,容易受到数据分布形状的影响,如果数据存
在较为严重的偏斜程度(即存在极端值),均值对一组数据平均水平 的代表性较差,此时计算中位数可能是更好的选择。 • 而对于无序类别数据,使用众数则是一种必然。
21
第 4 章 数据的描述统计量
4.2 离散程度的度量
22
离散程度的度量——极差
• 极差(range)是一组数据的最大值和最小值的差值,也称全距,通 常用R表示。
• 极差计算简单,反映了一组数据取值的波动范围。 • 但极差只利用了最大值和最小值两个数值的信息,对极端值十分敏感,
对数据内部的具体变动情况揭示不够完整。
• 将一组数据由小到大排序后,百分位数的位置为: k%分位数位置=(n+1)×k%
• 如果根据公式计算得到的位置是整数,k%分位数就是该位置对应的 数值,否则就要对该位置左右两个数值进行相应的线性插值。
14
“位置”的度量——百分位数
【例4.4】沿用例4.3的数据,试计算十位企业家财富数据中哪个数值出现的次数最多,却掩盖
了所有数据的具体取值。
16
“位置”的度量——众数
【例4.5】某大学新开设“数据科学”实验班,并面向2019级全校本科生进行选拔, 最终进入该实验班的20名同学的性别和年龄如表4-3所示。试确定这20名同学性别 和年龄的众数。
表4-3 “数据科学”实验班20名同学的性别和年龄
Me
x
(
n1)
,
2
1
2
{x
(
n 2
)
x
(
n
1)
},
2
n为奇数 n为偶数
8
“位置”的度量——中位数
【例4.2】沿用例4.1的数据,试计算十位企业家财富值的中位数。
解:表4-1已经给出了按照财富值排序后的十位企业家,由于n是偶数,位于中间 的是排名第5和第6的两位企业家,其财富值分别是1345.5亿元和1179.9亿元,因 此根据公式计算得到
• 四分位差反映了中间50%数据的离散程度,由上下四分位数的取值决 定,不受数据极端值的影响。
• 在箱线图中,箱子的长度就等于四分位差。
26
离散程度的度量——四分位差
【例4.8】沿用例4.7的数据,试分别计算10位观众对两部电影评分的四分位差。 解:根据公式计算得到两组评分的上下四分位数位置为:
Q25%位置=(10+1)/4=2.75;Q75%位置=3×(10+1)/4=8.25 因此,对贺岁片1有
用 x 表示样本均值,其计算公式为:
n
x
x1 x2
xn
xi
i 1
n
n
• 根据上式计算得到的平均数也称为简单平均数(simple mean)或算 术平均数(arithmetic average)。
5
“位置”的度量——均值
【例4.1】2018年10月25日,美国财经杂志《福布斯》(Forbes)发布了2018福 布斯中国富豪榜,排名前十位的企业家财富值如表4-1,试计算十位企业家的平 均财富值。
因此极差 R1 =10-2=8分;而对贺岁片2的最高评分为9分,最低评分为6分,极差 R2
=9-6=3分。
25
离散程度的度量——四分位差
• 四分位差(interquartile range)是一组数据上四分位数与下四分位数 的差值,也称四分位距或内距,通常用IQR表示,即IQR= Q75%- Q25%。
23
离散程度的度量——极差
【例4.7】针对新上映的两部国产贺岁片,随机采访10位观众,评分结果如表4-5 所示。试分别计算观众对两部电影评分的极差。
表4-5 10位观众对两部国产贺岁片的评分
单位:分
序号 贺岁片1 贺岁片2
1
2
3
4
5
6
7
8
9 10
7 7 5 6 8 6 7 2 5 10
6889779998
Q25%=5;Q75%= 7+(8-7)×0.25=7.25;IQR= Q75%- Q25%=7.25-5=2.25(分) 对贺岁片2有
Q25%=7;Q75%= 9;IQR= Q75%- Q25%=9-7=2(分)
27
离散程度的度量——方差和标准差
• 方差(variance)是用于度量一组数据中每一个数值与该组数据均值 的平均偏离程度的重要统计量。
表4-4 “数据科学”实验班20名同学性别和年龄的频数统计
性别 女 男
频数 6 14
年龄 16岁 17岁 18岁 19岁
频数 1 1 5 13
显然,该实验班男同学的人数远多于女同学,因此“性别”的众数是男性;20名 同学中19岁的人数也多于其他年龄的人数,因此“年龄”的众数是19岁。
18
“位置”的度量——众数
x 2387.4 2263.2 931.5 1481 10
6
“位置”的度量——均值
• 由于均值用到了原始数据的所有信息,相当于是一组数据的“重心” 位置,因此在现实中应用非常广泛。
• 但也正是因为均值的这一特点,任何一个数据的取值发生变化,均值 也会随之改变。
• 如果一组数据中出现了极端值(极大值或极小值),作为“重心”的 均值就会向极端值倾斜,对平均水平的代表性可能就会受到较大影响。
解:表4-2已经给出十位企业家财富值由低到高的排序结果,根据公式计算得到 该例中的10%和90%分位数的位置分别为:
10%分位数位置=(10+1)×10%=1.1 90%分位数位置=(10+1)×90%=9.9 因此,10%分位数位于表4-2中排在第1和第2的两位企业家财富值之间0.1的位置, 即10%分位数=931.5 +(979.8-931.5)×0.1=936.3亿元;90%分位数位于表4-2中 排在第9和第10的两位企业家财富值之间0.9的位置,即90%分位数 =2263.2+(2387.4-2263.2)×0.9=2375亿元。
4
1
9
5
3
2
2
然后,根据公式计算得到上下四分位数位置分别为:Q25%位置=(10+1)/4=2.75;Q75%位置 =3×(10+1)/4=8.25。
因此,下四分位数位于表4-2中排在第2和第3的两位企业家财富值之间0.75的位置,即
Q25%=979.8 +(1007.4-979.8)×0.75=1000.5亿元;上四分位数位于表4-2中排在第8和第9
10
“位置”的度量——四分位数
• 四分位数(quartile)是将一组数据由小到大排序后,分别位于25%、 50%和75%位置上的三个数。
• 四分位数将数据等分为四份,第二四分位数就是中位数(50%分位 数),也可表示为Q50%。位于75%位置的第一四分位数称为上四分位 数,记为Q75%,表示该组数据中有75%的数值小于或等于它。位于 25%位置的第三四分位数则称为下四分位数, 记为Q25%,表示该组数 据中有25%的数值小于或等于它。
的两位企业家财富值之间0.25的位置,即Q75%= 2125.2 +(2263.2-2125.2)×0.25=2160亿
元。
13
“位置”的度量——百分位数
• 如果一组数据由小到大排序后,用99个点将数据划分成100等份,那 么这些分位点上对应的数值就是百分位数(percentile)。
• 人们可以根据需要计算k%分位数,表示数据中有k%的数值小于或等 于它。
11
“位置”的度量——四分位数
• 上下四分位数的计算方法与中位数类似,先将数据由小到大排序,然 后确定四分位数所在的位置:
Q25%位置=
n
4
1,Q75%位置=
3(n 1) 4
• 如果根据公式计算得到的位置是整数,四分位数就是该位置对应的数 值,否则就要对该位置左右两个数值进行相应的线性插值。
12
依据直方图的含义,图4-1中横坐标是“网约车”司机日营业额,每一个矩形的 宽度对应的是数据分组后每一组的取值区间,纵坐标是频数。
因此,从图形中可以非常快捷地发现,矩形“最高峰”所在的位置就是众数所 在的组别,即350元至400元,取该组上下限的中点375元作为这150名“网约 车”司机日营业额的众数。
统计学
Statistics
1
第 4 章 数据的描述统计量
4.1 4.2 4.3 4.4 4.5
“位置”的度量 离散程度的度量 分布形状的度量 标准得分 小结
2
数据的描述统计量
• 不包含总体的任何未知参数的样本的函数,称为统计量(statistic)。 • 不同的统计量可以从不同的角度描述数据的分布特征,主要包括三个
性别 年龄 性别 年龄
男 19岁
男 18岁
男 19岁
女 19岁
女 18岁
男 19岁
男 19岁
女 19岁
男 18岁
男 16岁
男 19岁
男 18岁
女 17岁
男 19岁
女 19岁
男 19岁
男 19岁
女 18岁
男 19岁
男 19岁
17
“位置”的度量——众数