当前位置：文档之家› 统计学-数据的描述统计量

统计学-数据的描述统计量

【例4.6】沿用例3.2的数据，试结合直方图确定150名“网约车”司机日营业额的众数。解：在例3.2中，我们已经对150名“网约车”司机日营业额数据进行了分组和频数统计，并最终绘制了直方图。为便于观察，将直方图复制至此，如图4-1所示。
图4-1 150名“网约车”司机日营业额的直方图
19
“位置”的度量——众数
20
“位置”的度量
• 均值、中位数和众数是描述数据“中心位置”的三个主要统计量。 • 由于均值利用了最多的原始数据信息，且容易理解，在日常生活中最
为常用。 • 但作为“重心”的均值，容易受到数据分布形状的影响，如果数据存
在较为严重的偏斜程度（即存在极端值），均值对一组数据平均水平的代表性较差，此时计算中位数可能是更好的选择。 • 而对于无序类别数据，使用众数则是一种必然。
21
第 4 章数据的描述统计量
4.2 离散程度的度量
22
离散程度的度量——极差
• 极差（range）是一组数据的最大值和最小值的差值，也称全距，通常用R表示。
• 极差计算简单，反映了一组数据取值的波动范围。 • 但极差只利用了最大值和最小值两个数值的信息，对极端值十分敏感，
对数据内部的具体变动情况揭示不够完整。
• 将一组数据由小到大排序后，百分位数的位置为： k%分位数位置=(n+1)×k%
• 如果根据公式计算得到的位置是整数，k%分位数就是该位置对应的数值，否则就要对该位置左右两个数值进行相应的线性插值。
14
“位置”的度量——百分位数
【例4.4】沿用例4.3的数据，试计算十位企业家财富数据中哪个数值出现的次数最多，却掩盖
了所有数据的具体取值。
16
“位置”的度量——众数
【例4.5】某大学新开设“数据科学”实验班，并面向2019级全校本科生进行选拔，最终进入该实验班的20名同学的性别和年龄如表4-3所示。试确定这20名同学性别和年龄的众数。
表4-3 “数据科学”实验班20名同学的性别和年龄
Me
x
(
n1)
,
2
1
2
{x
(
n 2
)
x
(
n
1)
},
2
n为奇数 n为偶数
8
“位置”的度量——中位数
【例4.2】沿用例4.1的数据，试计算十位企业家财富值的中位数。
解：表4-1已经给出了按照财富值排序后的十位企业家，由于n是偶数，位于中间的是排名第5和第6的两位企业家，其财富值分别是1345.5亿元和1179.9亿元，因此根据公式计算得到
• 四分位差反映了中间50%数据的离散程度，由上下四分位数的取值决定，不受数据极端值的影响。
• 在箱线图中，箱子的长度就等于四分位差。
26
离散程度的度量——四分位差
【例4.8】沿用例4.7的数据，试分别计算10位观众对两部电影评分的四分位差。解：根据公式计算得到两组评分的上下四分位数位置为：
Q25%位置=(10+1)/4=2.75；Q75%位置=3×(10+1)/4=8.25 因此，对贺岁片1有
用 x 表示样本均值，其计算公式为：
n
x
x1 x2
xn
xi
i 1
n
n
• 根据上式计算得到的平均数也称为简单平均数（simple mean）或算术平均数（arithmetic average）。
5
“位置”的度量——均值
【例4.1】2018年10月25日，美国财经杂志《福布斯》（Forbes）发布了2018福布斯中国富豪榜，排名前十位的企业家财富值如表4-1，试计算十位企业家的平均财富值。
因此极差 R1 =10-2=8分；而对贺岁片2的最高评分为9分，最低评分为6分，极差 R2
=9-6=3分。
25
离散程度的度量——四分位差
• 四分位差（interquartile range）是一组数据上四分位数与下四分位数的差值，也称四分位距或内距，通常用IQR表示，即IQR= Q75%- Q25%。
23
离散程度的度量——极差
【例4.7】针对新上映的两部国产贺岁片，随机采访10位观众，评分结果如表4-5 所示。试分别计算观众对两部电影评分的极差。
表4-5 10位观众对两部国产贺岁片的评分
单位：分
序号贺岁片1 贺岁片2
1
2
3
4
5
6
7
8
9 10
7 7 5 6 8 6 7 2 5 10
6889779998
Q25%=5；Q75%= 7+(8-7)×0.25=7.25；IQR= Q75%- Q25%=7.25-5=2.25（分）对贺岁片2有
Q25%=7；Q75%= 9；IQR= Q75%- Q25%=9-7=2（分）
27
离散程度的度量——方差和标准差
• 方差（variance）是用于度量一组数据中每一个数值与该组数据均值的平均偏离程度的重要统计量。
表4-4 “数据科学”实验班20名同学性别和年龄的频数统计
性别女男
频数 6 14
年龄 16岁 17岁 18岁 19岁
频数 1 1 5 13
显然，该实验班男同学的人数远多于女同学，因此“性别”的众数是男性；20名同学中19岁的人数也多于其他年龄的人数，因此“年龄”的众数是19岁。
18
“位置”的度量——众数
x 2387.4 2263.2 931.5 1481 10
6
“位置”的度量——均值
• 由于均值用到了原始数据的所有信息，相当于是一组数据的“重心” 位置，因此在现实中应用非常广泛。
• 但也正是因为均值的这一特点，任何一个数据的取值发生变化，均值也会随之改变。
• 如果一组数据中出现了极端值（极大值或极小值），作为“重心”的均值就会向极端值倾斜，对平均水平的代表性可能就会受到较大影响。
解：表4-2已经给出十位企业家财富值由低到高的排序结果，根据公式计算得到该例中的10%和90%分位数的位置分别为：
10%分位数位置=(10+1)×10%=1.1 90%分位数位置=(10+1)×90%=9.9 因此，10%分位数位于表4-2中排在第1和第2的两位企业家财富值之间0.1的位置，即10%分位数=931.5 +(979.8-931.5)×0.1=936.3亿元；90%分位数位于表4-2中排在第9和第10的两位企业家财富值之间0.9的位置，即90%分位数 =2263.2+(2387.4-2263.2)×0.9=2375亿元。
4
1
9
5
3
2
2
然后，根据公式计算得到上下四分位数位置分别为：Q25%位置=(10+1)/4=2.75；Q75%位置 =3×(10+1)/4=8.25。
因此，下四分位数位于表4-2中排在第2和第3的两位企业家财富值之间0.75的位置，即
Q25%=979.8 +(1007.4-979.8)×0.75=1000.5亿元；上四分位数位于表4-2中排在第8和第9
10
“位置”的度量——四分位数
• 四分位数（quartile）是将一组数据由小到大排序后，分别位于25%、 50%和75%位置上的三个数。
• 四分位数将数据等分为四份，第二四分位数就是中位数（50%分位数），也可表示为Q50%。位于75%位置的第一四分位数称为上四分位数，记为Q75%，表示该组数据中有75%的数值小于或等于它。位于 25%位置的第三四分位数则称为下四分位数, 记为Q25%，表示该组数据中有25%的数值小于或等于它。
的两位企业家财富值之间0.25的位置，即Q75%= 2125.2 +(2263.2-2125.2)×0.25=2160亿
元。
13
“位置”的度量——百分位数
• 如果一组数据由小到大排序后，用99个点将数据划分成100等份，那么这些分位点上对应的数值就是百分位数（percentile）。
• 人们可以根据需要计算k%分位数，表示数据中有k%的数值小于或等于它。
11
“位置”的度量——四分位数
• 上下四分位数的计算方法与中位数类似，先将数据由小到大排序，然后确定四分位数所在的位置：
Q25%位置=
n
4
1，Q75%位置=
3(n 1) 4
• 如果根据公式计算得到的位置是整数，四分位数就是该位置对应的数值，否则就要对该位置左右两个数值进行相应的线性插值。
12
依据直方图的含义，图4-1中横坐标是“网约车”司机日营业额，每一个矩形的宽度对应的是数据分组后每一组的取值区间，纵坐标是频数。
因此，从图形中可以非常快捷地发现，矩形“最高峰”所在的位置就是众数所在的组别，即350元至400元，取该组上下限的中点375元作为这150名“网约车”司机日营业额的众数。
统计学
Statistics
1
第 4 章数据的描述统计量
4.1 4.2 4.3 4.4 4.5
“位置”的度量离散程度的度量分布形状的度量标准得分小结
2
数据的描述统计量
• 不包含总体的任何未知参数的样本的函数，称为统计量（statistic）。 • 不同的统计量可以从不同的角度描述数据的分布特征，主要包括三个
性别年龄性别年龄
男 19岁
男 18岁
男 19岁
女 19岁
女 18岁
男 19岁
男 19岁
女 19岁
男 18岁
男 16岁
男 19岁
男 18岁
女 17岁
男 19岁
女 19岁
男 19岁
男 19岁
女 18岁
男 19岁
男 19岁
17
“位置”的度量——众数

e商务文档

统计学-数据的描述统计量

相关文档推荐：