统计数据的概括性描述
特点
位置代表值 既可以是原始数据中的某个具体值,也可以不是具体值 一半的数据比M大,一半的数据比M小 不受极端值的影响
代表性不好(未考虑样本中的所有数据)
10
中位数
计算方法
直接法(适用于样本例数较小的资料)
将数据按从小到大的顺序排列 当n为奇数时,中位数就是位置居中的那个数值,即 M=X(n+1)/2 当n为偶数时,M=(Xn/2+X(n+2)/2)/2 举例:例4.4
2 2
软件法(最常用)
28
第二节 离散程度
应用
描述符合正态分布类型数据离散程度的最佳 指标
结合均数计算变异系数
结合样本含量计算标准误
结合均数描述正态分布特征
不适用于均数相差悬殊或度量衡单位不同的 不同数据间离散程度的比较
29
第二节 离散程度
离散系数
S CV 100% X
33
箱式图
34
本章小结
主要内容
集中趋势、离散程度、偏度和峰度的主要指标 集中趋势的常用指标
众数、中位数、四分位数、算术均数、几何均数、调 和均数
离散程度的常用指标
极差、四分位数间距、方差、标准差、变异系数
偏度和峰度的常用指标
偏度系数、峰度系数
35
本章小结
偏度系数主要反映分布的类型
8
众数
计算方法
品质型数据
对数据分组整理、频数最大的组即为众数组,该组对 应的变量值(类型)即为众数。 如商场中某一时期销售量最大的商品
数值型数据
列出频数表 频数最大的组即为众数组,该组对应的值即为众数
9
中位数
定义
将一组变量值从小到大按顺序排序,位次居中的那个变 量值就是中位数(median,M)
6
第一节 集中趋势
常用指标
众数 中位数 算术平均数
调和平均数
几何均数
7
众数
定义
一组数据中频数最大的变量值, 即最普遍、最常出现的数值,记 作 M0
特点
位置代表值 能够直观的反映数据的集中趋势 不受数据中极端值的影响 代表性不好(未考虑其它数据的 影响)
计算方法
间接法(频数表法)
软件法(最常用)
13
算术均数
定义
一组数据全部变量值的平均值,简称均数 (Mean)
特点
考虑了一组数据中所有变量值的影响 描述符合正态分布的数据集中趋势的最佳 指标
样本均数用X表示,总体均数用表示
14
算术均数的两个重要特征
各离均差的总和等于0。
24
第二节 离散程度
极差
R=max-min 容易计算
易受极端值的影响,适用性不强
除了最大、最小值外,不能反映组内其他数据 的变异度。 样本例数越多,抽到较大或较小变量值的可能 性越大,因而极差可能越大。
即使样本含量相同,极差也不够稳定。
25
第二节 离散程度
四分位数差
间接法(频数表数,适用于例数较多的数据
软件法(最常用)
17
几何平均数
定义
一组数据中N个变量值乘积的N次方根称 之为几何平均数(Gemetric mean, G)
特点
适用于符合对数正态分布
数据不能为0或负数
18
几何平均数
计算方法
直接法
G=lg-1{(lgX1+lgX2+lgX3+…lgXn)/n}
不足之处在于度量衡单位与原单位不同
27
第二节 离散程度
标准差
总体标准差
X 2 / N
样本标准差 S X X
2
/ n 1
计算方法
直接法(适用于例数较少的数据)
间接法(频数表法,适用于例数较多的数据)
fX 0 fX 0 / f S f 1
应用
度量衡单位不同的多组资料离散程度的比较 均数相差悬殊的几组资料离散程度的比较
注意事项
有关的事物才能比较
均数小于标准差时要考虑其实际运用价值
30
第三节 偏度与峰度
偏度
一组数据分布的偏斜方向与程度,常用偏度系数表示()
理论上,总体偏度系数为0时,分布是对称分布;取正 值时,分布为正偏峰;取负值时,分布为负偏峰。
间接法
软件法(需要编程)
19
众数、中位数与均数的比较
20
众数、中位数与均数的比较
共同点
三者均是描述数据集中趋势的常用指标
不同点
众数常用于品质型数据,一组数据中可有多个 众数,不受异常值影响,
中位数适用于各种分布类型的数据,一组数据 中只有一个中位数,亦不受异常值的影响 均数常用于对称分布类型的数据,一组数据中 亦只有一个均数,代表性最佳,受异常值影响
21
第二节 离散程度
定义
一组数据远离其中心的现象,称之为离散程度 或离散趋势(与均数的代表性呈反比)
原因
由于遗传、营养、行为、发育、心理的各种因 素的影响,同一总体中的个体之间又普遍存在着 各种差别,即不同个体之间的变量值都不会完 全相同(个体间存在差异),从而呈现出不同程度 的离散趋势。
本法中均数的大小受各组的组中值和频数的影 响,其中各组的频数称之权数,对应的频率称 之为权重。 软件法(最常用)
16
调和平均数
定义
先求出各变量值倒数的平均值,然后再求出该 平均值的倒数,所得到的最终结果即为调和平 均数(Harmonic Mean, H),即例数平均数
计算方法
直接法(适用于例数较少的数据)
间接法
频数表法
软件法(最常用)
11
百分位数
把数据从小到大排列后位于第X%位置的数值。 有n个观察值X1,X2…Xn,把他们由小到大按 顺序排列成X1≤X2≤X3…≤Xn,将这n个观察值平 均分为100等份,对应于每一等份的数值就是一 个百分位数,对应于前面X%个位置的数值称为 第X百分位数,用Px表示。
第四章 统计数据的概括性描述
毛广运 MD &PhD
环境与公共卫生学院
1
教学目的要求
掌握
数值平均数和标准差的特点及其计算方法;
理解
集中趋势和离散趋势的概念
了解
众数、中位数的概念、特点及其计算方法;
几种平均数指标之间的关系;
计算平均数和离中趋势指标应注意的问题。
2
本章重点
正态分布(统计学的理论基础) 正偏态分布 负偏态分布
峰度系数主要反映分布的尖峭程度
正态峰 尖峭峰
平阔峰
36
31
第三节 偏度与峰度
峰度
一组数据的尖峭程度,常用峰度系数表示()
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
σ =0.5 >3
=3 σ =2 <3
σ =1
32
第三节 偏度与峰度
峰度常常是与正态分布进行比较的 正态分布的峰度系数为3(=3), >3 时数据呈尖峭分布, <时数据呈平阔 分布 偏度系数和峰度系数因手工计算较为复 杂,目前多使用软件法进行计算
Q=Q3-Q1=QU-QL 反映了50%数据的离散程度 不受极端值的影响 适用于各种类型的连续型变量,特别是偏 态分布的资料 不足之处在于未考虑另外50%数据对离 散程度的影响
26
第二节 离散程度
方差
=(X-)2/N或S=(X-X)2/(n-1) 考虑了每一个变量值的影响 适用于描述对称分布资料的离散程度
一个百分位数Px将总体或样本的全部观察值分为 两部分,理论上,在不包括Px的全部数据中有 X%的观察值比它小,有(100-X)%的观察值比 它大。
12
四分位数
定义
将全部数据等分成四个部分,每一部分均包含 了25%的数据,25%、50%和75%分位点上 的数值就是四分位数(Quartile, Q) 25%位点上的数值称之为下四分位数,记作Q1 75%位点上的数值称之为上四分位数,记作Q3
22
第二节 离散程度
0.4
0.3
离散趋势
0.2
0.1
0.0 -3.6 -2.9 -2.2 -1.4 -.7 .0 .7 Random Numbers 1.4 2.2 2.9 3.6
Fig. 1
Histogram of 100000 random numbers (S-Plus 8.04)
23
第二节 离散程度
集中趋势和离散趋势常用指标的概念 数值平均数、中位数、众数和标准差的计算方 法
本章难点
众数、中位数、数值平均数(算术平均数、调 和平均数、几何平均数)等度量方法的选择问 题
偏度、峰度的度量问题。
3
第一节 集中趋势
定义
总体中的某些个体总是具有某些同质性, 同一地区、同一年度、同一民族、同一年 龄段、相同的性别与类似的健康状况,这 些共同点使得该总体中的某一变量值趋向 同一数值,即集中趋势。
总体中各变量值X与均数之差称为离均差 (X-)=0
离均差的平方和小于各观察值X与任何数a 之差的平方和。
15
算术均数
计算方法
直接法(适用于例数较少的数据)
X X1 X 2 ... Xn X n n
ห้องสมุดไป่ตู้
间接法(频数表法)