2.1 定量资料的统计描述
定义:将一组观察值从小到大排序后居 于中间位置的那个数值 计算:
离散型变量
1 当n为偶数时: M ( X ( n ) X ( n 1) ) 2 2 2
当n为奇数时: M X
(
n 1 ) 2
中位数的计算
连续型变量:
i50 n M L50 ( fL ) f 50 2
对称分布 偏态分布: 对数正态分布 偏态分布
集中趋势
均数
离散趋势
方差、标准差 变异系数 对数值的方差 或标准差 极差、四分位 数间距
几何均数 中位数ຫໍສະໝຸດ 本章重点
频数表的意义和应用。 集中趋势的各个描述指标及其应 用条件。 离散趋势的各个指标及其应用条 件。 正态分布和偏态分布资料的描述 指标选择。
iX 公式:PX LX (n X % f L ) fX
式中符号的意义同中位数所用公式,只是把 中位数改为第X百分位数。
小结
频数表和频数图的制作以及频数分布类 型和频数表的用途。 算术均数的定义、特性、适用条件和两 种计算方法。 几何均数的定义、适用条件和两种计算 方法。 中位数的应用及计算
1.该生为优等生,总评成绩为92; 2.该生为良等生,总评成绩为80; 3.该生为中等生,总评成绩为74.55; 4.该生为差等生,总评成绩为17.
几个实例
甲、乙两实验员在实验技术考核中,分 别对同一标准样品进行5次平行样测定, 结果如下,问哪一个的实验技术好(标样 的真值为100)?
甲 乙 80 90 90 96 100 100 110 104 120 110
求极差 R=Xmax-Xmin
划分组段 统计各组段内的数据频数
频率与累计频率
表1. 100名HIV阳性男子年龄的频数分布表
年龄 (岁) 25~
30~ 35~ 40~ 45~
频数 18
38 24 13 4
频率(%) 18.0
38.0 24.0 13.0 4.0
50~ 合计
3 100
3.0 100.0
各种平均数的意义、计算及其应用场合 平均数 均数 意义 平均数量水平 计算 应用场合 适用于对称分布,特别是正态分布的 资料。 (1)等比级数资料 几何均数 平均增(减)倍数 (2)对数正态分布 (3)观察值不能有 0 (4)观察值不能同时有正值和负值 n 为奇数时: M M
( n1 ) 2
四分位数间距(Q)=QU(P75)-QL(P25)
优缺点:
包括了全部变量值中居于中间水平的一半, 比极差稳定。
仍未考虑到每个观察值的变异度。
3、方差和标准差 variance and standard deviation
方差是每个观察值与总体均数离差的 平方的平均值,可以较全面的反映该 组资料的变异情况,方差的单位是原 始数据单位的平方。 将方差开方即得标准差。标准差与原 始数据的单位相同,描述了个体值间 的变异。 样本方差与总体方差分别用S2和σ2表示。
内
容
频数分布表与频数分布图
集中趋势的描述
离散趋势的描述
定量资料的统计分析
集中趋势 统计描述 离散趋势 统计分析 参数估计 假设检验
统计推断
例:100名HIV阳性男子的年龄(岁)
49 35 28 30 32 33 36 42 42 30 36 36 30 32 28 34 34 34 30 35 33 40 38 37 29 33 28 34 42 52 30 27 34 46 36 34 44 49 25 48 30 31 37 29 30 30 30 25 26 32 27 33 29 36 33 35 40 40 28 27 30 39 32 30 36 27 39 42 41 33 41 40 38 51 29 31 40 30 35 31 34 29 37 34 38 51 33 39 27 37 32 31 37 33 38 38 40 32 26 36
x
x
n
G Lg
1
Lgx) (
n
将一组观察值从小到大 中位数 排序后,位次居中的观 察值水平
n 为偶数时:
M [ x n x n
2
(1)偏态分布
( 1) 2
]/ 2
(2)分布不明 (3)分布末端无确定值
若为频数表资料:
M L i n ( fL ) * fX 2
4、变异系数 (Coefficient of variation CV)
公式:
S CV 100% X
应用:
a: 比较度量衡单位不同的多组资料 的变异度。 b: 比较均数相差悬殊的多组资料的 变异度。
小结
极差、四分位数间距、方差、标准差的 定义、适用条件和计算方法。
指标
极差 R
四分位 数间距 Q
众数
频数最多的取值或组段 (组中值为代表) 观察值 x 倒数之均数的 倒数
M0 L
H
fU (i ) * f L fU
1
定量资料的集中趋势描述
调和均数
1 1 n x
求平均速度、平均样本含量
* 式中 L 为 M0 所在组段(即频数最多的组段)的下限,U 为上限,i 为组距;fL 为小于 L 的相邻组段的频数,fU 为大于 U 的相 邻组段的频数。
平均差 M.D. 方差 σ2 或 s2
标准差 s
描述离散趋势统计指标的意义及其应用场合 指标含义 计算公式 应用场合及特点 用于小样本或分布不清时。 简单明了,但缺点是: 亦称全距。即一组观察值 1. 除最大值和最小值外,不能反映 中, 最大值与最小值之差。 R=最大值-最小值 组内其他数据的变异度; 单位与原观察值相同。 2. 样本例数悬殊时不宜比较其极 差; 3. 极差的抽样误差较大, 不够稳定。 四分位数间距 Q 即上四分 适用于描述偏态分布资料的离散趋 位数 QU(即第 75 百分位 数)与下四分位数 QL(即 势。 Q=QU-QL 第 25 百分位数)之差,包 四分位数间距比极差稳定,但仍未考 括了全部变量值中居于中 虑到每个观察值的变异度。 间水平的一半。 指数列中各项数值对其平 | xx | 用来测定数列中各项数值对其平均 均数离差绝对值之和的算 M .D. 数离散趋势的一种尺度。 N 术平均数。 方差是每个观察值与总体 正态分布资料。 (x x)2 2 均数离差的平方的平均 可以较全面地反映该组资料的变异 s n 1 值。 情况。单位是原始数据单位的平方。 标准差的计算有直接法和加 权法两种。 直接法: 将方差开方即得标准差。 正态分布资料。主要用于: (x x)2 同质两组资料,在两组均 s 1. 表示观察值的变异程度; 数相近的条件下,S 大, n 1 2. 结合均数描述正态分布特征; 说明该组的资料分散,均 x 2 ( x ) 2 / n 3. 结合均数计算变异系数; 数的代表性差;S 小,说 4. 结合样本含量计算标准误等。 n 1 明该组的资料集中,均数 加权法: 的代表性好。
定量资料的统计描述
Descriptive of quantitative data
几个实例
记者的贫困山村调查 某记者到某山村进行了两次调查,基本 数据为:
改革前: 100人,总年纯收入3万元 改革三年后: 100人,总年纯收入100万元
美国房地产开发
几个实例
某学生在某年的几门功课考试中,成绩分别为 98、92、92、92、83、80、78、75、65、48、 17。在对该生进行评价时,四位教师有四种意 见:
标准差:Standard Deviation
标准差的计算:
( X X )2 直接法:S n 1
2 2 fX ( fX ) / f f 1
频数表法:S
其中,X是各组段的组中值,f是相应的频数。
标准差的应用
a:表示观察值的变异程度
b: 结合均数描述正态分布特征 c: 结合均数计算变异系数 d: 结合样本含量计算标准误等
几何均数(Geometric mean)
中位数(Median)
算术均数(均数)Mean
计算:
直接法(小样本): x
x1 x2 xn n
加权法(大样本,频数表资料):
x
fx f
应用:用于对称分布,特别是正态 分布资料的集中趋势描述。
几何均数:Geometric mean
一、频数分布表与频数分布图
频数表的概念
频数表的编制 频数表的用途
常用频数分布图
1. 频数表(frequency table)的概念
频
数:将资料的观察值按组段分组,
各组段所包括的变量值个数。
频数表:描述各组段及相应频数分布的 统计表称为频数分布表,简 称频数表。
2. 频数表的编制
计算
直接法:
G n x1 x2 xn
f lg x G lg f
1
加权法:
几何均数的应用
等比资料的统计 对数正态分布资料 注意:
观察值不能为0 观察值不能同时包含正、负值
例:某村某年的家庭总收入分布图
?
均数
中位数 Median
3.频数表的用途
揭示频数分布特征
集中趋势 离散趋势
对称分布 正偏态分布 偏态分布 负偏态分布
揭示资料的分布类型
便于发现过大或过小可疑值 便于进一步的统计工作 资料的陈述形式