当前位置:
文档之家› 应用统计学(第三章 数据的描述性分析)
应用统计学(第三章 数据的描述性分析)
累积频率 Cumulative P
0.02 0.09 0.28 0.63
0.84 0.95 1.00
a.自然值进行分组,最大值17,最小值11 b.数据主要集中在14,向两侧分布逐渐减少
(3)计量数据
100例健康男子血清总胆固醇(mol/L)测定结果
4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 5.69 4.12 4.56 4.37 5.39 6.30 5.21 7.22 5.54 3.93 5.21 6.51 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.49 5.30 4.97 3.18 3.97 5.16 5.10 5.85 4.79 5.34 4.24 4.32 4.77 6.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.60 4.09 5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.18 6.14 3.24 4.90
15
21
0.21
0.84
16
11
0.11
0.95
17
5
0.05
1.00
表 2-2 100只梅花鸡每月产蛋数次数分布表
每月产蛋数
11 12 13 14 15 16 17
次数 Frequency
2 7 19 35
21 11 5
频率 Percent
0.02 0.07 0.19 0.35
0.21 0.11 0.05
的代表值,表示数据中观测数的中心位置,作为数据的代表 与另一组相比较,以确定二者的差异情况.
2)种类 算术平均数,中位数,众数,几何平均数,调和平均数
3)算术平均数
总体或样本数据中所有观测数的总和与观测次
数的商,简称平均数、均数或均值
➢ 总体平均数:
μ x1 x2 ... xN x
N
N
➢ 确定组数 ➢ 确定组限和组中值
组限 是指每个组变量值的起止界限(上限和下限) 组中值 是两个组限的中间值=(上限+下限)/2
注意:1)最小一组的下限必须小于数据中的最小值,最大一组的上 限必须大于数据中的最大值
2)组限常取1、2、2.5、5、7.5及其倍数,临界值就高不就低
组号
1
2
……
10
下限
➢ 求全距(极差,range): R = xmax-xmin= 7.22-2.70= 4.52 (mol/L)
➢ 确定组数: 原则使用2.5及其整倍数作为组距
样本容量 30~60 60 ~ 100 100 ~ 200 200 ~ 500
>500
分组数 5~ 8 7 ~ 10 9 ~ 12 10 ~ 18 15 ~ 30
确。
总横标目(或空白) 横标目1
横标目2 ……
表号 标题
纵标目1 1.23
12.34 123.45
纵标目2 2.358
0.000 —
…… ……
……
6.次数分布表 (1)要求:
1)标题 简要、准确地说明表的内容,有时须注明时间 地点
2)标目 标目分横标目和纵标目两项。横标目列在表的 左侧 ,纵标目列在表的上端,标目需注明单位,如% 、kg、cm等
对数转换后呈正态分布的数据
7)调和平均数(H) 数据中各观测值倒数的算术平均数的倒数
H
1
1
1
n
(1 x1
1 x2
...
)1
xn
1 n
1 x
适用范围:主要用于反映生物不同阶段的平均增 长率或不同规模的平均规模
3.变异数
常用的变异数:极差、方差、标准差、变异系数
1)极差(全距R)
数据分布的两端变异的最大范围,即样本变量最大值和最小 值之差,用R表示:
4)变异系数(Cv)
样本的标准差除以样本平均数,得到的比值
Cv
s x
样本变量的相对变异量,不带单位
可以比较不同样本相对变异程度的大小:
比较度量衡单位不同的多组数据的变异度
比较均数相差悬殊的多组数据的变异度
变异系数应用实例
【例】 测定华山松和马尾松的种子各10粒,种子长 度(mm)分别为:华山松11.2、12.8、13.5、12.3、11.6 、14.3、10.9、15.2、12.6、13.1;马尾松4.6、5.3、 4.9、5.3、5.7、4.1、5.8、3.9、4.6、5.4。试比较两 种松树种子长度的变异程度。
R = max{x1,x2,……, xn} - min{x1,x2,……, xn} 是数据中各观测值变异程度大小的最简便的统计量 除了最大、最小值,不能反映组内其他数据的变异 样本容量较大时抽到较大值与较小值的可能性较大,样本极 差也较大,故样本容量相差较大时,不宜用极差来比较分布的离 散度 当数据很多而又要迅速对数据的变异程度作出判断时,可以 利用极差
4)中位数(MD)、四分位数
数据中所有观测数依大小顺序排列,居于中间位 置的观测数称为中位数或中数
50%
50%
Md
➢ 当观测值个数n为奇数时,排序后(n+1)/2位置的观测
值为中位数:Md= x(n+1)/2 ➢ 当观测值个数为偶 数 时,排序后n/2和(n/2+1)位置
的两个观测值的平均值为中位数: Md =xn/2 + xn/2+1
图2.2 月产蛋数频率分布柱形图
3)饼图
用于:a.计数数据
b.质量性状数据
40 35 30 25 20 15 10
5 0
11 12 13 14 15 16 17
梅花鸡月产蛋次数分布图
4)直方图 (矩形图) 用于计量数据,各组之间没有距离
100例男子血清总胆固醇含量次数分布图
5)多边形图(折线图) 用于计量数据
7.次数(频数)分布图
1)把次数(频率)分布表画成统计图形
特点:直观、形象
类型:条形图、直方图、多边形图、饼图和散点图
基本要求: a. 标题简明扼要,列于图的下方 b. 纵、横两轴应有刻度,注明单位 c. 横轴由左至右,纵轴由下而上,数值由小到大;图形宽 高比例一般为4:3至6:5 d. 图中需用不同颜色或线条代表不同事物时,应有图例说 明
➢ 样本平均数:
x x1 x2 ... xn x
n
n
➢ 算术平均数的重要性质 离均差之和等于零
(xi x) 0
离均差平方和最小
(xi x)2 (xi a)2
➢ 算术平均数的作用 a.指出一组数据内变量的中心位置,标志着数据所代表性 状的数量水平和质量水平 b.作为样本或数据的代表数与其他数据进行比较 c.通过平均数提供计算样本变异数的基本数据 d.用样本的平均数估计总体平均数
梅花鸡每月产 蛋数变动范围:
11~17
分为7组 统计各组次数 计算频率和累积频率
制表
100只梅花鸡每月产蛋数次数分布表
每月产educt
Frequency
Percent
Cumulative
11
2
0.02
0.02
12
7
0.07
0.09
13
19
0.19
0.28
14
35
0.35
0.63
分组数 5~8 7 ~ 10 9 ~ 12
10 ~ 18 15 ~ 30
3.计数数据(离散型数据)的整理
采用单项式分组法进行整理 用样本变量自然值进行分组,每组用一个或几个变量值来表示
4.计量数据(连续型数据)的整理
计量数据一般采用组距式分组法
全距
组数
组距
制表
归组
组限
5.次数分布表 要求:结构简单,层次分明,安排合理,重点突出,数据准
5) 众数(M0)
数据中出现次数最多的那个观测值或次数最多一组观测 值的组中值。 ➢ 某些数据不存在众数 ➢ 某些数据存在两个或两个以上的众数 ➢ 主要用来描述频率分布
6)几何平均数(G)
数据中有n个观测数,其乘积开n次方所得数值
G n x1 x2 x3 ... xn
适用范围:几何均数适用于变量x为对数正态分布, 经
100例男子血清总胆固醇含量次数分布图
6)散点图 表示变量间的关系:正向直线/负向直线/曲线
三、特征数的计算
1.变量的分布特征 1)集中性 a.变量有向某一中心聚集,或者说以某一数值为中心而 分布的性质 b. 用平均数来表示 2)离散性 a.变量有着离中心分散分布的性质 b.用变异数来表示
2.平均数 1)概念:平均数是统计学中最常用的统计量,计量数据
3)数字 一律用阿拉伯数字,小数位数一致,右对齐; 无数字的用“─”表示,数字是“0”的,则填写
“0” 4)线条 多用三线表,上下两条边线粗一号 5)字体、字号 宋体、新罗马,标目加粗,比正文小半
或一号
(2)计数数据
100只梅花鸡每月的产蛋数
15 17 12 14 13 14 12 11 14 13 16 14 14 13 17 15 14 14 16 14 14 15 15 14 14 14 11 13 12 14 13 14 13 15 14 13 15 14 13 14 15 16 16 14 13 14 15 13 15 13 15 15 15 14 14 16 14 15 17 13 16 14 16 15 13 14 14 14 14 16 12 13 12 14 12 15 16 15 16 14 13 15 17 14 13 14 12 17 14 15