当前位置:
文档之家› 第三讲平均数、标准差和变异系数
第三讲平均数、标准差和变异系数
0 1 2 3 4 5 6 7 8 9 10
中位数= 5
0 1 2 3 4 5 6 7 8 9 10 12 14
中位数= 5
3、众数
众数: 资料中最常见的一数,或次数最多一组的中点值,称
为众数(mode),记为M0。如棉花纤维检验时所用的主体长度即 为众数。
众数可能不存在 可能有多个众数 多用于属性数据
我们还可以采用将离均差平方的办法来解决 离均差有正、有负,且离均差之和为零的问题。
先将各 个离 均差平方,即 ( xx )2 ,再求
离均差平方和 , 即 (xx)2 ,简称平方和,记
为SS; 由 于 离差平方和 常 随 样 本 大 小 而 改 变 ,为 了 消 除 样 本大小 的 影 响 , 用平来自一、平均数的意义和种类
平均数(average)是数据的代表值,表示资料中 观察值的中心位置,并且可作为资料的代表而与 另一组资料相比较,借以明确二者之间相差的情 况。
平均数是统计学中最常用的统计量,用来表明 资料中各观测值相对集中较多的中心位置。平均 数主要包括有: 1. 算术平均数(arithmetic mean) 2. 中位数(median) 3. 众数(mode) 4. 几何平均数(geometric mean) 5. 调和平均数(harmonic mean)
第三章 平均数、标准 差和变异系数
平均数(mean)用于反映资料的集中性,即观 测值以某一数值为中心而分布的性质。 标准差(standard deviation)与变异系数
(variation coefficient)反映资料的离散性,即 观测值分散变异的性质。
第一节 平均数
一、平均数的意义和种类 二、算术平均数的计算方法 三、算术平均数的重要特性 四、算术平均数的作用 五、总体平均数
1、算术平均数
算术平均数: 一个数量资料中各个观察值的总和 除以观察值个数所得的商数,称为算术平均数
(arithmetic mean),记作 x 。因其应用广泛,常简称
平均数或均数(mean)。均数的大小决定于样本的各观 察值。
0 1 2 3 4 5 6 7 8 9 10
平均数 = 5
1234567
一、极差
极差(range),又称全距,记作R,是资料中 最大观察值与最小观察值的差数。
极差虽可以对资料的变异有所说明,但它 只是两个极端数据决定的,没有充分利用 资料的全部信息,而且易于受到资料中不 正常的极端值的影响。所以用它来代表整 个样本的变异度是有缺陷的。
二、方差
为了正确反映资料的变异度,较合理的方 法是根据样本全部观察值来度量资料的变 异度。这时要选定一个数值作为共同比较 的标准。平均数既作为样本的代表值,则 以平均数作为比较的标准较为合理,但同 时应该考虑各样本观察值偏离平均数的情 况,为此这里给出一个各观察值偏离平均 数的度量方法。
Σ
组 中 值 (x )
次 数 (f )
75
2
90
7
105
7
120
14
135
17
150
20
165
24
180
21
195
13
210
9
225
3
240
2
255
1
140
2 2 0 6 5 / 1 4 0 = 1 5 7 .6 1
fx 150 630 735 1680 2295 3000 3960 3780 2535 1890 675 480 255 22065
试验资料
上章内容回顾
计数资料(非连续)
数量性状资料
计量资料(连续变量)
质量性状资料(数量化处理)
试验资料搜集常用的方法:调查和试验
试验资料的整理:检查和核对;制作次数分布表 和分布图(柱形图、折线图、条形图,饼图)
试验资料均具有集中性和离散性两种基本特征,平均数 是反映集中性的特征数,变异数是反映离散型的特征数
G lg 1[1 n(lx1 g lg x2lg xn)]
5、调和平均数
调和平均数:(harmonic mean)各观测 值倒数的 算术平均数 的倒数,称为调和平均 数,记为H。即
H
1
1
( 1 1
n x1
x12
x1n)
1 n
1 x
(4.6)
对于同一资料: 算术平均数>几何平均数>调和平均数
上述五种平均数,最常用的是算术平均数。
由于 Σx = 500 + 520 + 535 + 560 + 585 + 600 + 480 + 510 + 505 + 490 = 5285,
n =10
得: x∑ x528552.85(mg)
n 10
即 10只害虫的平均体重为528.5 mg。
(二)加权法
对于样本含量 n≥30 以上且已分组的资料,可以
在次数分布表的基础上采用加权法计算平均数,计算
公式为:
k
x
f1x1f2x2fkxk f1f2fk
i1 k
fixi fi
fx f
(4.2)
i1
式中: xi -第i 组的组中值; fi -第i组的次数;k -分组数
第i组的次数 fi 是权衡第i组组中值 xi 在资料中所占 比重大小的数量,因此将 fi 称为是 xi 的“权”,加权 法也由此而得名。
为 了 准 确 地 表示样本内各个观测值的变异程度 , 人们 首 先会考虑到以平均数为标准,求出各个观测 值与平均数的离差,( x),x称为离均差。
虽然离均差能表示一个观测值偏离平均数的性质 和程度,但因为离均差有正、有负 ,离均差之和 为 零,即Σ( xx) = 0 ,因 而 不 能 用离均差之和Σ ( xx)来 表 示 资料中所有观测值的总偏离程度。
i1
或简写成
(x x)0
4、样本各观测值与平均数之差的平方和为最小, 即离均差平方和为最小。
x n
n
(xi x)2 (xi )2 (常数
)
i1
i1
或简写为:
(x x )2 (x )2
5、若A为任意常数,
当 x x A,则 x x A ,
(x x)2 (x x)2
当 x x • A,则 x x / A,
(1)直接法:
x ∑x 177 215 ... 159
n
140
22047 140
157.48(g )
(2)加权法:
分组数列 6 7 .5 ~ 8 2 .5 8 2 .5 ~ 9 7 .5 9 7 .5 ~ 1 1 2 .5 1 1 2 .5 ~ 1 2 7 .5 1 2 7 .5 ~ 1 4 2 .5 1 4 2 .5 ~ 1 5 7 .5 1 5 7 .5 ~ 1 7 2 .5 1 7 2 .5 ~ 1 8 7 .5 1 8 7 .5 ~ 2 0 2 .5 2 0 2 .5 ~ 2 1 7 .5 2 1 7 .5 ~ 2 3 2 .5 2 3 2 .5 ~ 2 4 7 .5 2 4 7 .5 ~ 2 6 2 .5
方和 除 以 样 本 大 小, 即 (xx)2/n,求出离
均差平方和的平均数 ;
为了使所得的统计量是相应总体参数的无 偏 估计量,统计学证明,在求离均差平方和的平均 数时,分母不用样本含量n,而用自由度 n-1,
于是,我们 采 用统计 量(xx)2/n (1) 表示资料的
变异程度。
统计量 (xx)2/n (1)称为均方(mean square,
【例2】 从A、B两小区分别抽取4个和5个小麦麦穗, 测得其样本如下,用两种方法计算其平均值,并比较计 算结果。
小区
每穗小穗数
平均数(x )f •x
A 13 14 15 17
B 16 16 17 18 18
Σ
144
144/ 9=16
14.75
59
17.00
85
144
144/ 9=16
【例3】 140行水稻产量(P38),用两种方法求其 平均数,并比较计算结果。
(x x)2 (x x)2 / A2
当 x x / A ,则 x x • A,
(x x)2 A2 • (x x)2
6、平均数是有单位的数值,与原资料单位相同。
x 注意:必须性状同质时, 才有代表性。
山地 丘陵 平地
甲村 面积 单产
100 100 500 400 400 500
14
平均数 = 6
2、中位数
中位数: 将资料内所有观察值从大到小排序,居中间位置的观察 值称为中数(median),计作Md。当观测值的个数是偶数时,则以中间 两个观测值的平均数作为中位数。当所获得的数据资料呈偏态分布时, 中位数的代表性优于算术平均数。
中位数的计算方法因资料是否分组而有所不同。对于未分组资料, 先将各观测值由小到大依次排列,找到中间的1个数(n为奇数)或2个 数( n为偶数),之后求平均即可。
为了解决离均差有正 、有负,离均差之和为零的 问 题,可先求 离 均 差的绝 对 值 并 将 各 离 均 差 绝 对 值 之 和 除以 观 测 值 个 数n 求 得 平 均 绝 对 离差, 即Σ|x – x |/n。虽然平均绝对离差可以表示资料中各观 测值的变异程度 ,但由于平均绝对离差包含绝对值符 号 ,使用很不方便,在统计学中未被采用。
乙村 面积 单产
900 160 600 500 500 600
山地 丘陵 平地
Σ
x
S AY S·AY
100 100 10000
500 400 200000
400 500 200000
1000
410000
410000/1000=410
S AY S·AY