四、统计
数据的集中趋势是指数据分布中大量数据向某方向集中的程度。
而用于描述数据这种集中趋势程度的统计量称为集中量数。
包括算术平均数、中数、众数、加权平均数、几何平均数、调和平均数等。
在这里重点介绍其中三种常用的集中量数:算术平均数、中数和众数。
虽然三种集中量数都用于表示数据的集中程度,但由于计算方法的不同,每种方法都有它的优点、缺点及适用范围。
因此有时它们会表现出较大的差异。
众数
1、计算方法:
众数(mode),通常用符号M0表示,是指在频数分布中出现次数最多的那个数值。
在所有的集中量数中,众数是最容易计算的,因为它通过直接观察就可以得到。
对所有类别的测量数据都可以计算,不过通常对称名变量和顺序变量计算众数比较有意义,特别是称名变量。
如要求回答你所处班级性别的集中程度。
而男生较多,你的回答是“男生”。
如果用数值1代表男生,2代表女生,那么众数就是1。
如果问你在学校里哪个科目最受欢迎,还是用众数。
有时候众数可能不是唯一的,在多众数分布中不一定都需要完全一样的次数,只要它们跟其余数据相比足够突出。
1、众数的优缺点与应用
众数的概念简单,容易理解,但它容易受样本变动的影响,因而
不够稳定;计算时不需要每一个数据都加入,较少受极端数据的影响,因而不够灵敏;用观察法得到的众数,不是经过严格计算而来,因而不够严谨;众数不能作进一步代数运算。
由此可见,众数不是一个优良的集中量数,应用也不广泛。
但是在下述情况中,则会经常应用众数:
(1)当需要快速而粗略地求一组数据的代表数值时,众数是一个较好的选择;
(2)当一组数据出现不同质的情况时,可以用众数表示典型情况,如工资收入、学生成绩等常以频数最多者为代表值;
(3)当频数分布表两极端数据时,除了一般用中数外,有时也用众数。
中数:
1、计算方法:
中数(median),也称为中位数,通常用符号M d表示,是指在频数分布中位于中间位置的那个数值,它把数据划分成两半,一半的数据比它大,一半的数据比它小。
中位数可能是数据中的某一个,也可能根本不是原有的数,根据数据的不同情况,有不同的计算方法。
(1)一组数据中无重复数值的情况:
先排序。
若数据有奇数个,就是中间的那个数;若数据的个数为偶数,则中位数是居于中间位置两个数的平均数。
(2)一组数据中有重复数值的情况:
先计算中位数的位置,再找出中位数。
2、中位数的优缺点与应用:
中位数直观地反映了样本数据分布的中心位置,其计算简单,容易理解,且不易受极端数据的影响,这是它的优点。
不足之处是中位数是根据数据的相对位置来确定的,在计算时不是每个数据都加入计算,从而有较大的误差,不如平均数稳定;极端数据的变化不对其产生影响,反应不够灵敏;中位数不能做进一步代数运算。
但是在下述情况中,则会经常应用中位数:
(1)当一组数据中出现极端数据时,常用到中位数;
(2)当频数分布的两端数据或个别数据不清楚时,只能用中位数作为集中趋势的代表值;
(3)当需要快速估计一组数据的代表值时,也常用中位数。
算术平均数
也称为平均数,是某变量所有数值的总和除以总次数所得的商,通常用M表示。
1、计算方法:
就是把所有的数据相加,再用数据的个数去除数据总和。
如期末考试后,随机抽取了10名学生,成绩如下,求其平均成绩:89 , 76, 87, 78, 79, 89, 90, 83, 91, 88
(89+76+87+78+79+89+90+83+91+88)÷10=850÷10=85 当数据的值都很大时,可以利用估计平均数来简化计算,具体方法是:先设定一个估计平均数,用符号AM表示,从每一个数据中减去AM,是数值变小;然后计算变小后数据的平均数;最后在计算结
果中加上这个估计平均数即可。
如上述问题计算如下:
①设定估计平均数:AM=84
②从每一个数据中都减去84,
89 , 76, 87, 78, 79, 89, 90, 83, 91, 88
5 -8 3 -
6 -5 5 6 -1
7 4 它们的平均数是1
③求出平均数: 84+1=85
2、平均数的性质及意义:
平均数在科学中是使用最多的统计量之一,算术平均数是最灵敏、最严密、最可靠,也是最简明易懂的一种集中量数,它与其他集中量数相比,抽样误差最小,因此在计算方差、标准差、相关系数及进行统计推断时,都要用到它。
(下面我没有想好还要不要介绍,而且怎么应用我也没有完全清楚。
问了一位大学教师,他是这样解释正态分布和偏态分布的:某试卷,通过看学生成绩,可以知道这次的考题是偏难、偏易。
合适的难度,基本是正态分布,太难——负偏态,太容易——正偏态。
主要看考卷想达到的目的:摸底测试,希望大多数学生掌握,正偏态;淘汰考试,大多数不要过,负偏态。
)
平均数的性质:在一组数据中,每个数值与平均数之差(称为离均差)的总和等于0.这是平均数最重要的一个特性。
平均数就好像
频数分布中的一个平衡点,在它两边的数据与它的距离之和是相等的。
3、平均数与中位数、众数的关系
(1)在一个正态分布中,平均数、中位数和众数三者相等,因此在数轴上三个集中量数完全重合。
(2)在偏态分布中,三者不重合,一般会有:正偏态分布和负偏态分布。