中数
一、中数的概念与求法
中数,又称中点数,中位数。
符号为Md或Mdn(英文为Median),中数是指位于一组数据中较大一半与较小一半中间位置的那个数。
这个数可能是数据中的某一个,也可能根本不是原有的数。
如果将数据依大小顺序排列,中数恰于中间,它将数据的数目分成较大的一半和较小的一半。
中数是集中量数的一种,它能描述一组数据的典型情况,在心理与教育研究工作中常有应用。
中数的求法根据数据是否分组,而有不同的方法。
(一)未分组数据求中数的方法
根据中数的概念,首先将数据依其取值大小排列成序,然后找出位于中间的那个数,就是中数。
这里又有两种不同的情况:
1.单列数目的情况。
所谓单列数目是指一组数据中没有相同的,这时取处于序列中间位置的那个数为中数:如果数据个数为奇数,则取序列为第(N+1)/2的那个数据为中数。
如果数据个数为偶数,则取序列为第N/2与第N/2+1个这两个数据的均数为中数。
例1有下列9个数,依大小排列为:
4、7、8、9、10、11、12、13、14 (N=9)
(N+1)/2=5,序列第五的数据是10,则该组数据的中数是10。
例2有下列8个数,依大小排列为:
2、3、5、7、8、10、15、19 (N=8) 序列为N/2 = 4者是7,序列为N/2+1=5者为8,则其中数为(7+8)/2=7.5。
从以上两例可以看出,求中数不受极大值与极小值的影响,而决定中数的关键是居中的那几个数据的数值大小。
2.有重复数目的情况。
所谓重复数目是指一组数据中有数值相同的数。
这时计算中数的方法基本同单列数目,但当位于中间的那几个数是重复数目时,求中数的方法就比较复杂了。
具体算法如下:
首先假设位于中间的几个重复数目为连续数目,取序列中上下各N/2那一点上的数值为中数。
例3有以下重复数列(N=9)依大小排序:
2、3、5、5、7、7、7、11、13,居中的数是7,但7是重复数,这时要将7视作连续数。
N/2是4.5,序列中上下各4.5的那一点恰是第一个7(即序列为5的那个7)的中点,而这个7的中点如何确定呢?我们知道将7视作连续数可以理解为:6.5—7.5之间有三个数据分布其中,而这三个7是均匀分布在这区间之内的,可用图示如下:
6.5~7.5之间均匀分布三个数据,每一个数据占1/3的距离,那么可理解为第一个7落在6.5—6.83这一区间内,第二个7落在 6.83—7.16区间内,第三个7落在7.16—7.5(实是7.499.....)区间内。
第一个7的中点是6.67,
这一点就是整个序列中位居最中间的那一点,因此,该组数据的中数是6.67。
这是重复数列为奇数的情形。
如果是偶数,作法也同奇数基本相同。
例如给上组数据再增加一个15,它就变为偶数的重复序列了:
2、3、5、5、7、7、7、11、13、15 (N=10)
N/2是5,那就是说,该组数据的中点应该是第五个数的上限,也是第六个数的下限,(前两个7的中点)图示如下:
图2—1 重复数目求中数示意图
根据前面的计算可知位于序列中最前面那个7的上限是6.83,即该组数据的中数是6.83。
从图(2—1),可以清楚地看到,中数是将整个数据的个数分作大的一半和小的一半,而不是将数据的值分作相等的两部分。
(二)次数分布表求中数的方法
一将原始数据整理成次数分布表后,求中数的原理同重复数目求中数是一样的,也是取序列中将N平分为两半的那一点的值作为中数。
其具体步骤如下,第一步求N/2,并找到N/2所在的分组区间;
第二步求含有中数那一区间以下各区间的次数和(即中数组区间下限以下的累加次数)记作F b;
第三步是求N/2与F b之差;
第四步求序列为第N/2那一点的值。
设中数所在那一分组区间的数据次数为f Md,L b为中数所在那一分组区间精确下限值。
根据重复数列求中数的原理,设有f Md个数据均匀地落在距离为i 的区间内,那么每个数据各占i / f Md,那么至N/2这一段距离为i / f Md * (N /2一F b),如果这一段距离求出后再加上该区间的精确下限值,那就是中数的值了。
求中数的公式整理如下:
Md = L b + (N / 2 – F b) / f Md * i (2—4a)
同理,用精确上限计算可写作下式:
Md = L a + (N / 2 – F a) / f Md * i (2—4b)
式中L a为中数所在分组区间的精确上限F a为该组以上各组的累加次数,i 为组距。
分组区间 96— 93— 90— 87— 84—
81— 78— 75— 72—f
2
3
4
8
11
17
19
14
10
Cf l
100
98
95
91
93
72
55
36
22
Cf2
2
5
9
17
28
45
64
78
88
(1)N/2=100/2=50
(2)中数所在组区间是
77.5—80.5
(3)中数所在组以下的次
数和F b=36
中数所在组以上的
次数和F a=45
69—
66—
63—
60一 7 3 1 l 12 5 2 1 95 98 99 100 (4)f md =19 i =3 M d =77.5+(50-36)/19*3=79
.7l
M d =80.5—(50-45)/19*3=
79.71
N =Σf =100
二、标准偏差
1.样本的标准偏差 1)
(2--=∑N x x S
2.总体的标准偏差 N x ∑-=
2)(μσ 例:有一组数字分别是200、50、100、200,求它们的标准偏差。
x = (200+50+100+200)/4 = 550/4 = 137.5 2S =[(200-137.5)^2+(50-137.5)^2+(100-137.5)^2+(200-137.5)^2]/(4-1) =[62.5^2+(-87.5)^2+(-37.5)^2+62.5^2]/3
=[3906.25+7656.25+1406.25+3906.25]/3 = 16875/3 = 5625 标准偏差 S = Sqr(5625) = 75
方差等于标准偏差的平方。
三、四分位数
见PDF
四、协方差。