第十二章资料的统计分析
第二节集中量数分析
一、集中量数也称集中趋势,它是一组数据的代表值,代表着现象的一般水平,别的数值围绕着它的周围。
常用的集中数有:算术平均数、中位数、众数。
二、算术平均数:是以总体各单位数值之和除以总体单位总数的商。
即,
各单位的标志数值之和
算术平均数=
总体单位总数
(一)简单算术平均数法:
X1+X2+…X n ∑X
X = =
n n
其中,符号X代表算术平均数;X1,X2,…X n分别代表各个具体的标志数值,n表示总体单位数(即总体中个案的数目),∑表示将各个具体的标志数值相加求和。
(二)加权算术平均数:
X1f1+ X2f2+…X n f n ∑Xf
X = =
f1+ f2 +…f n∑f
其中,f为权数,即变量在总体中出现的次数。
1、由单项分组资料求算术平均数。
∑Xf
X =
∑f
2、由组距分组资料求算术平均数。
先计算出组中距,然后再使用加权算术平均数的公式进行计算。
组中值的符号为:X mid
下组限+上组限
X mid =
2
由组距分组资料计算算术平均数的公式就变为:
∑f X mid
X =
∑f
三、中位数
中位数是把调查到的数据资料按照标志值大小顺序排列,处于中央位置的标志值表示中间位置的平均数,也称位置平均数。
(一)由原始资料计算中位数
原始资料是以单项标志值形式表现的。
先把各个标志值按照大小顺序排列,然后用总体单位数加1除以2,即n+1 ,就可以求出中位数的位次。
2
(二)对经过资料计算中位数
1、由单项分组资料求中位数。
n+1
中位数的位次=
2
2、由组距分组资料计算中位数。
∑f
由组距分组资料计算中位数,应先用 2 公式确定中位数所在组的位置,然后再用下限公式计算中位数的值。
下限公式为:
∑f-cf m
-1
M d= ×i+L
f m
为中位数所在组以下的累计次其中,M d为中位数,f m为中位数所在组的次数,cf m
-1
数,∑f为累计数,i为中位数所在组的组距,L为中位数所在组的下限。
四、众数
众数是指在一组数据中重复次数最多的标志值。
(一)从单项分组数据资料中计算众数
一般采用直接观察法即可。
(二)从组距分组资料中计算众数
一种是组中值法,另一种是摘补法。
L+U
其公式为:众数=
2
其中,L代表众数所在组的组下限,U代表众数所在组的组上限。
第三节离中量数分析
一、常用的离中量数有:异众比率、四分位差、标准差。
差异程度越小,平均数的代表性越高;差异程度越大,平均数的代表性越低。
描述数据离散程度的量数就是离中量数,也称差异量数。
离中量数也是一个概括性量值,是研究现象差异程度的概括表现,它的意义在于阐明被研究现象的差异特征。
差异量数越小,集中量数的代表性越大。
二、离中量数的计算
集中量数和离中量数是配合使用的,众数和异众比率配合,中位数和四分位差配合,平均数和标准差配合。
(一)异众比率
异众比率是指非众数的次数与总体内全部总体单位的比率。
n-f mo
VR =
n
其中,VR代表异众比率,n是总体内全部总体单位的数,f mo为众数的次数。
异众比率较大,众数的代表性小些;异众比率越小,众数的代表性越大。
(二)四分位差
四分位数:把一组数据按大小排列成序列,然后分成四个数据数目相等段落,各段数分界点上的数叫四分位数。
(四分位差的代表符号为Q)
1、对定序类型资料计算的四分位差。
Q = Q3-Q1
四分位差之间的间距越小,中位数的代表性越大。
2、对于定距类型资料计算四分位差。
Q3-Q1
Q =
2
首先,要确定Q3和Q1的位次。
3n 1n
Q3的位次= 4 Q1的位次= 4 再次,求出Q3和Q1的的数值。
∑f-cf m-1
∑f-cf m
-1
Q3= ×i+L Q1= ×i+L
f m f m
最后,求出Q的数值。
Q3-Q1
Q =
2
(三)标准差
标准差又称均方差,是指资料中各个数值与算术平均数相减之差的平方和的算术平均数的平方根。
它是用得最多、它是用得最多,也是最重要的离中量数,其代表符号为
∑(X i-X)2
=
n
其中,X i为资料中的各个数值,X为算术平均数,n为总体单位数。
1、根据原始资料计算标准差。
∑(X i-X)2
=
n
标准差最小,平均数的代表性大;反之,标准差越大,平均数的代表性越小。
2、根据统计表资料计算标准差。
(1)由单值分组资料计算标准差。
∑f(X i-X)2
=
n
(2)由组距分组资料计算标准差。
∑f(X mid-X)2
=
n
其中,X mid是指各组的组中值,f为权数,n为组数。
三、相对差异量数
(一)离散系数
离散系数是标准差与算术平均数的比值,用百分数表示。
离散系数越大,数据的离散程度越大,集中量数的代表性越小;反之,数据离散程度越小,集中量数的代表性越大。
离散系数用CV表示
CV = ×100%
离散系数的比较只限于定距资料。
(二)标准分数
测定这种相对位置的工具——标准分数来表示。
标准分数的符号是Z
X-X
Z =
其中,X为原始数据,X为总体平均数,为总体标准差。
第五节推论统计
推论统计研究如何将样本的统计值推论为总体的参数值。
推论统计包括两种方法:区间估计、假设检验。
一、区间估计
区间估计指在一定的标准差范围内设立一个置信区间,然后联系这个区间的可信度将样本统计值推论为总体参数值。
常用的置信度1-a:90% 95% 99%
对应的置信度Z值数值: 1.65 1.96 2.58
(二)总体均值的区间估计方法
1、总体平均数的区间估计。
S
X±Z(1-a)
是置信度的Z值数值,下标(1-a)是置信度,其中,X是样本平均数,Z
(1-a)
S是样本的标准差,n为样本数目。
要提高推论的可靠性,就必须相应地扩大置信区间。
可靠性的提高,置信区间在扩大,精确度降低了。
2、总体百分比的区间估计。
P(1-P)
P±Z(1-a)
其中,P是样本中的百分比。
二、假设检验
假设检验是推论统计的另一种主要方法。
指先对总体的某一参数作一假设,然后用样本统计量去验证,以决定假设是否为总体接受。
通常把概率不超过0.05或0.01的事件当作“小概率事件”,也称为显著性水平。