统计分析的概念与方法
120
100
80
60
40
20
学龄
0
儿童
1910 1920 1930 1940 1950 1960 1970 1980 1990 2000
入学
率
图2. 各年代学龄儿童入学率
一、描述性统计(Descriptive Statistics)
◆百分比、相对比与图表仅仅给出了变量分 布的直观信息,若想对变量分布的特征有 更进一步的把握,还需对其分布的结构做 进一步处理。
一、描述性统计(Descriptive Statistics)
(二)变量的集中/中心趋势(Central tendency) 的测量
1.众数(mode) 2.中位数(median) 3.平均数(mean)
一、描述性统计(Descriptive Statistics)
1.众数 在一个变量分布中出现频率最高的变量值
Байду номын сангаас
婚姻状况 单身 已婚 离婚 寡居 合计
人数 1000 700 200 100 2000
百分比(%) 50 35 10 5 100
寡居 5% 离婚 10%
已婚 35%
单身 50%
单身 已婚 离婚 寡居
图1.某单位职工婚姻状况分布
60 50
50
40
35
30
百分比
20
10
10
5
0
单身
已婚
离婚
寡居
图1.某单位职工婚姻状况分布
=> 变量的平均离散值/平均偏差(Average
Deviation)
一、描述性统计(Descriptive Statistics)
2. 变量的平均离散值/平均偏差(Average Deviation)
平均离散值:变量中的每一个值与平均数的距离 之和.
AD
=
1 n
n
i=1
xi
x
一、描述性统计(Descriptive Statistics)
统计分析的概念与方法
一、描述性统计分析 二、样本分布 三、推断性统计的基本概念 四、假设检验 五、相关分析 六、回归分析
一、描述性统计(Descriptive Statistics)
(一)百分比、相对比与图表
1. 百分比(Percentage) 表1.某单位职工婚姻状况分布
婚姻状况 单身 已婚 离婚 寡居 合计
例2:变量值分布为 2、4、4、4、6、7、8、9
中位数为: (4+6)/ 2=5
一、描述性统计(Descriptive Statistics)
3.平均数
X=1 N
X
i
▲平均数的特点:它对数值极大或极小的
个案特别敏感
一、描述性统计(Descriptive Statistics)
◆众数:对定名变量是最合适的选择 ◆中位数:对定序变量是最合适的选择 ◆平均数;对定距和定比变量是最合适的选择
=> 还需对变量的离散趋势(Dispersion)进行测量
一、描述性统计(Descriptive Statistics)
(三)变量的离散趋势(Dispersion)的测量 1.极差/全距(Range) 极差=变量最高值 – 最低值 例1: RA=30 – 3 =27
RB=15 – 10 =5
▲但极差仅反映了变量最高值和最低值的差异, 对变量分布中的其他值未加以考虑(浪费了许 多信息)
3.方差(Variance)和标准差(Standard Deviation)
方差:即把每个离散值先平方,计算总和,再除以样 本总数.
S2
=
1 N
(Xi -
X
)2
一、描述性统计(Descriptive Statistics)
标准差:
标准差即方差的平方根。
( ) 1
2
S= N
Xi - X
即以平均数来估计变量中每一个值所犯的错误平均
人数 1000 700 200 100 2000
百分比(%) 50 35 10 5 100
一、描述性统计(Descriptive Statistics)
2. 相对比(Ratio) f1
R= f2
例:某村共1370名男性,930名女性 男女性别比: 1370/ 930=1.47
3.图表
表1.某单位职工婚姻状况分布
例1:前面“婚姻状况”例子中,单身人数最多 ,众数是单身者。
例2:变量值分布为 2、3、3、3、3、4、4、6、7
众数是3 ▲众数可以有两个:
2、3、3、3、3、4、4、5、5、5、5、6、7
一、描述性统计(Descriptive Statistics)
2.中位数 指一个变量分布的中间点
例1:变量值分布为 2、3、3、3、4、6、7
A公司的平均值:12分钟 B公司的平均值:13分钟 SA=8.74 SB =1.56 故B公司比A公司的送餐速度稳定的多(即你估计B
公司送餐到你家的时间的误差比A公司小的多)
一、描述性统计(Descriptive Statistics)
◆平均数和标准差把复杂的变量分布概括为 两个数字,我们对变量的中心趋势和离散 趋势有了一个直观的了解。
例:时序列或横向数据 差异系数=(标准差/平均值)*100%
一、描述性统计(Descriptive Statistics)
◆基尼系数 是描述一组数据的分散程度的另一个
相对指标。常用于作为描述不平等的指标。
20世纪初意大利经济学家基尼(C.Gini),根 据洛伦茨曲线找出了判断分配平等程度的指标 (如下图),设实际收入分配曲线和收入分配绝 对平等曲线之间的面积为A,实际收入分配曲线 右下方的面积为B。并以A除以A+B的商表示不 平等程度。这个数值被称为基尼系数或称洛伦茨 系数。
一、描述性统计(Descriptive Statistics)
▲虽然变量的集中趋势提供了变量分布的描述,但 仅知其集中趋势是不够的.
例1:清华附近2家送快餐公司的送餐速度: A:平均送到家的时间为12分钟,但最快3分钟到,最
慢30分钟到; B:平均送到家的时间为13分钟,但最快10分钟到,
最慢15分钟到. Q:你愿意选哪家?
一、描述性统计(Descriptive Statistics)
4. 差异系数(coefficient of variation) (1)两个或两个以上样本所使用的观测工具不
同,所测的特质不同;——标准差的单位不同, 不能比较。
例:身高与体重 (2)两个或两个以上样本所使用的是同一种观
测工具,所测的特质相同,但样本间的水平相 差较大。——平均值的大小不同,不能比较。
是S.该值越大,变量的分布面就越大.它显示变量分 布的离散程度.
一、描述性统计(Descriptive Statistics)
按S计算例1的结果:
次数 1 2 3 4 5 6 7 8 9 10
A 8 12 7 3 10 5 30 15 24 6
B 12 10 11 13 14 15 14 13 14 14