社会研究方法:统计分析-1
◆基尼系数计算公式
对收入分配X=( x1, x2,… xn )而言, 用每一对xi ,xj的差的绝对值的合计除以 收入,来反映不平等的程度。 1
G(x)= 2n2 μ
xi -xj |
◆联合国有关组织规定:
若低于0.2表示收入绝对平均;0.2-0.3 表示比较平均;0.3-0.4表示相对合理; 0.4-0.5表示收入差距较大;0.6以上表示 收入差距悬殊。
一、描述性统计(Descriptive Statistics)
(二)变量的集中/中心趋势(Central tendency) 的测量 1.众数(mode) 2.中位数(median) 3.平均数(mean)
一、描述性统计(Descriptive Statistics)
1.众数 在一个变量分布中出现频率最高的变量值
A
B
◆基尼系数值总是介于0,1之间,数值越
大,表明分配越不均等。
基尼系数的计算--洛论茨曲线法: X轴——人口百分比, Y轴——收入百分比。 收入等级 占家庭总收 入的百分比 累计占家庭 收入百分比
最低20%
次低20% 中间20% 次高20% 最高20%
6
12 17 24 41
6
18 35 59 100
例1:前面“婚姻状况”例子中,单身人数最多 ,众数是单身者。 例2:变量值分布为 2、3、3、3、3、4、4、6、7 众数是3 ▲众数可以有两个: 2、3、3、3、3、4、4、5、5、5、5、6、7
一、描述性统计(Descriptive Statistics)
2.中位数 指一个变量分布的中间点 例1:变量值分布为 2、3、3、3、4、6、7 例2:变量值分布为 2、4、4、4、6、7、8、9 中位数为: (4+6)/ 2=5
1910 1920 1930 1940 1950 1960 1970 1980 1990 2000
学龄 儿童 入学 率
图2. 各年代学龄儿童入学率
一、描述性统计(Descriptive Statistics)
◆百分比、相对比与图表仅仅给出了变量分
布的直观信息,若想对变量分布的特征有 更进一步的把握,还需对其分布的结构做 进一步处理。
方差:即把每个离散值先平方,计算总和,再除以样 本总数.
2 1 S = (Xi - X ) N
2
一、描述性统计(Descriptive Statistics)
标准差:
标准差即方差的平方根。
1 S= Xi - X N
(
)
2
即以平均数来估计变量中每一个值所犯的错误平均 是S.该值越大,变量的分布面就越大.它显示变量分 布的离散程度.
一、描述性统计(Descriptive Statistics)
◆平均数和标准差把复杂的变量分布概括为
两个数字,我们对变量的中心趋势和离散 趋势有了一个直观的了解。
一、描述性统计(Descriptive Statistics)
4. 差异系数(coefficient of variation) (1)两个或两个以上样本所使用的观测工具不 同,所测的特质不同;——标准差的单位不同, 不能比较。 例:身高与体重 (2)两个或两个以上样本所使用的是同一种观 测工具,所测的特质相同,但样本间的水平相 差较大。——平均值的大小不同,不能比较。 例:时序列或横向数据 差异系数=(标准差/平均值)*100%
第十讲 统计分析的基本概念与方法(1)
一、描述性统计分析 二、样本分布 三、推断性统计的基本概念 四、假设检验 五、相关分析 六、回归分析
一、描述性统计(Descriptive Statistics)
(一)百分比、相对比与图表
1. 百分比(Percentage) 表1.某单位职工婚姻状况分布 婚姻状况 单身 已婚 离婚 人数 1000 700 200 百分比(%) 50 35 10
一、描述性统计(Descriptive Statistics)
3.平均数
1 X= X i N
▲平均数的特点:它对数值极大或极小的
个案特别敏感
一、描述性统计(Descriptive Statistics)
◆众数:对定名变量是最合适的选择
◆中位数:对定序变量是最合适的选择
◆平均数;对定距和定比变量是最合适的选择
=> 还需对变量的离散趋势(Dispersion)进行测量
一、描述性统计(Descriptive Statistics)
(三)变量的离散趋势(Dispersion)的测量 1.极差/全距(Range) 极差=变量最高值 – 最低值 例1: RA=30 – 3 =27 RB=15 – 10 =5 ▲但极差仅反映了变量最高值和最低值的差异, 对变量分布中的其他值未加以考虑(浪费了许 多信息) => 变量的平均离散值/平均偏差(Average Deviation)
一、描述性统计(Descriptive Statistics)
▲虽然变量的集中趋势提供了变量分布的描述,但 仅知其集中趋势是不够的. 例1:清华附近2家送快餐公司的送餐速度: A:平均送到家的时间为12分钟,但最快3分钟到,最 慢30分钟到; B:平均送到家的时间为13分钟,但最快10分钟到, 最慢15分钟到. Q:你愿意选哪家?
二项分布的特征
二项分布由n和p两个参数决定: 1、当p值较小且n不大时,分布是偏倚的。但随 着n的增大 ,分布逐渐趋于对称,如图所示;
n值不同的二项分布的比较
2、当p值趋于0.5时,分布趋于对称,如图所示;
P值不同的二项分布的比较
3、对于固定的n及p,当k增加时,Pn(k)先随之增 加并达到其极大值,以后又下降。 此外,在n较大,p、q 较接近时,二项分 布接近于正态分布;当n→∞时,二项分布的极 限分布是正态分布。
A 1 A 2 -A 3 -A 4 A1 -A2 A3 -A4 A 1 -A 2 -A 3 A 4 -A 1 A 2 A 3 -A 4 -A 1 A 2 -A 3 A 4 -A 1 -A 2 A 3 A 4
其中Ak(k=1,2,3,4)表示事件A在第k次试验发生; - Ak(k=1,2,3,4)表示事件A在第k次试验不发生。由于 试验是独立的,按概率的乘法法则,于是有 P(A1A2-A3-A4)=P(A1-A2A3-A4)=… = P(A1)· P(A2)· P ( -A 3 ) · P(-A4)= p 2 q 4 -2
一、描述性统计(Descriptive Statistics)
按S计算例1的结果:3 13
5 10 14
6 5 15
7 30 14
8 15 13
9 24 14
10 6 14
A B
8
12 10
A公司的平均值:12分钟 B公司的平均值:13分钟 SA=8.74 SB =1.56 故B公司比A公司的送餐速度稳定的多(即你估计B 公司送餐到你家的时间的误差比A公司小的多)
又由于以上各种方式中,任何二种方式都是 互不相容的,按概率的加法法则,在4 次试验中, 事件A恰好发生2次的概率为 = P(A1A2-A3-A4)+P(A1-A2A3-A4)+… = C 2 p 2 q 4 -2
4
一般地,在n重贝努利试验中,事件A恰好发生 k(0≤k≤n)次的概率为
Pn (k ) Cnk p k q n-k
二、概率分布
1.随机变量 ◆离散型随机变量 如果变量x,其可能取值至多为可列出的若干个, 且以各种确定的概率取这些不同的值,则称x为离 散型随机变量 (discrete random variable)。 ◆连续型随机变量 如果变量x,其可能取值为某范围内的任何数值, 且x在其取值范围内的任一区间中取值时,其概率 是确定的,则称x为连续型随机变量(continuous random variable)。
一、描述性统计(Descriptive Statistics)
2. 变量的平均离散值/平均偏差(Average Deviation)
平均离散值:变量中的每一个值与平均数的距离 之和. AD = 1 n
xi - x n =
i1
一、描述性统计(Descriptive Statistics)
3.方差(Variance)和标准差(Standard Deviation)
=
k=0,1,2…,n
若把上式与二项展开式
(q p) n =
k k n-k C p q n k =0 n
相比较就可以发现,在n重贝努利试验中, 事件A发生k次的概率恰好等于展开式中 的第k+1项,所以也把它称作二项概率公 式。
二项分布的意义及性质 二项分布定义如下: 设随机变量x所有可能取的值为零和正整 数:0,1,2,…,n,且有
寡居 合计
100 2000
5 100
寡居 5% 离婚 10% 单身 50% 已婚 35% 单身 已婚 离婚 寡居
图1.某单位职工婚姻状况分布
60 50 40 30 20 10 0 单身 已婚 离婚 寡居 10 5 50 35 百分比
图1.某单位职工婚姻状况分布
120 100 80 60 40 20 0
2. 二项分布
将某随机试验重复进行n次,若各次试验 结果互不影响, 即每次试验结果出现的概率 都不依赖于其它各次试验的结果,则称这n次 试验是独立的。 对于n次独立的试验,如果每次试验结果出 现且只出现对立事件A与(-A)之一,在每 次试验中出现A的概率是常数p(0<p<1),因而出 现对立事件(-A)的概率是1-p=q,则称这 一串重复的独立试验为n重贝努利试验,简称 贝努利试验(Bernoulli trials )。
在社会科学研究中,我们经常碰到的 一类离散型随机变量,如n个人参加投票 的人数等,可用贝努利试验来概括。 在n重贝努利试验中,事件A可能发生 0,1,2,…,n次,现在我们来求事件A 恰好发生k(0≤k≤n)次的概率Pn(k)。