当前位置：文档之家› 社会研究方法：统计分析-1

社会研究方法：统计分析-1

◆基尼系数计算公式
对收入分配X=（ x1, x2,… xn ）而言，用每一对xi ,xj的差的绝对值的合计除以收入，来反映不平等的程度。 1
G(x)= 2n2 μ
xi -xj |
◆联合国有关组织规定：
若低于0.2表示收入绝对平均；0.2-0.3 表示比较平均；0.3-0.4表示相对合理； 0.4-0.5表示收入差距较大；0.6以上表示收入差距悬殊。
一、描述性统计(Descriptive Statistics)
(二)变量的集中/中心趋势(Central tendency) 的测量 1.众数（mode） 2.中位数(median) 3.平均数(mean)
一、描述性统计(Descriptive Statistics)
1.众数在一个变量分布中出现频率最高的变量值
A
B
◆基尼系数值总是介于0，1之间，数值越
大，表明分配越不均等。
基尼系数的计算--洛论茨曲线法： X轴——人口百分比， Y轴——收入百分比。收入等级占家庭总收入的百分比累计占家庭收入百分比
最低20%
次低20% 中间20% 次高20% 最高20%
6
12 17 24 41
6
18 35 59 100
例1：前面“婚姻状况”例子中，单身人数最多，众数是单身者。例2：变量值分布为 2、3、3、3、3、4、4、6、7 众数是3 ▲众数可以有两个： 2、3、3、3、3、4、4、5、5、5、5、6、7
一、描述性统计(Descriptive Statistics)
2.中位数指一个变量分布的中间点例1：变量值分布为 2、3、3、3、4、6、7 例2：变量值分布为 2、4、4、4、6、7、8、9 中位数为：（4＋6）/ 2=5
1910 1920 1930 1940 1950 1960 1970 1980 1990 2000
学龄儿童入学率
图2. 各年代学龄儿童入学率
一、描述性统计(Descriptive Statistics)
◆百分比、相对比与图表仅仅给出了变量分
布的直观信息，若想对变量分布的特征有更进一步的把握，还需对其分布的结构做进一步处理。
方差:即把每个离散值先平方,计算总和,再除以样本总数.
2 1 S = (Xi - X ) N
2
一、描述性统计(Descriptive Statistics)
标准差:
标准差即方差的平方根。
1 S= Xi - X N
(
)
2
即以平均数来估计变量中每一个值所犯的错误平均是S.该值越大,变量的分布面就越大.它显示变量分布的离散程度.
一、描述性统计(Descriptive Statistics)
◆平均数和标准差把复杂的变量分布概括为
两个数字，我们对变量的中心趋势和离散趋势有了一个直观的了解。
一、描述性统计(Descriptive Statistics)
4. 差异系数(coefficient of variation) （1）两个或两个以上样本所使用的观测工具不同，所测的特质不同；——标准差的单位不同，不能比较。例：身高与体重（2）两个或两个以上样本所使用的是同一种观测工具，所测的特质相同，但样本间的水平相差较大。——平均值的大小不同，不能比较。例：时序列或横向数据差异系数=（标准差/平均值）*100%
第十讲统计分析的基本概念与方法（1）
一、描述性统计分析二、样本分布三、推断性统计的基本概念四、假设检验五、相关分析六、回归分析
一、描述性统计(Descriptive Statistics)
(一)百分比、相对比与图表
1. 百分比(Percentage) 表1.某单位职工婚姻状况分布婚姻状况单身已婚离婚人数 1000 700 200 百分比(%) 50 35 10
一、描述性统计(Descriptive Statistics)
3.平均数
1 X= X i N
▲平均数的特点：它对数值极大或极小的
个案特别敏感
一、描述性统计(Descriptive Statistics)
◆众数：对定名变量是最合适的选择
◆中位数：对定序变量是最合适的选择
◆平均数；对定距和定比变量是最合适的选择
=> 还需对变量的离散趋势(Dispersion)进行测量
一、描述性统计(Descriptive Statistics)
(三)变量的离散趋势(Dispersion)的测量 1.极差/全距(Range) 极差=变量最高值 – 最低值例1: RA=30 – 3 =27 RB=15 – 10 =5 ▲但极差仅反映了变量最高值和最低值的差异, 对变量分布中的其他值未加以考虑(浪费了许多信息) => 变量的平均离散值/平均偏差(Average Deviation)
一、描述性统计(Descriptive Statistics)
▲虽然变量的集中趋势提供了变量分布的描述,但仅知其集中趋势是不够的. 例1:清华附近2家送快餐公司的送餐速度: A:平均送到家的时间为12分钟,但最快3分钟到,最慢30分钟到; B:平均送到家的时间为13分钟,但最快10分钟到, 最慢15分钟到. Q:你愿意选哪家?
二项分布的特征
二项分布由n和p两个参数决定： 1、当p值较小且n不大时，分布是偏倚的。但随着n的增大，分布逐渐趋于对称，如图所示；
n值不同的二项分布的比较
2、当p值趋于0.5时，分布趋于对称，如图所示；
P值不同的二项分布的比较
3、对于固定的n及p，当k增加时，Pn(k)先随之增加并达到其极大值，以后又下降。此外，在n较大，p、q 较接近时，二项分布接近于正态分布；当n→∞时，二项分布的极限分布是正态分布。
A 1 A 2 －A 3 －A 4 A1 －A2 A3 －A4 A 1 －A 2 －A 3 A 4 －A 1 A 2 A 3 －A 4 －A 1 A 2 －A 3 A 4 －A 1 －A 2 A 3 A 4
其中Ak(k=1,2,3,4)表示事件A在第k次试验发生；－ Ak(k=1,2,3,4)表示事件A在第k次试验不发生。由于试验是独立的，按概率的乘法法则，于是有 P(A1A2－A3－A4)=P(A1－A2A3－A4)=… = P(A1)· P(A2)· P ( －A 3 ) · P(－A4)= p 2 q 4 －2
一、描述性统计(Descriptive Statistics)
按S计算例1的结果:3 13
5 10 14
6 5 15
7 30 14
8 15 13
9 24 14
10 6 14
A B
8
12 10
A公司的平均值:12分钟 B公司的平均值:13分钟 SA=8.74 SB =1.56 故B公司比A公司的送餐速度稳定的多(即你估计B 公司送餐到你家的时间的误差比A公司小的多)
又由于以上各种方式中，任何二种方式都是互不相容的，按概率的加法法则，在4 次试验中，事件A恰好发生2次的概率为 = P(A1A2－A3－A4)＋P(A1－A2A3－A4)＋… = C 2 p 2 q 4 －2
4
一般地，在n重贝努利试验中，事件A恰好发生 k(0≤k≤n)次的概率为
Pn (k ) Cnk p k q n-k
二、概率分布
1.随机变量 ◆离散型随机变量如果变量x，其可能取值至多为可列出的若干个，且以各种确定的概率取这些不同的值，则称x为离散型随机变量 (discrete random variable)。 ◆连续型随机变量如果变量x，其可能取值为某范围内的任何数值，且x在其取值范围内的任一区间中取值时，其概率是确定的，则称x为连续型随机变量(continuous random variable)。
一、描述性统计(Descriptive Statistics)
2. 变量的平均离散值/平均偏差(Average Deviation)
平均离散值:变量中的每一个值与平均数的距离之和. AD = 1 n
xi - x n =
i1
一、描述性统计(Descriptive Statistics)
3.方差(Variance)和标准差(Standard Deviation)
=
k=0,1,2…，n
若把上式与二项展开式
(q p) n =
k k n-k C p q n k =0 n
相比较就可以发现，在n重贝努利试验中，事件A发生k次的概率恰好等于展开式中的第k+1项，所以也把它称作二项概率公式。
二项分布的意义及性质二项分布定义如下：设随机变量x所有可能取的值为零和正整数：0,1,2,…，n，且有
寡居合计
100 2000
5 100
寡居 5% 离婚 10% 单身 50% 已婚 35% 单身已婚离婚寡居
图1.某单位职工婚姻状况分布
60 50 40 30 20 10 0 单身已婚离婚寡居 10 5 50 35 百分比
图1.某单位职工婚姻状况分布
120 100 80 60 40 20 0
2. 二项分布
将某随机试验重复进行n次，若各次试验结果互不影响，即每次试验结果出现的概率都不依赖于其它各次试验的结果，则称这n次试验是独立的。对于n次独立的试验，如果每次试验结果出现且只出现对立事件A与（－Ａ）之一，在每次试验中出现A的概率是常数p(0<p<1),因而出现对立事件（－Ａ）的概率是1-p=q，则称这一串重复的独立试验为n重贝努利试验，简称贝努利试验(Bernoulli trials )。
在社会科学研究中，我们经常碰到的一类离散型随机变量，如n个人参加投票的人数等，可用贝努利试验来概括。在n重贝努利试验中，事件A可能发生 0，1，2，…，n次，现在我们来求事件A 恰好发生k(0≤k≤n)次的概率Pn(k)。

e商务文档

社会研究方法：统计分析-1

相关文档推荐：