当前位置：文档之家› 统计分析的概念与方法

统计分析的概念与方法

120
100
80
60
40
20
学龄
0
儿童
1910 1920 1930 1940 1950 1960 1970 1980 1990 2000
入学
率
图2. 各年代学龄儿童入学率
一、描述性统计(Descriptive Statistics)
◆百分比、相对比与图表仅仅给出了变量分布的直观信息，若想对变量分布的特征有更进一步的把握，还需对其分布的结构做进一步处理。
一、描述性统计(Descriptive Statistics)
(二)变量的集中/中心趋势(Central tendency) 的测量
1.众数（mode） 2.中位数(median) 3.平均数(mean)
一、描述性统计(Descriptive Statistics)
1.众数在一个变量分布中出现频率最高的变量值
Байду номын сангаас
婚姻状况单身已婚离婚寡居合计
人数 1000 700 200 100 2000
百分比(%) 50 35 10 5 100
寡居 5% 离婚 10%
已婚 35%
单身 50%
单身已婚离婚寡居
图1.某单位职工婚姻状况分布
60 50
50
40
35
30
百分比
20
10
10
5
0
单身
已婚
离婚
寡居
图1.某单位职工婚姻状况分布
=> 变量的平均离散值/平均偏差(Average
Deviation)
一、描述性统计(Descriptive Statistics)
2. 变量的平均离散值/平均偏差(Average Deviation)
平均离散值:变量中的每一个值与平均数的距离之和.
AD
=
1 n
n

i=1
xi
x
一、描述性统计(Descriptive Statistics)
统计分析的概念与方法
一、描述性统计分析二、样本分布三、推断性统计的基本概念四、假设检验五、相关分析六、回归分析
一、描述性统计(Descriptive Statistics)
(一)百分比、相对比与图表
1. 百分比(Percentage) 表1.某单位职工婚姻状况分布
婚姻状况单身已婚离婚寡居合计
例2：变量值分布为 2、4、4、4、6、7、8、9
中位数为：（4＋6）/ 2=5
一、描述性统计(Descriptive Statistics)
3.平均数
X=1 N
X
i
▲平均数的特点：它对数值极大或极小的
个案特别敏感
一、描述性统计(Descriptive Statistics)
◆众数：对定名变量是最合适的选择 ◆中位数：对定序变量是最合适的选择 ◆平均数；对定距和定比变量是最合适的选择
=> 还需对变量的离散趋势(Dispersion)进行测量
一、描述性统计(Descriptive Statistics)
(三)变量的离散趋势(Dispersion)的测量 1.极差/全距(Range) 极差=变量最高值 – 最低值例1: RA=30 – 3 =27
RB=15 – 10 =5
▲但极差仅反映了变量最高值和最低值的差异, 对变量分布中的其他值未加以考虑(浪费了许多信息)
3.方差(Variance)和标准差(Standard Deviation)
方差:即把每个离散值先平方,计算总和,再除以样本总数.
S2
=
1 N
(Xi -
X
)2
一、描述性统计(Descriptive Statistics)
标准差:
标准差即方差的平方根。
( ) 1
2
S= N
Xi - X
即以平均数来估计变量中每一个值所犯的错误平均
人数 1000 700 200 100 2000
百分比(%) 50 35 10 5 100
一、描述性统计(Descriptive Statistics)
2. 相对比（Ratio） f1
R= f2
例：某村共1370名男性，930名女性男女性别比： 1370/ 930=1.47
3.图表
表1.某单位职工婚姻状况分布
例1：前面“婚姻状况”例子中，单身人数最多，众数是单身者。
例2：变量值分布为 2、3、3、3、3、4、4、6、7
众数是3 ▲众数可以有两个：
2、3、3、3、3、4、4、5、5、5、5、6、7
一、描述性统计(Descriptive Statistics)
2.中位数指一个变量分布的中间点
例1：变量值分布为 2、3、3、3、4、6、7
A公司的平均值:12分钟 B公司的平均值:13分钟 SA=8.74 SB =1.56 故B公司比A公司的送餐速度稳定的多(即你估计B
公司送餐到你家的时间的误差比A公司小的多)
一、描述性统计(Descriptive Statistics)
◆平均数和标准差把复杂的变量分布概括为两个数字，我们对变量的中心趋势和离散趋势有了一个直观的了解。
例：时序列或横向数据差异系数=（标准差/平均值）*100%
一、描述性统计(Descriptive Statistics)
◆基尼系数是描述一组数据的分散程度的另一个
相对指标。常用于作为描述不平等的指标。
20世纪初意大利经济学家基尼(C．Gini)，根据洛伦茨曲线找出了判断分配平等程度的指标（如下图），设实际收入分配曲线和收入分配绝对平等曲线之间的面积为A，实际收入分配曲线右下方的面积为B。并以A除以A+B的商表示不平等程度。这个数值被称为基尼系数或称洛伦茨系数。
一、描述性统计(Descriptive Statistics)
▲虽然变量的集中趋势提供了变量分布的描述,但仅知其集中趋势是不够的.
例1:清华附近2家送快餐公司的送餐速度: A:平均送到家的时间为12分钟,但最快3分钟到,最
慢30分钟到; B:平均送到家的时间为13分钟,但最快10分钟到,
最慢15分钟到. Q:你愿意选哪家?
一、描述性统计(Descriptive Statistics)
4. 差异系数(coefficient of variation) （1）两个或两个以上样本所使用的观测工具不
同，所测的特质不同；——标准差的单位不同，不能比较。
例：身高与体重（2）两个或两个以上样本所使用的是同一种观
测工具，所测的特质相同，但样本间的水平相差较大。——平均值的大小不同，不能比较。
是S.该值越大,变量的分布面就越大.它显示变量分布的离散程度.
一、描述性统计(Descriptive Statistics)
按S计算例1的结果:
次数 1 2 3 4 5 6 7 8 9 10
A 8 12 7 3 10 5 30 15 24 6
B 12 10 11 13 14 15 14 13 14 14

e商务文档

统计分析的概念与方法

相关文档推荐：