1b基本统计分析
14
计算描述统计量
描述离散程度的统计量
(1)标准差(standard deviation--Std Dev) (2)方差(variance) (3)极差 (range):
最大值(minimum)-最小值(minimum) 极差很小表明所有数据几乎集中在一起 应用于相同样本容量的两组数据离散程度比较
15
计算描述统计量
描述对称程度的统计量
偏度(skewness):
∑ Skewness = 1
n -1
n i =1
(
xi
−
x)3
/
SD3
描述某变量所有变量值分布形态的偏斜程度和方向 的统计量. 偏度为0表示对称; 大于0表示正偏差大(右偏),频数最大的值比均值小, 极值大于均值; 小于0表示负偏差大(左偏)。
zi = (xi − x) / SD
19
绘制统计图形
统计图形的种类
直方图 箱线图 P-P图或Q-Q图 第二种类型下的条形图
20
城乡储户的取款 金额分布比较 (Boxplot)
()
120000
100000
80000
60000
40000
存
取 20000
款
金
0
额
-20000
N=
户口
86
874976 64123820540 131911440918576
储户的职业分析
特点:定类数据 使用频数、百分比、总数(不可缺少的) 不使用累计频数和累计百分比
储户收入水平分析
特点:定序数据 除使用频数、百分比、总数外,还可以充分 累计频数和累计百分比
4
频数分析应用举例
取款目的分析
特点:数据中存在缺式值 使用有效百分比(分母为有效样本数)
取款目的排名
特点:频数分布表输出按频数降序输出 frequency->format
• 在避免极端值影响的条件下,通过计算分位数差,比较两
组样本数据的离散程度。 例: ( QL=50,QU=80) 和 (QL=70,QU=75) 的比较
6
频数分析应用举例
不同户口(城镇、农村)的人群取款目分析
特点:按不同类型分别分析 首先做数据拆分,再进行频数分析
7
绘制统计图形
统计图形的种类
条形图、饼图(适用于定序、定类数据和分 组后的定距数据) 直方图 (适用于定距数据)
采用的方法
计算基本描述统计量 绘制统计图形
13
计算描述统计量
描述集中趋势的统计量
(1)均值(mean):
表示某变量所有变量值集中趋势或平均水平的统计量。 适用于定距数据。 特点:利用了全部数据,易受极端值的影响。
(2)众数(mode) (在frequency菜单中计算)
一组数据中出现频数最多的变量值。(例:服装尺码) 适用于各类数据,主要用于定类数据。 特点:众数可能不唯一,不受极端值的影响图(单式条图) 绘制复式条图
绘制堆积条图(分段条图) 定义统计图中数据的表达类型:
同一变量若干条记录的分组汇总 条图反映了不同变量的汇总 条图反映了个体观察值 9
第一种类型下的三种图 形:用于某分类变量各 分类情况的比较
220 200 180 160 140 120 100
分析比较城镇和农村居民取款情况
比较集中趋势 比较离散趋势 比较偏斜程度 比较陡峭程度 实现方式:数据拆分
18
计算描述统计量应用举例
你能以较简便的方法快速找到取款数目 出众的储户吗?
金额标准化处理,成为标准正态分布 标准化后变量的均值为0,标准差为1; 小于0表示在平均水平下,大于0反之. 正态分布的数据标准化后呈标准正态分布 (68%,95%,99%) 根据3σ准则判断
200
城镇户口
274
207
214 21021 25710193 2051248279
82
农村户口
21
城乡储户的平均 取款金额估计 (Error bar)
I 95% C ( )
8000
7000
6000
5000
4000
存 3000 取 2000 款 金 1000 额
0
N=
户口
200
城镇户口
82
农村户口
22
储户的取款金额 分布是否正态
Expected Cum Prob
Normal P-P Plot of 存(取)款金
1.00
.75
.50
.25
0.00
0.00
.25
.50
.75
1.00
Observed Cum Prob
23
第二种类型下的三种图 形:用于若干变量的统 计量的比较
5000 4000 3000 2000 1000
5
频数分析应用举例
取款金额的分析
利用分位数(不显示频数分析表) 不同职业的取款金额比较
• 分位数(Percentile values):适用于定序、定距数据。数据
按升序排序后,找到若干个分位点上的变量值
• 分位数的应用:从一个侧面比较两组样本数据的集中趋势
例:( QL=50,QU=80) 和 (QL=70,QU=75) 的比较
Std. Dev = 10945.57
Mean = 4738.1
0
N = 282.00
0.0 10000.020000.030000.040000.050000.060000.070000.080000.090000.0100000.0
存(取)款金额
12
描述统计
目的
精确把握变量的总体分布状况 了解数据的集中趋势、离散趋势、对称程度、 陡峭程度。
SPSS基本统计分析
频数分析 描述统计 交叉分组下的频数分析 多选项分析
1
频数分析
目的
粗略把握变量的总体分布状况。
采用的方法
计算频分布表 绘制统计图形 上述方法适用于定序、定类、定距类型数据
2
计算频数分布表(frequency)
频数分布表的基本内容
频数 累计频数 百分比 累计百分比
3
频数分析应用举例
80 60
户口
城镇户口
农村户口
Count
Count
Count
140 120 100 80 60 40 20
0 城镇户口
户口
300
农村户口
收入水平
1 2 3 4
200
100
0
户口
城镇户口
农村户口
收入水平
4 3 2 1
10
储户户口构成
农村户口 29.1%
城镇户口 70.9%
11
取款金额直方图
200
100
16
计算描述统计量
描述陡峭程度的统计量
峰度(kurtosis):
∑ Kurtosis = 1
n -1
n i =1
(
xi
−
x)4
/
SD4
−3
描述某变量所有变量值分布形态陡缓程度的统计量。
峭度为0表示与正态分布峭度相同。
大于0表示比正态分布陡,尖峰。
小于0表示比正态分布缓;平峰。
其他:标准误差
17
计算描述统计量应用举例