当前位置:
文档之家› 第4章-SPSS基本统计分析
第4章-SPSS基本统计分析
2016/12/25
21
基本描述统计量
描述离散程度的统计量
离散程度:指一组数据远离“中心值”的程度。 即考查所有数据相对于“中心值”分布的疏密程度。 如果数据都紧密地集中在“中心值”的周围,数 据的离散程度较小,则说明“中心值”对数据的 代表性就好; 如果数据比较松散地分布在“中心值”的周围, 数据的离散程度较大,则 “中心值”说明数据特 征是不具有代表性的。
案例
利用“大学生职业生涯规划数据”进行 以下分析:
1. 计算专业和职业认知得分的基本描述统计
量,并比较男女生的得分差异; 2. 分析是否存在专业和职业认知得分的异常 值。
应用举例
基本描述统计
以“居民储蓄调查数据”为例,对一次存(取)款金 额。有两个分析目标: 目标一:计算存(取)款金额的基本描述统计量,并对 城镇储户和农村储户进行比较 (数据拆分)
SK 0
左(负)偏态
x
M M
152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 e 169o170 171 172 173 174 175
基本描述统计量
描述陡峭程度的统计量
– 峰度(kurtosis): 描述某变量取值分布形态陡缓程
龄
合 计
频数分析表
频数分析的任务: 编制频数分布表
用宽度相同的条形的高度或长短来表示频数分布变化的图 如果有缺省值,那 – 各组的名称 形。使用于定序和定类变量的分析 么有效百分比能更 – 频数(Frequency) 加准确地反映取值 用圆形及圆内扇形的面积来表示频数百分比变化的图形。 – 百分比(Percent) 分布状况
目标一:分析储户的户口和职业的基本情况。
频数分析表
分析特点:
涉及的两个变量都是分类变量。
户口、职业
分析方法: 通过基本频数分析实现
频数分析表
目标二:分析储户一次存(取)款金额的分布, 并对城镇储户和农村储户进行比较. 分析特点: 1、 涉及的变量是定距型变量。 2、需要分别对城镇和农村户口的储户进行分析, 以便比较。 分析方法: 1、 对定距变量不能直接采用频数分析; 2、应对数据分组后,再编制频数分布表 分析方法: 1、 进行数据拆分; 2、利用四分位数等标志变异指标比较城镇和农 村储户的一次存款金额分布上的差异
按Statistics 按钮,打 频数分析表 开Statistics对话框
Frequences主对话框
选择一个或 多个变量右 移入Variable (s)框。 显示频数 分布表
按Chart按钮,打开 Chart 对话框
按Format按钮, 打述统计量
目的 – 精确把握变量的总体分布状况,了解数
save standardized values as variables 选项将变量 作标准化后,结果存入名为“Z+原变量名”的新变量中.
如选中此框,将对 Variables框中选择的 变量进行标准化产 生相应的Z分值,并 作为新变量保存到 数据窗口,其变量 名在原变量名前加z。
选一个或 多个变量 移入
只有选择了条形图和饼图项 才有效,决定纵轴表示的统 计量 纵轴或横轴表示频数 纵轴或横轴表示百分比
Chart 对话框
频数分析表
设置频数表输出的格式 选择频数表中排 列顺序 按变量值升序 排列,此为默认 按变量值降序 排列 按变量各种取 值发生的频数的 升序排列 按变量各种取 值发生的频数的 降序排列 多变量框中可设定多 变量表格输出的格式
众数
一个统计总体或分布数列中出现的频数最多、频率最 高的变量值。 既适用于定距数据,也适用于定序和定类数据。
注意:对于定距数据
一般情况下都采用均值; 当数据中存在着较大的误差或者有一些极端数
值的话,就要使用中位数; 当变量的次数分布的偏斜程度十分严重时,就 应该使用众数来说明总体的一般水平。
输出百分位数: 输出四分位数,显示 25%、50%、75%的百分 位数; 将数据平均分为所设定 的相等等份,可输入2— 100 的整数,如键入4则输 出第25、50、75百分位数 自定义百分位数,可输 入0—100 的整数。输入值 后按Add添加百分位数, 可反复操作键入多个百分 位数; 按Remove:删除已键入 的数值 按Change:重新输入新数
征。
– 通过频数分析,能够在一定程度上反映出样本是否
具有总体代表性,抽样是否存在系统偏差等,并以 此证明以后相关问题分析的代表性和可信性。
某班学生按性别分组 性别 人数(人)
男
女 合计
30
20 50
某班学生按性别和年龄分组(交叉式复合分组)
年
性别 20以下 男 女 合计 1 3 4 20-22 25 15 40 22以上 4 2 6 30 20 50
– 例: ( QL=50,QU=75) 和 (QL=70,QU=75) 的比较
分位数、中位数、众数的应用举例
不同类型的移动客户月话费比较(数据拆分) 利用分位数(不显示频数分布表)
频数分析表
不输出任何图形,为默认 输出柱形图或条形图,各条高度代表变量各分类的频数或百 分比。 输出饼图,各块的数值表示各分类变量的频数或百分比 输出直方图,此图仅适用于区间型数值变量。选择此项后, 还可选择With normal curve,画出的直方图带有正态曲线
计算分位数。分位数从一个侧面刻画了变量的取 值分布形态。分位数差可描述离散程度。适用于 定序、定距数据。 – 数据按升序排序后,找到若干个分位点上的 变量值 – quartiles:计算四分位数25%(QL)、50%(中 位数)、75%(QU) – cut points for n equal groups: n等份 – percentile: 自定义百分位点 计算其他基本描述统计量。描述集中趋势、离散 程度、分布形态的统计量。
20 15 10
SK 0
右(正)偏态
5
0
152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175
Mo Me
x
20 18 16 14 12 10 8 6 4 2 0
据的集中趋势、离散趋势、对称程度、 陡峭程度。
基本方法
– 计算基本描述统计量
基本描述统计量
描述集中趋势的统计量
均值(mean):
表示某变量所有变量值集中趋势或平均水平的统计量。 适用于定距数据。利用了全部数据,易受极端值影响。
中位数(Median)
排序后处于中间位置的那个变量值。 不适用于定类数据。
描述对称程度的统计量
偏度(skewness): 描述某变量所有变量值分布形态的偏斜程 度和方向的统计量.
偏度为0表示对称; 大于0表示正偏差大,称为正偏或右偏,众数小于均值;
小于0表示负偏差大,称为负偏或左偏,众数大于均值。
偏度的绝对值越大,表示数据分布形态的偏斜程度越大。
n 1 3 3 Skewness ( x x ) S i i 1 n-1
采用两种方式实现上述分析:
第一,数值计算,即计算常见的基本统计量的 值,通过数值来准确反映数据的基本统计特征
第二,图形绘制,通过图形来直观展示数据的分
布特点
4.1 频数分析表
目的
– 频数分析:对数据按组进行归类整理,形成变量不
同水平的频数分布表和图形,对数据的分布趋势进 行初步分析。
– 通过频数分析,了解变量取值的状况,把握分布特
Descriptive 对话框
基本统计量 分布
当Variables框中有多个变量 时,此框确定其输出顺序: 按Variables框中的排列顺 序输出 按各变量的字母顺序输出 按均值的升序排列 按均值的降序排列
Options 对话框
基本描述统计
结果分析
– 对标准化的数据分析
分为三组(低金额组≤-3, 中金额组(3,3) , 高金额≥3) 异常组的总比例大于理论值0.3%,则存在一定的不均衡现 象
操作:
① ② ③
④
[analyze] →[descriptive statistics] → [frequencies]。 选择待分析的变量到[variable(s)]框。 按Chart按钮,选择所需要绘制的图形。 在[Chart Values]框中选择柱形图纵坐标 或条形图横坐标的含义。 按Format按钮,调整频数分布表中数据 的输出顺序:按变量值的升(降)序排 列,按频数的升(降)序排列。
度的统计量。
峰度为0表示与正态分布峭度相同。 大于0表示比正态分布陡,为尖峰分布。
小于0表示比正态分布缓,为平峰分布。
1 n 4 4 Kurtosis ( x x ) / S 3 i i 1 n -1
尖顶峰度
正态分布
平顶分布
这里所说的 峰度高、低, 都是与标准 正态分布比 较而言的。
第4章 SPSS基本统计分析
4.1 频数分析 4.2 计算基本描述统计量 4.3 交叉分组下的频数分析 4.4 多选项分析 4.5 比率分析
对数据的基本统计分析通常包括:
编制单个变量的频数分布表 计算单个变量的描述统计量以及不同分 组下的描述统计量 编制多变量的交叉频数分布表,并以此 分析变量之间的关系 数据的多选项分析 其他探索性分析
离散形态的概念
非对称的, 偏斜的分 布
既偏斜又 低平的分 布
异常值的检测
99.73% 95.45%
68.27%