SPSS数据描述
• 分析不同职业的存款目的:居民储蓄调查数 据.sav
• 调用此过程可对变量进行更为深入详尽的 描述性统计分析,故称之为探索性统计。 它在一般描述性统计指标的基础上,增加 有关数据其他特征的文字与图形描述,显 得更加细致与全面,有助于用户思考对数 据进行进一步分析的方案。
五、交叉分析下的频数分析 (Crosstabs过程) • 调用此过程可进行计数资料和某些等级资 料的列联表分析,在分析中,可对二维至n 维列联表(RC表)资料进行统计描述和χ2 检验,并计算相应的百分数指标。
Valid
2.5~ 3.0 3.0~ 3.5 3.5~ 4 4~ 4.5 4.5~ 5 5~ 5.5 5.5~ 6 6~ 6.5 9.00 7~ 7.5 Total
胆 醇 固 1
25
20
Frequency
15
10
5
0 2.5~ 3.0 3.0~ 3.5 3.5~ 4 4~ 4.5 4.5~ 5 5~ 5.5 5.5~ 6 6~ 6.5 9.00 7~ 7.5
3)SPSS频数分析过程 • 例1 某地101例健康男子血清总胆固醇值测定结 果,(数据 胆固醇.sav);请绘制频数表、直方图;计 算均数、标准差、变异系数、中位数M ;
操作步骤: • 排序(data---sort cases-ascending) • 重新分组(分为10组,2.5为起点,0.5为组距 transform---record---range---add--) • 频数分析(调用Frequencies)
二、频数分析(Frequencies过程)
1)主要功能:调用此过程可进行频数分布表的分 析。频数分布表是描述性统计中最常用的方法之一, 能够粗略把握变量的总体分布状况。它特别适合于 对定类变量进行统计描述,此外还可对数据的分布 趋势进行初步分析。 2)频数分析中常用的统计指标:频数、频率、累 计频数、累计频率、众数常用的统计图形包括: 条形图(简称条图)和圆形图(简称饼图) –适用于定类、定序、定距类型数据
2)离散趋势分析 • ①极差:数据最大值减去最小值,最简单 的离散程度测度值 • ②标准差、方差:最常用的离散程度测侧 度值,一般适合于正态分布资料 • ③最小值、最大值 • ④标准误:样本平均数的标准差
3)分布形状分析
• ①偏度系数:Skew ness,当分布对称时,偏度 系数为0。当偏度系数为正值,可以判断为右偏 (正偏),反之,判断为左偏(负偏)。 • • ②峰度系数:Kurtosis ,是对数据分布平峰或尖 峰程度的测度。峰度是针对标准正态分布而言的。 峰度系数为0,表明数据为标准正态分布。若峰度 系数大于0,则数据为尖峰分布;反之为平峰分布。
交叉分组下的频数分析
七、图形功能介绍
• Employee. data
$140,000
29
$120,000
32 343
$100,000
18
446
Current Salary
$80,000
218
$60,000
341
242
$40,000
1197 447 234 409
19
16
$20,000
$0
作业(一)
•
变异系数用手计算
胆 醇 固 1 Frequency 1 9 8 25 24 17 9 6 1 1 101 Percent 1.0 8.9 7.9 24.8 23.8 16.8 8.9 5.9 1.0 1.0 100.0 Valid Percent 1.0 8.9 7.9 24.8 23.8 16.8 8.9 5.9 1.0 1.0 100.0 Cumulative Percent 1.0 9.9 17.8 42.6 66.3 83.2 92.1 98.0 99.0 100.0
例3:多选项应用分析(居民储蓄调查数据.sav)
分析目的:
1)分析储户的储蓄目的 2)分析不同年龄段储户的储蓄目的 操lyze---Multiple Response---Define Sets
2) Analyze---Multiple Response---Frequencies 3)交叉分组下的频数分析 Analyze---Multiple Response---Crosstabs
三、统计描述(Descriptives过程)
• 调用此过程可对变量进行描述性统计分析,计算并列 出一系列相应的统计指标,且可将原始数据转换成标 准Z分值并存入数据库,所谓Z分值是指某原始数值 比其均值高或低多少个标准差单位,高的为正值,低 的为负值,相等的为零。 • 主要针对连续性资料,可以计算一系列描述统计量。 • 可以将变量的原始数据标准化并以变量的形式保存。
4)统计图形分析:直方图、饼图、茎叶图、箱线图等
•
上述几种图形是描述统计分析过程中 常用的几种图形,是用于观察数据的分布 形态的辅助工具。
5)菜单介绍: • 1、frequencies 过程:生成频数分布表,适合于 定性资料,以及部分定量资料。 • 2、descriptive:进行一般的描述统计分析,包 括集中趋势值,离散趋势值,偏度系数,峰度系 数等。适合服从正态分布的定量资料。使用频率 最高。 • 3、Explore:适合于数据分布状况不清时的探索 性数据分析。 • 4、ratio:对两个连续性变量计算相对指标。
综合频数分析结果
• • • • • • • • • • • • • • • • • Group $x mudi Pct of Pct of Category label Code Count Responses Cases 买高档消费品 1 51 5.7 17.1 结婚用 2 65 7.3 21.8 正常生活零用 3 209 23.4 70.1 做生意 4 47 5.3 15.8 购买农业生产资料 5 25 2.8 8.4 买证券及单位集资 6 18 2.0 6.0 买房或建房 7 107 12.0 35.9 支付孩子教育费 8 91 10.2 30.5 养老金 9 95 10.6 31.9 防以外事故 10 137 15.3 46.0 得利息 11 49 5.5 16.4 ------- ----- ----Total responses 894 100.0 300.0 1 missing cases; 298 valid cases
数据特征的测度
1)集中趋势
众 数
中位数
2)离散程度
异众比率 四分位差 方差和标准差
3)分布的形状 偏 态
均值
离散系数
峰 态
1)集中趋势分析:
①众数:出现频率最高的数 ②中位数:将数据排序后位于正中间的数值。适合 于所有分布类型的数据 ③分位数:四分位数、中位数、百分位数。理解分 位数的含义。 ④均值:一组数据的简单算术平均数或加权算术平 均数。适合于正态分布或对成分布资料。 ⑤几何平均数:算术平均数的变形,专门用来处理 特殊数据的平均数,如发展速度 ⑥调和平均数:算术平均数的一种变形。
3σ原则(变量的均衡性分析)
• 异常值:3个标准差之外的变量值,可通过标准 化处理来判断 • 标准化的定义: zi ( xi X ) / S
• 新变量Zdgch • 将Zdgch分为3组,1) Zdgch≤-3σ低胆固醇组; 2) -3σ < Zdgch <3σ 中胆固醇组; 3) Zdgch >3σ高胆固醇组 • 1)与3)组的比例高于理论值,则认为存在不均衡性
Employee. data
• 要求: • 1 了解企业员工按性别分组的频数分布 • 2 计算员工的周岁年龄,并分成老、中、青三组, 用条图表现不同年龄组员工的频数分布 • 3 显示员工受教育年数、起始工资、当前工资、 周岁年龄的各项描述统计指标; • 4 对员工的current salary(当前工资)做探索性 分析,按性别(gender)进行分类统计,对描述 的结果进行解释。
例2 某地101例健康男子血清总胆固醇值测定结果, (数据 胆固醇.sav);请计算均数、标准差、变异系数、 中位数M ;
①
操作要求:(调用Descriptives程序)
选Save standardized values as variables项,对原 始数据标准化 对输出结果进行分析
四、探索分析(Explore过程)
一、 描述性统计概述
描述统计学——研究如何把数据用于理解的形式 展示出来,其结果可以是表格、图形或者数值 描述统计分析是推断统计分析的基础。 • • • • • SPSS用少量的数字进行基本的描述性分析 定类变量的描述统计 定序变量的描述统计 定距/定比变量的描述统计 多选题问题的描述统计
1、描述统计分析的基本内容