当前位置:文档之家› 第4章spss基本统计分析

第4章spss基本统计分析


对多选项问题分解后,就可以进行频数分析了。 首先应定义多选项变量集,即将多选项问题分解并 设置成多个变量后,指定这些变量为一个集合。只 有通过定义多选项变量集,SPSS才能确定应对那些 变量取相同值的个案数进行累加。(原因p.96) 定义多选项变量集的基本操作:
1.菜单:Analyze→Multiple Response → Define Sets。 2.将进入多选项变量集的变量选择到Variables in Sets中。 3.在Variables Are Coded As中指定多选项变量集中的变量 是按照哪种方法分解的。 4.为多选项变量集命名。 5.单击Add将定义好的多选项变量集加到Mult Response Sets 中。
3 原则认为正态分布中大概有0.3%的异常值,超 过这个标准就认为数据分布不均衡。
zi
xi x
~ N (0,1)
P案例:分析人均住房面积是否存在不均 衡现象。
分析过程: 1、计算人均住房面积的标准化值:Z人均面积; 2、用计数功能找出 Z人均面积 <3的个案,计算 其比例并进行判断。
第4章 SPSS基本统计分析
第4章 SPSS基本统计分析
4.1 4.2 4.3 4.4 4.5 频数分析 计算基本描述统计量 交叉分组下的频数分析 多选项分析 比率分析
§1 频数分析

目的
粗略把握变量值的分布状况。
例: 研究被调查者的特征(如:性别、年龄、收入) 研究被调查者对某个问题的总体看法(如:教学方式、选修课程) 研究被调查者某方面的状态(如:购买家电的类型、居民月支出状况)
三维列联表有层变量
交叉列联表的卡方检验
卡方检验属于假设检验的范畴,有四个步骤: 1、建立零假设( ) H0 列联表分析中卡方检验的零假设为行变量与列变 量独立。 2、选择和计算检验统计量 列联表分析卡方检验的检验统计量是Pearson卡 方统计量,其数学定义为:
2
i 1 j 1 r c
离散趋势分析
①极差:数据最大值减去最小值,最简单的离散程度测度值 ②标准差、方差:最常用的离散程度测侧度值,一般适合于 正态分布资料 ③最小值、最大值 ④标准误:样本平均数的标准差
偏度、峰度测量
①偏度系数:Skew ness ②峰度系数:Kurtosis
计算基本描述统计量的基本操作
步骤: 1.菜单:Analyze→Descriptive → Statistics→ Descriptive 2.将若干频数分析变量选择到Variables框 中
多选项问题的分解
用SPSS进行问卷处理时,单选题可以一个问 题设为一个变量,变量值为该问题的回答。对于 多选项问题由于答案不止一个,和单选题的处理 就不一样了。 解决多选项问题的思路是将问卷中的一道多 选题分解成若干问题,对应设置若干SPSS变量, 分别存放描述这些问题的几个可能被选择的答案。 这样,对一个多选项问题的分析就可以转化成对 多个问题的分析,也就是对多个SPSS变量的分析。
户口
城 镇户 口
农 村户 口
Total
Count % within 户 口 % within 什 么合 算 Count % within 户 口 % within 什 么合 算 Count % within 户 口 % within 什 么合 算
交叉分组下的频数分析
户 口 * 什 么 合 算 Crosstabulation 什 么合 算 买 东西 存钱 113 87 56.5% 43.5% 65.7% 79.1% 59 23 72.0% 28.0% 34.3% 20.9% 172 110 61.0% 39.0% 100.0% 100.0% Total 200 100.0% 70.9% 82 100.0% 29.1% 282 100.0% 100.0%
案例:对人均住房面积计算基本描述统 计量,并分别对本市户口和外地户口家 庭进行比较。
先按照户口状况进行拆分(Split file),然 后再计算基本描述统计量
案例:分析人均住房面积是否存在不均 衡现象。
也就是分析人均住房面积是否有大量异常值。 若人均住房面积(x i)服从正态分布,则:
xi x P{ zi 3} 99.7%
4.1 4.2 4.3 4.4 4.5 频数分析 计算基本描述统计量 交叉分组下的频数分析 多选项分析 比率分析
交叉分组下的频数分析
目的:
通过频数分析能够掌握单个变量的数据分布情 况。实际分析中,不仅要了解单变量的分布特征, 还要分析多个变量不同取值下的分布,掌握多变 量的联合分布特征,进而分析变量之间的相互影 响和关系。
例:学习成绩与性别有关联吗?(两变量) 例:职业、性别、爱逛商店有关联吗?(三变量)
交叉分组下的频数分析 基本任务:
两大基本任务:
第一是 编制交叉列联表 根据收集到的样本数据,产生二维或多维 交叉列联表; 第二在交叉列联表的基础之上,对两两变量间 是否存在一定的相关性进行分析。
交叉分组下的频数分析
户口
城 镇户 口
农 村户 口
Total
Count % within 户 口 % within 什 么合 算 Count % within 户 口 % within 什 么合 算 Count % within 户 口 % within 什 么合 算
这是一张涉及两变量的二维交叉列联表,反映 了不同户口的储户对储蓄是否合算的不同看法。 表中的户口变量称为行变量,什么合算称为列变 量。行标题和列标题分别是两个变量的变量值 (或分组值)。表格中间是观测频数和各种百分 比。
多选项二分法与多选项分类法各有利弊。在高 考志愿的调查中,采用多选项二分法,对变量 V1至 V6作频数分析,就能很方便地分析出各个学校的考 生报考情况,但是不能体现考生志愿的填报顺序信 息;如果采用多选项分类法分解,对变量V1至V3作 频数分析,就能很方便地分析出考生在各个志愿中 的报考学校情况,但不便于分析各个学校的考生报 考情况。 在选择多选项问题的分解方法时,应考虑到具 体问题和具体分析目标,在避免信息丢失的前提下, 减少稀疏数据。
( RT )( CT ) 3、确定显著性水平和临界值 f e 4、结论和决策 n
例:分析本市和外地家庭对“未来三年是否打 算买房”是否持相同的态度。
交叉分组下的频数分析的基本操作
步骤:
1.菜单:Analyze→Descriptive → Statistics→Crosstabs 2.分别选定行变量和列变量。 3.选择Display clustered bar charts,指定绘制各变量 交叉分组下频数分布柱型图。Suppress tables表示不输 出列联表,在仅分析行列变量间关系时可选择。 4.单击Cells,指定列联表单元格中的输出内容。 5.单击Format指定列联表各单元的输出排列顺序。 6.单击Statistics指定用哪种方法分析行变量和列变量之 间的关系。
案例:利用住房状况调查数据,分析被 调查家庭中户主的从业状况、目前所住 房屋的产权情况。
案例:分析人均住房面积的分布情况,并对 本市和外地户口家庭进行比较。 该分析的特点是: ◆涉及的变量是定距型变量 ◆需要分别对本市和外地户口的家庭进行分析 ◆利用频数分析的扩展功能进行分析 分析思路: ◆由于人均住房面积是定距型变量,直接采用频数分 布不利于对其分布形态的把握,因此考虑对数据分组 后再编制频数分布表。 ◆进行数据拆分,分别计算本市和外地家庭的人均住 房面积的四分位数,并通过四分位数比较两者分布上 的差异。
定义多选项变量集完成后,便可进行多选项频 数分析了。 1.菜单:Analyze→Multiple Response → Frequencies。 2.把待分析的变量集选择到Tables For中。 3.指定是否处理缺失数据。SPSS规定,只要样本在 多选项变量集中的某一个变量上取缺失值,分析时 就将该样本剔除。
第4章 SPSS基本统计分析
4.1 4.2 4.3 4.4 4.5 频数分析 计算基本描述统计量 交叉分组下的频数分析 多选项分析 比率分析
基本描述统计量
集中趋势分析:
①均值:一组数据的简单算术平均数或加权算术平均数。适 合于正态分布或对成分布资料;②中位数:将数据排序后位 于正中间的数值。适合于所有分布类型的数据;③众数:出 现频率最高的数。
多选项问题的分解方法
多选项二分法
多选项分类法
多选项二分法
是将多选项问题中的每个答案设为一个SPSS变 量,每个变量只有0或1两个取值,分别表示选择了 该答案和不选择该答案。
例如,高考志愿的调查中,志愿选择有6个答 案,(1)北大;(2)清华;(3)人大;(4) 北京理工;(5)北师大;(6)北外。对应设置6 个SPSS变量,取值为1或0。
交叉列联表的主要内容
编制交叉列连表是交叉分组下频数分析的第一 个任务。交叉列联表是两个或两个以上的变量交 叉分组后形成的频数分布表。
户 口 * 什 么 合 算 Crosstabulation 什 么合 算 买 东西 存钱 113 87 56.5% 43.5% 65.7% 79.1% 59 23 72.0% 28.0% 34.3% 20.9% 172 110 61.0% 39.0% 100.0% 100.0% Total 200 100.0% 70.9% 82 100.0% 29.1% 282 100.0% 100.0%
( f ij0 f ije ) 2 f ije
~ 2 (行数- 1 (列数- ) 1)
交叉列联表的卡方检验
2
i 1 j 1 r c
( f ij0 f ije ) 2 f ije
~ 2 (行数- 1 (列数- ) 1)
其中,r为列联表的行数,c为列联表的列数; e 0 f ij f ij 为观察频数, 为期望频数。期望频数的分布反 映的是行列变量互不相干下的分布。
相关主题