当前位置：文档之家› 第4章spss基本统计分析

第4章spss基本统计分析

对多选项问题分解后，就可以进行频数分析了。首先应定义多选项变量集，即将多选项问题分解并设置成多个变量后，指定这些变量为一个集合。只有通过定义多选项变量集，SPSS才能确定应对那些变量取相同值的个案数进行累加。（原因p.96）定义多选项变量集的基本操作：
1.菜单：Analyze→Multiple Response → Define Sets。 2.将进入多选项变量集的变量选择到Variables in Sets中。 3.在Variables Are Coded As中指定多选项变量集中的变量是按照哪种方法分解的。 4.为多选项变量集命名。 5.单击Add将定义好的多选项变量集加到Mult Response Sets 中。
3 原则认为正态分布中大概有0.3％的异常值，超过这个标准就认为数据分布不均衡。
zi
xi x
~ N (0,1)
P案例：分析人均住房面积是否存在不均衡现象。
分析过程： 1、计算人均住房面积的标准化值：Z人均面积； 2、用计数功能找出 Z人均面积 <3的个案，计算其比例并进行判断。
第4章 SPSS基本统计分析
第4章 SPSS基本统计分析
4.1 4.2 4.3 4.4 4.5 频数分析计算基本描述统计量交叉分组下的频数分析多选项分析比率分析
§1 频数分析

目的
粗略把握变量值的分布状况。
例：研究被调查者的特征（如：性别、年龄、收入）研究被调查者对某个问题的总体看法（如：教学方式、选修课程）研究被调查者某方面的状态（如：购买家电的类型、居民月支出状况）
三维列联表有层变量
交叉列联表的卡方检验
卡方检验属于假设检验的范畴，有四个步骤： 1、建立零假设（） H0 列联表分析中卡方检验的零假设为行变量与列变量独立。 2、选择和计算检验统计量列联表分析卡方检验的检验统计量是Pearson卡方统计量，其数学定义为：
2
i 1 j 1 r c
离散趋势分析
①极差：数据最大值减去最小值，最简单的离散程度测度值 ②标准差、方差：最常用的离散程度测侧度值，一般适合于正态分布资料 ③最小值、最大值 ④标准误：样本平均数的标准差
偏度、峰度测量
①偏度系数：Skew ness ②峰度系数：Kurtosis
计算基本描述统计量的基本操作
步骤： 1.菜单：Analyze→Descriptive → Statistics→ Descriptive 2.将若干频数分析变量选择到Variables框中
多选项问题的分解
用SPSS进行问卷处理时，单选题可以一个问题设为一个变量，变量值为该问题的回答。对于多选项问题由于答案不止一个，和单选题的处理就不一样了。解决多选项问题的思路是将问卷中的一道多选题分解成若干问题，对应设置若干SPSS变量，分别存放描述这些问题的几个可能被选择的答案。这样，对一个多选项问题的分析就可以转化成对多个问题的分析，也就是对多个SPSS变量的分析。
户口
城镇户口
农村户口
Total
Count % within 户口 % within 什么合算 Count % within 户口 % within 什么合算 Count % within 户口 % within 什么合算
交叉分组下的频数分析
户口 * 什么合算 Crosstabulation 什么合算买东西存钱 113 87 56.5% 43.5% 65.7% 79.1% 59 23 72.0% 28.0% 34.3% 20.9% 172 110 61.0% 39.0% 100.0% 100.0% Total 200 100.0% 70.9% 82 100.0% 29.1% 282 100.0% 100.0%
案例：对人均住房面积计算基本描述统计量，并分别对本市户口和外地户口家庭进行比较。
先按照户口状况进行拆分（Split file），然后再计算基本描述统计量
案例：分析人均住房面积是否存在不均衡现象。
也就是分析人均住房面积是否有大量异常值。若人均住房面积（x i）服从正态分布，则：
xi x P{ zi 3} 99.7%
4.1 4.2 4.3 4.4 4.5 频数分析计算基本描述统计量交叉分组下的频数分析多选项分析比率分析
交叉分组下的频数分析
目的:
通过频数分析能够掌握单个变量的数据分布情况。实际分析中，不仅要了解单变量的分布特征，还要分析多个变量不同取值下的分布，掌握多变量的联合分布特征，进而分析变量之间的相互影响和关系。
例：学习成绩与性别有关联吗？(两变量) 例：职业、性别、爱逛商店有关联吗？(三变量)
交叉分组下的频数分析基本任务:
两大基本任务：
第一是编制交叉列联表根据收集到的样本数据，产生二维或多维交叉列联表；第二在交叉列联表的基础之上，对两两变量间是否存在一定的相关性进行分析。
交叉分组下的频数分析
户口
城镇户口
农村户口
Total
Count % within 户口 % within 什么合算 Count % within 户口 % within 什么合算 Count % within 户口 % within 什么合算
这是一张涉及两变量的二维交叉列联表，反映了不同户口的储户对储蓄是否合算的不同看法。表中的户口变量称为行变量，什么合算称为列变量。行标题和列标题分别是两个变量的变量值（或分组值）。表格中间是观测频数和各种百分比。
多选项二分法与多选项分类法各有利弊。在高考志愿的调查中，采用多选项二分法，对变量 V1至 V6作频数分析，就能很方便地分析出各个学校的考生报考情况，但是不能体现考生志愿的填报顺序信息；如果采用多选项分类法分解，对变量V1至V3作频数分析，就能很方便地分析出考生在各个志愿中的报考学校情况，但不便于分析各个学校的考生报考情况。在选择多选项问题的分解方法时，应考虑到具体问题和具体分析目标，在避免信息丢失的前提下，减少稀疏数据。
( RT )( CT ) 3、确定显著性水平和临界值 f e 4、结论和决策 n
例：分析本市和外地家庭对“未来三年是否打算买房”是否持相同的态度。
交叉分组下的频数分析的基本操作
步骤：
1.菜单：Analyze→Descriptive → Statistics→Crosstabs 2.分别选定行变量和列变量。 3.选择Display clustered bar charts，指定绘制各变量交叉分组下频数分布柱型图。Suppress tables表示不输出列联表，在仅分析行列变量间关系时可选择。 4.单击Cells，指定列联表单元格中的输出内容。 5.单击Format指定列联表各单元的输出排列顺序。 6.单击Statistics指定用哪种方法分析行变量和列变量之间的关系。
案例：利用住房状况调查数据，分析被调查家庭中户主的从业状况、目前所住房屋的产权情况。
案例：分析人均住房面积的分布情况，并对本市和外地户口家庭进行比较。该分析的特点是： ◆涉及的变量是定距型变量 ◆需要分别对本市和外地户口的家庭进行分析 ◆利用频数分析的扩展功能进行分析分析思路： ◆由于人均住房面积是定距型变量，直接采用频数分布不利于对其分布形态的把握，因此考虑对数据分组后再编制频数分布表。 ◆进行数据拆分，分别计算本市和外地家庭的人均住房面积的四分位数，并通过四分位数比较两者分布上的差异。
定义多选项变量集完成后，便可进行多选项频数分析了。 1.菜单：Analyze→Multiple Response → Frequencies。 2.把待分析的变量集选择到Tables For中。 3.指定是否处理缺失数据。SPSS规定，只要样本在多选项变量集中的某一个变量上取缺失值，分析时就将该样本剔除。
第4章 SPSS基本统计分析
4.1 4.2 4.3 4.4 4.5 频数分析计算基本描述统计量交叉分组下的频数分析多选项分析比率分析
基本描述统计量
集中趋势分析：
①均值：一组数据的简单算术平均数或加权算术平均数。适合于正态分布或对成分布资料；②中位数：将数据排序后位于正中间的数值。适合于所有分布类型的数据；③众数：出现频率最高的数。
多选项问题的分解方法
多选项二分法
多选项分类法
多选项二分法
是将多选项问题中的每个答案设为一个SPSS变量，每个变量只有0或1两个取值，分别表示选择了该答案和不选择该答案。
例如，高考志愿的调查中，志愿选择有6个答案，（1）北大；（2）清华；（3）人大；（4）北京理工；（5）北师大；（6）北外。对应设置6 个SPSS变量，取值为1或0。
交叉列联表的主要内容
编制交叉列连表是交叉分组下频数分析的第一个任务。交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。
户口 * 什么合算 Crosstabulation 什么合算买东西存钱 113 87 56.5% 43.5% 65.7% 79.1% 59 23 72.0% 28.0% 34.3% 20.9% 172 110 61.0% 39.0% 100.0% 100.0% Total 200 100.0% 70.9% 82 100.0% 29.1% 282 100.0% 100.0%
( f ij0 f ije ) 2 f ije
~ 2 (行数－ 1 （列数－ ) 1）
交叉列联表的卡方检验
2
i 1 j 1 r c
( f ij0 f ije ) 2 f ije
~ 2 (行数－ 1 （列数－ ) 1）
其中，r为列联表的行数，c为列联表的列数； e 0 f ij f ij 为观察频数，为期望频数。期望频数的分布反映的是行列变量互不相干下的分布。

e商务文档

第4章spss基本统计分析

相关文档推荐：