当前位置：文档之家› SPSS数据的基本统计分析

SPSS数据的基本统计分析

目标二的分析思路：

分析储户一次存（取）款金额的数量是否存在不均衡现象，可以从分析金额是否有大量的异常值入手。
一般而言，若储户存取款金额服从正态分布，那么根据3σ准则（3个标准差准则），异常值通常为3个标准差之外的变量值。可通过数据的标准化处理来判断。（先标准化，再依据标准化值分组，后用频数分析）

（3）点击‘选项’按钮，做二级对话框设置
（4）选中右下角‘标准化得分保存为变量’可将数据标准化后的取值保存到数据文档中。
对数据标准化 Zi i ，并作为新变量保存在文件中。
x u
案例分析：居民储蓄调查数据
目标一：计算存（取）款金额的基本描述统计量，并分别对城镇储户和农村储户进行比较；
SPSS中列联表分析的其他方法—两定序变量
案例分析：分析储户收入水平和对物价水平看法的相关性分析。
定序变量相关性检验的方法有：Gamma系数、Somres’d 系数、Kendall’s tau-b系数、 Kendall’s tauc系数、Gamma系数。一般认为系数绝对值越接近1,表明行列变量有较强的相关关系；越接近0，表明行列变量相关性越弱。其中， Kendall’s tau-b系数通常适用于‘方形列联表’； Kendall’s tau-c系数通常用于‘任意格数的列联表’； Gamma系数通常用于2×2的列联表。本例运用Kendall’s tau-c系数进行检验得到的统计量0.137，转换后的系数近似服从T分布，最后得到 sig值0.003，可看出：在5%的水平下，储户收入水平和对物价水平的看法是有关系的，只是关系相对较弱。
SPSS中列联表分析的其他方法—两定类变量
案例分析：分析城镇和农村储户‘对储蓄是否合算’的认同是否一致。
从检验结果表看来，Phi系数（ψ）、Cramer’ V系数、（列联系数Contingency coefficient）相依系数绝对值越接近1,表明行列变量有较强的相关关系；越接近0，表明行列变量相关性越弱。零假设：行列变量独立的假设（城镇和农村储户对未来收入的看法是一致的）。备择假设：二者不一致。统计量0.040，sig值0.478，可看出：在5%的水平下，城镇和农村储户对储蓄是否合算的看法是一致的。
交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。程序：分析（analyze）-描述统计（descriptive statistics）交叉表（cross table）
行变量（自变量）的选取列变量（因变量）的选取
相关统计量的计算
输出表格的形式
表格排列顺序
分层变量（控制变量）的选取
显示每组变量的条形分类图不输出列联表
计算r和rs系数. 相关性检验
定类变量
定序变量
G相关
λ
类－距
一致性检验。（行列变量的数目相同）当Kappa≥0.75时，表明两者一致性较好； 0.75>Kappa ≥0.4时，表明一致性一般； Kappa<0.4时，表明两者一致性较差。
E系数
得到相对风险测评的OR值选中进行配对卡方检验进行分层卡方检验
待分析变量
选择统计量选择图表
源变量框
选择输出格式
要求输出频数分析表格
• 制作频数分布表（频数、百分比）：以表格形式呈现各个数据的次数分布情况，包括频数、百分比，有效百分比、累计百分比。
百分位数选项
第25、50、 75个百分位数点对应的变量值
把数值平均分为n份，每个等分位点对应的变量值（2≤n≤100）
2.基本描述性统计分析
基本的描述性统计量大致有三类：一是刻画集中趋势的描述统计量；二是刻画离散程度的描述统计量；三是刻画分布形态的描述统计量。通过以上三类统计量能较为准确地把握数据的分布特点。
基本的描述统计分析过程：（1）程序：分析（analyze）-描述统计（descriptive statistics） -描述（descriptive）（2）选择要描述的一个或多个数值型变量
离散趋势
Dispersion（一组数据远离其‘中心值’的程度）
定类定序定距定比
众数Mode 中位数Median 均值Mean
异众比率V 四分位差Quartiles 全距 Range 方差 Variance 标准差Std.deviant
均值
= 中位数
= 众数
对称分布
众数
均值中位数众数
中位数
从频数分析可得，低异常组占比0%，高异常组占比2.6%。一般认为异常组的总比例大于理论值0.3%，可以认为存取款金额存在一定的不均衡现象。
3.交叉分组下的频数分析—列联表分析
交叉分组下的频数分析又称为列联表分析。主要包括两大基本任务：一是根据收集到样本数据产生交叉列联表；二是在交叉列联表的基础上，对两两变量间是否存在一定的相关性进行分析。
集中趋势测量
指定输出多个百分位数
对于分组数据，计算百分位数值和中位数时，用各组的组中值代表各组数据。
离散趋势测量
数据分布形态的偏斜度和方向数据分布形态的陡缓程度
分位数是变量在不同分位点上的取值，从一个侧面清楚地刻画了变量的取值分布状态。分位数差是一种描述数据离散程度的方式。分位数差越大，表示数据在相应分位段上的离散程度越大。
总体而言，较大部分储户认为未来收入会基本不变且认为收入会增加的比例高于会减少的比例；城镇储户认为收入会增加的比例高于会减少的比例，但农村储户认为收入会增加的比例低于会减少的比例。可见，城镇和农村储户对’法’的一致性检验结果
卡方检验的零假设：城镇和农村储户对未来收入的看法是一致的。备择假设：二者不一致。从本例的统计量15.819，sig值0.000，可看出：在5%的水平下，城镇和农村储户对未来收入的看法是不一致的。注意：当样本数较大时，似然比卡方与Pearson卡方非常接近，检验结论通常是一致的。线性相关卡方是检验列联表中行列变量的线性相关性，零假设是行列变量零相关，只适用于定序变量，不能用于定类型变量。
SPSS基本统计分析
单变量的频数分析
单变量的基本描述统计量的计算多变量的交叉频数表的编制和分析
探索性分析
数据的多选项分析
1.频数分析
通过频数分析能够了解变量取值的状况，把握数据的分布特征，能反映样本是否具有总体代表性，抽样是否存在系统偏差等。频数分布分析过程（1）程序：分析（analyze）-描述统计（descriptive）-频数（frequency）（2）选择一个或多个频数分析变量放进‘变量’框中（3）选中右下角‘显示频数表格’ （4）点击‘统计量’、‘图表’、‘格式’依次进行设置
案例分析：居民储蓄调查数据
目标一：分析储户的户口和职业的基本情况；
目标二：分析储户一次存（取）款金额的分布，并对城镇储户和农村储户进行分析比较。
目标一：被调查者的户口和职业情况的频数分布表和统计图
目标二：分析储户一次存（取）款金额的分布，并对城镇储户和农村储户进行分析比较。
分析思路：
目标二的分析结果
从交叉列联表看来，无论是城镇储户还是农村储户均认为‘买东西’比‘存钱’合算。卡方检验的统计量0.504，sig值0.478，可看出：在5%的水平下，城镇和农村储户对储蓄是否合算的看法是一致的。对于2×2列联表中行列变量关系的检验，SPSS除用Pearson统计量进行检验之外，还采用了连续性校正和Fisher检验方法。在小样本时可主要参考连续性校正和Fisher检验的结果。
目标二：分析储户一次存（取）款金额的数量是否存在
不均衡现象。
目标一的分析结果：
城镇储户的平均存取款金额（2687.2）高于农村储户（1944.97）；从标准差及全距可看出，城镇储户存取款金额的离散程度低于农村储户。从峰度和偏度看来，城镇和农村储户存取款金额的分布均呈现右偏和尖峰分布，只是农村储户右偏斜程度及尖峰程度更大；总体而言，城镇储户和农村储户中的大部分人一次存取款金额都低于平均水平，且农村储户表现得更为明显。
由于存（取）款金额属于定距型变量，直接采用频数分析不利于对分布形态的把握。运用数据预处理中的‘数据分组’功能对数据分组后再编制频数分布表。如：将（取）款金额重新分成5 组：少于500元、500-2000、2000-3500、3500-5000、5000以上。

对比城镇储户和农村储户情况，可采用数据预处理中的‘数据拆分’并计算样本存（取）款金额的四分位数、峰度、偏度等。
储户一次存（取）款金额的分布情况：
被调查者有近一半的储户一次存取款金额在500元以下，2000-3500元的最少。从图形看来，储户的存（取）款金额呈明显的右偏分布，即一次存取款金额偏低的占较大比例，也有少数金额偏高的储户。
城镇和农村居民储户一次存（取）款金额的比较：
从均值以及四分位数差可以看出城镇储户存取款金额的离散度大于农村储户（尤其在高金额区），且城镇储户的存取款金额高于农村储户。

峰度（Kurtosis) : 是描述某变量所有取值的分布形态陡缓程度的统计量，而峰度对陡缓程度的度量是与正态分布进行比较的结果。如果峰度等于0 ，其数据分布的陡缓程度与正态分布相同；峰度大于0，其数据分布比正态分布更陡峭；峰度小于0，其数据分布比正态分布更平坦。偏度（Skewness)：是描述数据分布对称性的统计量，而且也是与正态分布的对称性相比较而得到的。如果分布的偏度等于0 ，则其数据分布的对称性与正态分布相同；如果偏度大于0，则其分布为正偏或右偏；如果偏度小于0，则为负偏或左偏。不同等级的变量描述性指标
相关分析的概念测量级别类-类 (类-序) 序-序类\序-距 (≥3) 相关系数 λ G/ rs E/E2 取值范围 [0.1] [-1.1] [0.1] PRE意义 λ G/rs2 E2 检验方法 χ2 T检验 F检验

e商务文档

SPSS数据的基本统计分析

相关文档推荐：