当前位置:
文档之家› 第4章 SPSS基本统计分析
第4章 SPSS基本统计分析
集 中 趋 势 栏
离散趋势
分布形态栏
输出统计量对话框
案例:分析人均住房面积的分布情况,并对本 市户口和外地户口家庭进行比较
展示所有样本的四分位数:在变量【variable(s)】中
选择“人均面积”,在【statistics】中选择四分位数 【quartiles】即可。
按“户口状况”对数据进行拆分,然后分类比较人均住
⑷按【format】,可以调整频数分布表中数据的输出顺 序,这里选择频数的降序【descending counts】。 累计
变 量值
频 数
百分 比
此外,在SPSS输出窗口中用鼠标双击待编辑的图形,会 出出现【chart editor】图形编辑窗口。例如在 【elements】选择【show data lables】,可以在图中显示 频数数据。
SPSS提供了计算任意分位数的功能,用户可以指定将 数据等分为n份(Cut points for n equal groups)。 还可以直接指定分位点(Percentile)。
四分位差(也称内距或四分位距)
它是上四分位数(QU,即位于75%)与下四分位数(
QL,即位于25%)。计算公式为:Qd =QU-QL 四分位差反映了中间50%数据的离散程度,其数值越 小,说明中间的数据越集中;其数值越大,说明中间 的数据越分散。
结果一:人均住房面积频数分布表
结果二:分组后人均住房面积直方图
扩展二
计算分位数
分位数是变量在不同分位点上的取值。分位点在0- 100之间。
一般使用较多的是四分位点(Quartiles),即将所有数 据按升序排序后平均等分成四份,各分位点依次是25 %,50%,75%。于是四分位数便分别是25%,50% ,75%点所对应的变量值。此外,还有八分位数、十 六分位数等。
房面积的分位数。 操作:先使用【data】中【 split file】按“户口状况” 进行拆分,再选择【analyze】→【descriptive statistics】→ 【frequercies】,选择“人均面积”,并仅在【statistics】 中选择四分位数【quartiles】即可。
4.2计算基本描述统计量 ——对定距数据分布的精确认识
4.1 4.2 4.3 4.4 4.5
频数分析 计算基本描述统计量 交叉分组下的频数分析 多选项分析 比率分析
学习目标及内容:
掌握SPSS频数分析的基本方法及其操作 明确基本描述统计量的含义,并掌握其操作
掌握交叉列联分析的基本方法,了解卡方检验的基本 思想,并熟练操作 掌握对多选项问题的不同拆分方法和应用场合,并能 用于数据分析
1 n 3 3 Skewness ( xi x) / S n 1 i 1
当分布为对称分布时,正负总偏差相等,偏 度值等于0; 当分布为不对称分布时,正负总偏差不相等,偏度 值大于0或小于0。 偏度值大于0表示正偏差值大,称为正偏或右偏; 偏度值小于0表示负偏差值大,称为负偏或左偏. 偏度绝对值越大,表示数据分布形态的偏斜程度越 偏大。
(2) 任务二是绘制统计图 ①柱形图或条形图(bar chart) 条形图用横坐标的长短表示频数(百分比)的变化, 柱形图用纵坐标的高度表示频数(百分比),如下图 。 适合于定序和定类变量;
②饼图(pie chart):用圆形或扇形的面积表示频数、 百分比的变化。
③直方图(histograms):用矩形的面积表示频数分布变 化的图形,适用于定距性变量的分析。可以附加正态 分布曲线。
常见的刻画离散程度的描述统计量如下: (1)全距(Range):也称极差,是数据的最大值 (Maximum)与最小值(Minimum)之间的绝对 离差。 (2)样本方差(Variance):也是表示变量取值离 散程度的统计量,是各变量值与算术平均数离差平 方的算术平均数。其计算公式为:
1 2 S ( xi x) n 1 i 1
案例二:利用住房状况数据,分析人均住房面积 是否存在不均衡的现象
人均住房面积是否均衡,可以从人均住房面积是否 有大量的异常值入手。假设人均住房面积的总体分布 为正态分布,根据统计学中的3σ准则,异常值指在3 个标准差之外的变量值。
xi x P{ zi 3} 99.7%
3 原则认为正态分布中大概有0.3%的异常值,超 过这个标准就认为数据分布不均衡。
目的:精确把握变量的总体分布状况,了解数据的集 中趋势、离散趋势、对称程度、陡峭程度。 常见的基本描述统计量有三大类:
刻画集中趋势的统计量 刻画离散程度的统计量 刻画分布形态的统计量
4.2.1 基本描述统计量
一、刻画集中趋势的描述统计量 集中趋势是指一组数据向某一中心值靠拢的倾 向。 (1)均值(Mean):即算术平均数,是反映某变量 所有取值的集中趋势或平均水平的指标。如某企业 职工的平均月收入。其计算公式为:
操作:运用前面介绍的分组操作按“人均面积”将住房 分成1、2、3、4组,并赋给变量值,如1为人均住房 “小于10平方米”„ 【transform】→【recode into different variables】 然后选择频数分析【analyze】→【descriptive statistics】 → 【frequercies】,采用“分组后的人均面积”作 为计算频数的变量。在【charts】中使用直方图 histograms,带正态曲线with normal curve;
zi
xi x
~ N (0,1)
计算人均住房面积标准化值的操作:
【analyze】→【descriptive statistics】→ 【descriptives】→【save standardized values as variables】 SPSS会自动生成一个变量名存放人均住房面积的标准 化值“Z人均面积” 然后分别使用排序【sort by】(可以观察到异常值)、 分组【recode into different variables】、频数分析 功能
1 n x xi n i 1
(2)中位数(Median):即一组数据按升序排序后,处于中间 位置上的数据值。如评价社会的老龄化程度时,可用中位数 。 (3)众数(Mode):即一组数据中出现次数最多的数据值。如 生产鞋的厂商在制定各种型号鞋的生产计划时应该运用众数 。 (4)均值标准误差(Standard Error of Mean):描述样本均值 与总体均值之间的平均差异程度的统计量。其计算公式为:
数据分布特征和描述统计量
4.2.2计算基本描述统计量的应用举例 案例一:按户口状况对“人均住房面积”计 算基本描述统计量,并分别对本市户口和外 地户口家庭进行比较。 【analyze】→【descriptive statistics】→ 【descriptives】,在【variables】框中选“人 均面积”,再按【options】,从中选择需要 的特征描述。
(2)峰度(Kurtosis):描述变量取值分布形态陡峭程 度的统计量。其计算公式为:
1 n 4 4 Kurtosis ( xi x) / S 3 n 1 i 1
当数据分布与标准正态分布的陡峭程度相同时,峰 度值等于0; 峰度大于0表示数据的分布比标准正态分布更陡峭,为 尖峰分布; 峰度小于0表示数据的分布比标准正态分布平缓,为平 峰分布。
4.1频数分析
4.1.1频数分析的目的和基本任务
1、目的:基本统计分析往往从频数分析开始。通过频数分 析能够了解变量取值的状况,对把握数据的分布特征是非 常有用的。 2、基本任务 (1)频数分析的第一个基本任务是编制频数分布表。 频数(Frequency):即变量值落在某个区间(或某个 类别)中的次数 百分比(Percent):即各频数占总样本数的百分比 有效百分比(Valid Percent):即各频数占有效样本数 的百分比,这里有效样本数=总样本-缺失样本数 累计百分比(Cumulative Percent):即各百分比逐级 累加起来的结果。最终取值为1。
4.1.3 SPSS频数分析的扩展功能
按【statistics】还可以计算其他重要的统计量,如计 算分位数percentile values、以及反映集中趋势和 离散程度的统计量。这些扩展分析较适合于定距型变 量。 扩展一
定距型变量的频数分析 例如:分析 “人均住房面积”的分布情况
由于“人均面积”属于定距型变量,需要进行分组后, 才能进行频数分析。
问题:分析户主的从业状况和房屋产权情况 操作: ⑴选择【analyze】→【descriptive statistics】→ 【frequercies】
4.1.2频数分析的应用举例(住房状况调 查)
⑵再选择频数分析变量,即“从业状况”、“房屋产权” 到【varable(s)】框中 ⑶按【charts】选统计图形,在【chart values】中选择坐标 的含义(柱形、饼图),其中【frequencies】表示频数, 【percentages】表示百分比。
职 称* 文 化 程 度Crosstabulation 文 化 程 度 本 科 职 称 高 级 工 程 师 Count % within 职 称 % within 文 化 程 度 % of Total Count % within 职 称 % within 文 化 程 度 % of Total Count % within 职 称 % within 文 化 程 度 % of Total Count % within 职 称 % within 文 化 程 度 % of Total Count % within 职 称 % within 文 化 程 度 % of Total 1 33.3% 25.0% 6.3% 1 25.0% 25.0% 6.3% 2 33.3% 50.0% 12.5% 0 .0% .0% .0% 4 25.0% 100.0% 25.0% 专 科 1 33.3% 25.0% 6.3% 3 75.0% 75.0% 18.8% 0 .0% .0% .0% 0 .0% .0% .0% 4 25.0% 100.0% 25.0% 高 中 1 33.3% 20.0% 6.3% 0 .0% .0% .0% 1 16.7% 20.0% 6.3% 3 100.0% 60.0% 18.8% 5 31.3% 100.0% 31.3% 初 中 0 .0% .0% .0% 0 .0% .0% .0% 3 50.0% 100.0% 18.8% 0 .0% .0% .0% 3 18.8% 100.0% 18.8% Total 3 100.0% 18.8% 18.8% 4 100.0% 25.0% 25.0% 6 100.0% 37.5% 37.5% 3 100.0% 18.8% 18.8% 16 100.0% 100.0% 100.0%