当前位置:文档之家› 数据分析方法及软件应用 -- 基本统计分析

数据分析方法及软件应用 -- 基本统计分析

表; • (2) 频数分析的第二个任务是绘制统计图:条形
图、饼图、直方图。
2) 频数分析的基本操作
• (1) 选择菜单分析Analyze——描述统计 Descriptive Statistics——频率Frequencies。
• (2) 将若干频数分析变量选择到变量Variable(s) 框中。
• (3) 单击图表Chart按钮选择绘制统计图形,在 图表值Chart Values框中选择条形图中纵坐标 (或饼图中扇形面积)的含义,其中 Frequencies表示频数;Percentages表示百分比。
.0%
6.3%
18.8%
37.5%
无 技 术职 称
Count % w ithin 职 称 % w ithin 文 化 程度
0 .0%
观测
0 .0%
.0% 频数 .0%
3 100.0%
条件
0 .0%
60.0% 分布 .0%
3 100.0%
18.8%
% of Total
.0%
.0%
18.8%
.0%
18.8%
• 基本描述统计量 • 基本描述统计量的基本操作 • 基本描述统计量的应用举例
4.2.1 基本描述统计量
• 常见的基本描述统计量有三大类:
• 刻画集中趋势的统计量 • 刻画离散程度的统计量 • 刻画分布形态的统计量
上节频数分析中 -- 统计量对话框
栏集 中 趋 势
离散趋势
分布形态栏
2) 基本描述统计量的操作
• 利用居民储蓄调查数据进行频数分析,有以下 两个分析目标:
• 目标一:分析储户的户口和职业的基本情况。 • 目标二:分析储户一次存款金额的分布,并对
城镇储户和农村储户进行比较。
目标一:分析储户的户口和职业的基本情况
(1)户口和职业两个变量都是定类变量,可通过基本频 数分析实现。 (2)职业变量的取值(分类)数目较多,为使频数分布 表更一目了然,应对内容的输出顺序进行调整,单击格式 Format按钮,选择Descending counts按频数的降序输出。 (3)单击图形Chart按钮指定输出户口变量的饼图和职业 变量的条形图。
(2)利用SPSS的频数分析计算所有样本的存 (取)款金额的四分位数;然后,按照户口类型 对数据进行拆分(Split file)并重新计算分位数, 分别得到城镇户口和农村户口的存(取)款金额 的四分位数。
• 居民储蓄调查数据.sav
存款金额分布-数据分组操作
分组结果
存款金额分布-频数分布操作
存款金额分布-输出结果
• 问题:分析乘客的性别、年龄、职业、家庭收 入等因素对其选择三条路径的影响。
• 问题的一般化
1) 目的和基本任务
1、目的:交叉分组下的频数分析又称列联表分析。 通过前面的频数分析能够掌握单个变量的数据分 布情况,在实际分析中,不仅要了解单个变量的 分布特征,还要分析多个变量不同取值下的分布, 进而分析变量之间的相互影响和关系。对于这种 涉及两个或两个以上变量分布情况的研究通常要 利用交叉分组下的频数分析来完成。
数据加工(职工数据).sav
(输出)统计量对话框
输出百分位数:
•输出四分位数,显示25%、50%、
75%的百分位数;

•将数据平均分为所设定的相等等 份,可输入2—100 的整数,如键 入4则输出第25、50、75百分位数
中 趋
•自定义百分位数,可输入0—100

的整数。

离散趋势 分布形态栏
3) 频数分析的应用举例
2.4.1 频数分析
• 频数分析的目的和基本任务 • 频数分析的基本操作 • 频数分析的应用举例
1) 频数分析的目的和基本任务
1、目的:基本统计分析往往从频数分析开始。通 过频数分析能够了解变量取值的状况,对把握数 据的分布特征是非常有用的。
2、基本任务 • (1) 频数分析的第一个基本任务是编制频数分布
(4) 结论和决策
• 对统计推断做决策通常有两种方式:
• 根据统计量观测值和临界值比较的结果进行决策。 如果卡方观测值大于临界值,则认为实际分布与期 望分布之间的差距显著,可以拒绝原假设,断定列 联表的行列变量间不独立,存在相关关系;反之, 接受原假设。
• 那么,在统计上,卡方统计量观测值究竟大到什么程度 才足够大,才能断定行列变量不独立呢?这就需要依据 一个理论分布。由于该检验中的Pearson卡方统计量近 似服从卡方分布,因此可依据卡方理论分布找到某自由 度和显著性水平下的卡方值,即卡方临界值。
(3) 确定显著性水平和临界值
• 显著性水平(Significant Level) 是指原假设为真 却将其拒绝的风险,即弃真的概率。通常设为 0.05或0.01。在卡方检验中,由于卡方统计量服 从自由度为(行数-1)×(列数-1)的卡方分布, 因此,在行列数目和显著性水平确定时,卡方 临界值是可唯一确定的。
33.3% 25.0%
6.3%分比 6.3%
1
3
33.3%
.0%
20.0% 列百 .0%
6.3%
.0%
0 分比 0
100.0% 18.8% 18.8% 4

标 题
助 理 工程 师
% w ithin 职 称 % w ithin 文 化 程度 % of Total Count % w ithin 职 称 % w ithin 文 化 程度
数据拆分操作
输出结果
2.4.3 交叉分组下的频数分析
• 目的和任务 • 交叉列联表的主要内容 • 交叉列联表行列变量间关系的分析 • 基本操作 • 应用举例 • SPSS中列联表分析的其他方法
问题描述
• 假定从A地铁站到B地铁站共有三条路径可以选 择,三条路径的行车时间、等待时间和换乘次 数有所差异。
Total
Count
4
4
5
3
16
% w ithin 职 称
25.0%
25.0%
31.3%
18.8% 100.0%
% w ithin 文 化 程度 100.0% 100.0% 100.0% 100.0% 100.0%
% of Total
25.0%
25.0%
31.3%
18.8% 100.0%
列边缘分布
三 维 交 叉
(1) 选择菜单分析Analyze——描述统计 Descriptive Statistics——描述Descriptives,出现如 下窗口:
基本统计量
分布
当Variables框中有多个变量 时,此框确定其输出顺序: • 按Variables框中的排列
顺序输出 • 按各变量的字母顺序输
出 • 按均值的升序排列 • 按均值的降序排列
选项对话框
3) 应用举例
1. 利用居民储蓄调查数据,对一次存款金额变量 计算基本描述统计量。有以下分析目标:计算存 款金额的基本描述统计量,并分别对城镇储户和 农村储户进行比较 • 分析:首先按照户口对数据进行拆分(Split
file),然后计算存(取)款金额的基本描述统 计量。
• 居民储蓄调查数据.sav
• 2、基本任务:
• 1)根据收集到的样本数据,产生二维或多维交叉列 联表;
• 2)在交叉列联表的基础上,对两两变量间是否存在 一定的相关性进行分析。
2) 交叉列联表的主要内容
• 编制交叉列联表是交叉分组下频数分析的第一 个任务。交叉列联表是两个或两个以上的变量 交叉分组后形成的频数分布表。
• 例:职工基本情况数据按职称和文化程度编制 的二维交叉列联表(见下页表):
• 期望频数的分布与总体分布一致。也就是说,期望频数 的分布反映的是行列变量互不相干下的分布,说明了行
列变量间的关系是相互独立的。
• 卡方统计量观测值的大小取决于两个因素:第一,列联 表的单元格子数;第二,观测频数与期望频数的总差值。 在列联表确定的情况下,卡方统计量观测值的大小仅取 决于观测频数与期望频数的总差值。当总差值越大时, 卡方值也就越大,实际分布与期望分布的差距越大,表 明行列变量之间可能越相关;反之,当总差值越小时, 卡方值也就越小,实际分布与期望分布越接近,表明行 列变量之间可能越独立。
25%:31.3%:18.8%,如果遵从这种学历的总体比例 关系,高级职称3人的学历分布也应为25%:25%: 31.3%:18.8%,于是期望频数分别为:3×25%、 3×25%、3×31.3%、3×18.8% 。同理还可以理解为:总 共16个职工的职称分布是:18.8% 、 25.0% 、37.5%、 18.8%,如果遵从这种职称的总体比例关系,本科学历 4人的职称分布也应为18.8% 、 25.0% 、37.5%、 18.8%于是期望频数分别为4×18.8% 、4×25.0% 、 4×37.5%、4×18.8%。
存款金额城乡比较-数据拆分操作
• 居民储蓄调查数据.sav
存款金额城乡比较 -- 四分位数操作
数据拆分结果:数据按户口进行了排序,且后面的操 作都是按拆分变量的不同组分别进行分析计算。
城乡比较 -- 数据拆分后的输出结果
恢复全部数据的分析
未拆分的数据输出结果
2.4.2 计算基本描述统计量
f e RT CT n RT CT
nn
n
其中,RT是指定单元格所在行的观测频数合计, CT是指定单元格所在列的观测频数合计,n是观 测频数的合计。
• 期望频数的分布反映的是行列变量互不相干下 的分布。
• 具有本科学历的高级工程师的期望频数 • 期望频数可以理解为:总共16个职工的学历分布是25%:
(2)进行数据拆分,并分别计算城镇储户和农村 储户的一次存(取)款金额的四分位数,并通过 四分位数比较两者分布上的差异。
2、分析过程:
相关主题