当前位置：文档之家› 数据分析方法及软件应用 -- 基本统计分析

数据分析方法及软件应用 -- 基本统计分析

表； • (2) 频数分析的第二个任务是绘制统计图：条形
图、饼图、直方图。
2) 频数分析的基本操作
• (1) 选择菜单分析Analyze——描述统计 Descriptive Statistics——频率Frequencies。
• (2) 将若干频数分析变量选择到变量Variable(s) 框中。
• (3) 单击图表Chart按钮选择绘制统计图形，在图表值Chart Values框中选择条形图中纵坐标（或饼图中扇形面积）的含义，其中 Frequencies表示频数；Percentages表示百分比。
.0%
6.3%
18.8%
37.5%
无技术职称
Count % w ithin 职称 % w ithin 文化程度
0 .0%
观测
0 .0%
.0% 频数 .0%
3 100.0%
条件
0 .0%
60.0% 分布 .0%
3 100.0%
18.8%
% of Total
.0%
.0%
18.8%
.0%
18.8%
• 基本描述统计量 • 基本描述统计量的基本操作 • 基本描述统计量的应用举例
4.2.1 基本描述统计量
• 常见的基本描述统计量有三大类：
• 刻画集中趋势的统计量 • 刻画离散程度的统计量 • 刻画分布形态的统计量
上节频数分析中 -- 统计量对话框
栏集中趋势
离散趋势
分布形态栏
2) 基本描述统计量的操作
• 利用居民储蓄调查数据进行频数分析，有以下两个分析目标：
• 目标一：分析储户的户口和职业的基本情况。 • 目标二：分析储户一次存款金额的分布，并对
城镇储户和农村储户进行比较。
目标一：分析储户的户口和职业的基本情况
（1）户口和职业两个变量都是定类变量，可通过基本频数分析实现。（2）职业变量的取值（分类）数目较多，为使频数分布表更一目了然，应对内容的输出顺序进行调整，单击格式 Format按钮，选择Descending counts按频数的降序输出。（3）单击图形Chart按钮指定输出户口变量的饼图和职业变量的条形图。
（2）利用SPSS的频数分析计算所有样本的存（取）款金额的四分位数；然后，按照户口类型对数据进行拆分（Split file）并重新计算分位数，分别得到城镇户口和农村户口的存（取）款金额的四分位数。
• 居民储蓄调查数据.sav
存款金额分布-数据分组操作
分组结果
存款金额分布-频数分布操作
存款金额分布-输出结果
• 问题：分析乘客的性别、年龄、职业、家庭收入等因素对其选择三条路径的影响。
• 问题的一般化
1) 目的和基本任务
1、目的：交叉分组下的频数分析又称列联表分析。通过前面的频数分析能够掌握单个变量的数据分布情况，在实际分析中，不仅要了解单个变量的分布特征，还要分析多个变量不同取值下的分布，进而分析变量之间的相互影响和关系。对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成。
数据加工(职工数据).sav
(输出)统计量对话框
输出百分位数：
•输出四分位数，显示25%、50%、
75%的百分位数；
集
•将数据平均分为所设定的相等等份，可输入2—100 的整数，如键入4则输出第25、50、75百分位数
中趋
•自定义百分位数，可输入0—100
势
的整数。
栏
离散趋势分布形态栏
3) 频数分析的应用举例
2.4.1 频数分析
• 频数分析的目的和基本任务 • 频数分析的基本操作 • 频数分析的应用举例
1) 频数分析的目的和基本任务
1、目的：基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况，对把握数据的分布特征是非常有用的。
2、基本任务 • (1) 频数分析的第一个基本任务是编制频数分布
(4) 结论和决策
• 对统计推断做决策通常有两种方式：
• 根据统计量观测值和临界值比较的结果进行决策。如果卡方观测值大于临界值，则认为实际分布与期望分布之间的差距显著，可以拒绝原假设，断定列联表的行列变量间不独立，存在相关关系；反之，接受原假设。
• 那么，在统计上，卡方统计量观测值究竟大到什么程度才足够大，才能断定行列变量不独立呢？这就需要依据一个理论分布。由于该检验中的Pearson卡方统计量近似服从卡方分布，因此可依据卡方理论分布找到某自由度和显著性水平下的卡方值，即卡方临界值。
(3) 确定显著性水平和临界值
• 显著性水平(Significant Level) 是指原假设为真却将其拒绝的风险，即弃真的概率。通常设为 0.05或0.01。在卡方检验中，由于卡方统计量服从自由度为(行数－1)×(列数－1)的卡方分布，因此，在行列数目和显著性水平确定时，卡方临界值是可唯一确定的。
33.3% 25.0%
6.3%分比 6.3%
1
3
33.3%
.0%
20.0% 列百 .0%
6.3%
.0%
0 分比 0
100.0% 18.8% 18.8% 4
列
标题
助理工程师
% w ithin 职称 % w ithin 文化程度 % of Total Count % w ithin 职称 % w ithin 文化程度
数据拆分操作
输出结果
2.4.3 交叉分组下的频数分析
• 目的和任务 • 交叉列联表的主要内容 • 交叉列联表行列变量间关系的分析 • 基本操作 • 应用举例 • SPSS中列联表分析的其他方法
问题描述
• 假定从A地铁站到B地铁站共有三条路径可以选择，三条路径的行车时间、等待时间和换乘次数有所差异。
Total
Count
4
4
5
3
16
% w ithin 职称
25.0%
25.0%
31.3%
18.8% 100.0%
% w ithin 文化程度 100.0% 100.0% 100.0% 100.0% 100.0%
% of Total
25.0%
25.0%
31.3%
18.8% 100.0%
列边缘分布
三维交叉
(1) 选择菜单分析Analyze——描述统计 Descriptive Statistics——描述Descriptives,出现如下窗口：
基本统计量
分布
当Variables框中有多个变量时，此框确定其输出顺序： • 按Variables框中的排列
顺序输出 • 按各变量的字母顺序输
出 • 按均值的升序排列 • 按均值的降序排列
选项对话框
3) 应用举例
1. 利用居民储蓄调查数据，对一次存款金额变量计算基本描述统计量。有以下分析目标：计算存款金额的基本描述统计量，并分别对城镇储户和农村储户进行比较 • 分析：首先按照户口对数据进行拆分（Split
file），然后计算存（取）款金额的基本描述统计量。
• 居民储蓄调查数据.sav
• 2、基本任务：
• 1）根据收集到的样本数据，产生二维或多维交叉列联表；
• 2）在交叉列联表的基础上，对两两变量间是否存在一定的相关性进行分析。
2) 交叉列联表的主要内容
• 编制交叉列联表是交叉分组下频数分析的第一个任务。交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。
• 例：职工基本情况数据按职称和文化程度编制的二维交叉列联表（见下页表）：
• 期望频数的分布与总体分布一致。也就是说，期望频数的分布反映的是行列变量互不相干下的分布，说明了行
列变量间的关系是相互独立的。
• 卡方统计量观测值的大小取决于两个因素：第一，列联表的单元格子数；第二，观测频数与期望频数的总差值。在列联表确定的情况下，卡方统计量观测值的大小仅取决于观测频数与期望频数的总差值。当总差值越大时，卡方值也就越大，实际分布与期望分布的差距越大，表明行列变量之间可能越相关；反之，当总差值越小时，卡方值也就越小，实际分布与期望分布越接近，表明行列变量之间可能越独立。
25%：31.3%：18.8%，如果遵从这种学历的总体比例关系，高级职称３人的学历分布也应为25%：25%： 31.3%：18.8%，于是期望频数分别为：3×25%、 3×25%、3×31.3%、3×18.8% 。同理还可以理解为：总共１６个职工的职称分布是：18.8% 、 25.0% 、37.5%、 18.8%，如果遵从这种职称的总体比例关系，本科学历４人的职称分布也应为18.8% 、 25.0% 、37.5%、 18.8%于是期望频数分别为4×18.8% 、4×25.0% 、 4×37.5%、4×18.8%。
存款金额城乡比较-数据拆分操作
• 居民储蓄调查数据.sav
存款金额城乡比较 -- 四分位数操作
数据拆分结果：数据按户口进行了排序，且后面的操作都是按拆分变量的不同组分别进行分析计算。
城乡比较 -- 数据拆分后的输出结果
恢复全部数据的分析
未拆分的数据输出结果
2.4.2 计算基本描述统计量
f e RT CT n RT CT
nn
n
其中，RT是指定单元格所在行的观测频数合计， CT是指定单元格所在列的观测频数合计，n是观测频数的合计。
• 期望频数的分布反映的是行列变量互不相干下的分布。
• 具有本科学历的高级工程师的期望频数 • 期望频数可以理解为：总共16个职工的学历分布是25%：
（2）进行数据拆分，并分别计算城镇储户和农村储户的一次存（取）款金额的四分位数，并通过四分位数比较两者分布上的差异。
2、分析过程：

e商务文档

数据分析方法及软件应用 -- 基本统计分析

相关文档推荐：