当前位置:文档之家› spss统计分析方法应用期末作业

spss统计分析方法应用期末作业

1.作业1(基本统计+参数检验+方差分析1)利用城际出行行为数据,从中随机选取90%的样本,实现以下分析目标:(1)分析出行时间的分布,需做直方图。

(2)分析不同性别的出行方式是否一致。

(3)检验老年人(≥60)与其他人的出行时间是否有显著差异。

(4)检验是否老年人和出行目的两因素对其它时间的影响(考虑交互作用)。

1.1 分析出行时间的分布,需做直方图1.1.1 解题思路首先,根据题目要求在城际出行行为数据中随机选择90%的样本;由于出行时间分布数据是定距变量,且出行时间数据数量较多,不宜使用频数进行分析。

因此在分析之前先对出行时间进行分组,再进行频数分布。

根据公式(1-(1-1)中n为数据个数,对结果四舍五入取整后为理论分组数目。

原样本数为235,随机选择之后剩余样本是n为213个,根据公式(1-1)计算得到分组数目为9。

选中的数据中出行时间的最大值为150,出行时间的最1.1.2操作步骤数据选择:【数据→选择个案】,选择【随机个案样本】→【样本】→在【大约】中填入“90%”→选择【删除未选定的个案】,点击确认。

剩下的即为随机选择之后的数据。

数据分组:【转换】→【重新编码为不同变量】→将“出行时间”加入到有边框中,输出变量名称改为“城市出行时间分组”,点击【更改】,在点击【旧值和新值】,按照60-70、70-80、80-90、90-100、100-110、110-120、120-130、130-140、140-150,分别对应1,2,3,4,5,6,7,8,9。

点击【完成】。

频数分析:【分析】→【描述统计】→【频率】,将“城市出行时间分组”加入到【变量】中。

点击【图表】→【直方图】→选中【在直方图上显示正态曲线】→【确定】。

1.1.3输出结果与分析总计213 100.0 100.0图1-1城市出行时间分布直方图从表1-1中可以看出,出行时间分布中,出行时间在60-70分钟的比较少,占比为4.7%,出行时间在120-130分钟、130-140分钟和140-150分钟的都比较少,三组总和占比仅为6.1%。

出行时间在70-120分钟之间的人数最多,总体占比为89.2%。

这其中90-100分钟的出行人数比较少。

整体来看大部分的出行时间为与70-120分钟之内,也就是位于中间位置。

从图1-1可以看出,用户的出行分布时间基本符合正态分布,主要集中在70-120分钟之间,两边的用户出行时间分布较少。

这也与表1-1结果所对应。

1.2 分析不同性别的出行方式是否一致1.2.1 解题思路分析多个变量不同取值下的分布,进而分析变量之间的相互影响和关系。

对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成。

具体来说,在1.1.1随机抽选的90%数据的基础上,借助通用的非参数检验方法—卡方检验,编制交叉列联表,即两个或两个以上变量交叉分组后形成的频数分布表。

原假设:不同性别的出行方式不一致。

1.2.2 操作步骤交叉列联表:【分析→描述统计→交叉表】,将“出行方式”加入【行(O)】中,将“性别”加入【列(C)】中,点击【统计】,选择【卡方】,点击【单元格】,选择【计数→实测值、期望值,百分比→行、列、总计,非整数权重→单元格计数四舍五入】→选择【选择簇状条形图】点击【确定】。

1.2.3 输出结果与分析得到结果,交叉列联表如表1-2所示。

在213份调查样本中,选择小汽车的人数为134人,选择轨道交通的人数为79人,分别占样本总数的62.9%和37.1%。

在男、女期望值分别为119、94,分别占样本总数的55.9%和44.1%。

对不同性别进行分析:在119位男性中,66.4%选择小汽车出行,33.6%选择轨道交通出行,小汽车选择比例略高于总比例(62.9%),轨道交通略低于总比例(37.1%);在94位女性中,58.5%选择小汽车出行,41.5%选择轨道交通出行,小汽车选择比例略低于总比例(62.9%),轨道交通略高于总比例(37.1%)。

由此可知男性和女性都更愿意乘坐小汽车出行。

对不同出行方式分别分析:选择小汽车的134人中,男性、女性的人数分别是79和55人,各占小汽车出行总数的59%和41%,其中,男性的比例略高于总比例(55.9%),女性略低于总比例(44.1%);选择轨道交通的79人中,男性、女性的人数分别是40和39人,各占本行总数的50.6%和49.4%,其中,男性的比例略低于总比例(55.9%),女性略高于总比例(44.1%)。

由此可知,男性比女性更愿意乘坐小汽车出行。

表1-3卡方检验结果表从表1-3可以看出,概率P值为0.237,大于显著性水平 (0.05),因此接受原假设,认为行列变量不具有相关性。

得出结论:性别与出行方式相互独立,不具有相关性。

图1-2出行方式条形图1.3 检验老年人(≥60)与其他人的出行时间是否有显著差异1.3.1 解题思路该问题中,由于考虑老年人和其他人的出行时间是否存在差异,可以将老年人(≥60)与其他人分为两个样本,两种类型的人可以看成两个总体,并且两个样本是来自两个总体的独立样本。

且出行时间可以近似认为服从正态分布,因此,可以采用两独立样本t检验的方法进行分析。

两独立样本t检验的目的是:利用来自两个总体的独立样本,推断两个总体的均值是否存在显著差异,比较符合本题的要求。

原假设为来老年人与其他人对出行时间无显著性差异。

1.3.2 操作步骤两独立样本t检验:选择菜单【分析→比较平均值→独立样本T检验】,将“出行时间”加入【检测变量T】框,将“年龄”加入到【分组变量G】框,并点击【定义组】,选择【割点】,输入“4”,点击【确定】。

1.3.3 输出结果与分析表1-5t检验结果表通过表1-4可以看出,老年人的平均出行时间为105分钟,其他人为96.10分钟,可以看出老年人和其他人的出行时间二者存在一定差距。

通过检验应推断这种差异是是抽样误差造成的还是存在系统误差。

表1-5是老年人和其他人出行时间均值差的检验结果。

分析结论分两步完成。

第一步,两总体方差是否相等的F检验。

该检验的F统计量观测值为0.125,概率P为0.724,大于显著性水平0.05,可认为两总体方差不存在显著性差异;第二步,两总体均值差的检验。

在第一步中,由于两总体方差无显著差异,因此应看第一行(假定等方差)t检验的结果。

其中,t统计量的观测值为1.724,对应的双尾概率P值为0.086.如果显著性水平 为0.05,由于概率P 值大于0.05,不能拒绝零假设,因此得出结论:老年人(≥60)与其他人的出行时间无显著差异。

1.4 检验是否老年人和出行目的两因素对其它时间的影响(考虑交互作用)。

1.4.1 解题思路检验是否老年人和出行目的两因素对其它时间的影响并且考虑交互作用,因而选择多因素方差分析解决问题。

多因素方差分析可用来研究两个及两个以上控制变量是否对观测变量产生显著影响。

多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响。

在本题目中,首先,将是否老年人进行数据分组,定义新的变量,再进行多因素方差分析。

1.4.2 操作步骤数据分组:数据分组:【转换】→【重新编码为不同变量】→将“年龄”加入到右边框中,输出变量名称改为“老年人分组”,点击【更改】,在点击【旧值和新值】,按照最小值到3、4到最大值分别对应0和1。

点击【确定】。

多因素方差分析:【分析】→【一般线性模型】→【单变量】,选择“其它时间”到【因变量(D )】,选择“老年人分组”和“出行目的”到【固定因子(F )】,【选项】→勾选【描述统计】,点击【确定】。

1.4.3 输出结果及分析表 1-6 主体因子情况表首先,这里以是否为老年人和出行目的为控制变量,其它时间为观测变量,建立固定效应的饱和模型。

其中零假设为是否为老年人对其它时间没有产生显著影响(即是否为老年人对其它时间的效应同时为0);不同出行目的对其它时间没有显著差异(即不同的出行目的对其它时间的效应同时为0);是否为老年人和出行目的的不同对其它时间没有产生显著的交互影响(即交互效应对其它时间的效应同时为0)。

由表1-8克制各F 检验统计量的观测值在一定自由度下的概率P 值。

F 老年人分组、4X F 、4*X F 老年人分组的概率P 值分别为0.001、0.006和0.520。

如果显著水平 为0.05,由于F 老年人分组、4X F 的概率P 值小于显著性水平,则应拒绝零假设,可以认为是否为老年人、出行目的不同对其它时间总体均值存在显著差异,对其它时间的效应不同时为不同时为0,各自不同的水平给其它时间带来了显著影响。

同时,由于4*X F 老年人分组的概率P 大于显著性水平,因此不应拒绝零假设,可以认为是否为老年人和出行目的没有对其它时间产生显著的交互作用,是否为老年人以及出行目的的不同对其它时间都将不产生显著影响。

2.作业10(回归分析5)在城际出行行为数据中以“出行方式”为因变量,分析出行时间、其他时间、出行目的、和性别四个变量对城际出行方式的影响。

(用强制进入策略,需给出最终模型的数学表达式,并对显著影响因素进行分析)。

2.1 解题思路”出行方式“为二分类变量,当回归分析中的被解释变量为二分类型变量时,通常采用二项Logistic 回归分析方法。

“出行方式”是被解释变量,其余的变量时解释变量。

由于解释变量中“出行目的”、“性别”为分类变量,分类变量通常不能像数值型变量那样直接作为解释变量进入回归方程,需要转化为虚拟变量才能进行分析。

2.2 操作步骤【分析】→【回归】→【二元Logistic 】,然后将把被解释变量“出行方式”选到【因变量】框,解释变量“出行时间、其他时间、出行目的、和性别”选择到【协变量】框中。

单击【分类】按钮,将“性别和出行目的“导入【分类协变量】中,选择【指示符】。

点击【选项→分类图、霍斯默-莱梅肖拟合优度、Exp(B)的置信区间→95】,点击【保存→概率、组成员、包括协方差矩阵】2.3 输出结果与分析表2-1给出了虚拟解释变量的取值编码和分布情况。

对由分类型变量派生出的虚拟解释变量,SPSS自动命名为原变量名。

例如出行目的派生出的两个虚拟变量分别命名为收入(1)和收入(2),依次表示“是否为办公”和“是否为购物或娱乐”,两变量均为0表示“其他”;性别派生出一个虚拟变量为性别(1),表示“是否男性”,取值为0表示女性。

表2-2显示了二项Logistic分析初始步,也即零模型(第0步,方程中只有常数项,其他回归系数均为0)的混淆矩阵。

可以看到,134人实际乘坐小汽车且模型预测正确,正确率为100%;79人实际实际选择了轨道交通但模型均预测错误,正确率为0%,模型总的预测正确率为62.9%。

相关主题