当前位置:文档之家› [课件]SPSS数据分析与挖掘实战案例精粹第四章PPT

[课件]SPSS数据分析与挖掘实战案例精粹第四章PPT


第一个受访者
第二个受访者
22
33
1
2
4
5
5
当选项少时,两者皆可 当选项多,答案少的时候,选择多重分类法是比较轻松的

实操:录入

二分类中代表每个选项的变量,在录入时应该保持一致
多重分类中代表每个答案的变量,在录入时应该保持一致

请问您目前已经拥有的数码产品 有哪些?
二分法、计数值1
选中为1,没选中为0, 把数值为1的计数一 下,即统计选中情况。
4.1.2分析思路

对纸质调查问卷进行录入(4.2问卷的录入)
对录入数据质量检验(4.3问卷质量校验) 分析问卷,提出建议(4.4
问卷数据的分析) (4.5项目的总结与讨论)


4.2问卷录入
开放题录入 单选题录入
多选题录入
4.2.1开放题录入
字符型变量不能参与运算,且 区分大小写,一般作为记录的 标识。 宽度为该变量的长度,一个 汉字两个宽度单位,一个字 母或数字或小数点都是一个 宽度单位
4.2.2单选题录入
(6)值:1代表“男”,2代表“女”。
数据视图中录入性别的两种方式 (1) 使用数字1,2来录入性别 (2)选定工具栏的“显示值标签”,通过下拉框的方法来录入
注释:当选择男或女时,实际在数据文件中保存的是数字1或2。
4.2.3多选题录入



对于多选题,每个被调查者可能会选择多项, 无法用单一变量录入,则考虑用多个变量来 结合定义。为什么无法使用单一变量录入? 举例:其他
你经常使用的搜索 引擎是哪几个? AB ABC ADF
字符型变量不能参与运算, 不能统计A多少B多少 数值型变量,使用值标签, 只能多选一
4.2.3多选题录入-多重响应

多重响应:几个变量是一个多选题的选项, 并设定一个变量名。有两大类:二分法和 多重分类法。P5览器选了谷歌和其他 二分类法:每个变量代表一个选项,每个选项具有 两个可能值(1选中,0没选中)
B4(年龄) B5(你经B5_4(360) B5_5(其他) 22 第一个受访者 第二个受访者 33 0 1 0 0 1 1 0 0 1 1
得到
• 权重=实际比例/问卷中的比例
第一步:计算出问卷中男女及教育的比例
首先计算出在不同性别的不同教育水平的人数 然后,计算总人数,最后得出不同水平的比例 性别 教育水平 分组计数
男 男 男 男 女 女 女 女 高中-中专及以下 大学专科 大学本科 硕士及以上 高中-中专及以下 大学专科 大学本科 硕士及以上 3161 4916 7768 1347 1048 2320 3695 676
SPSS数据分析与挖掘实战案例 精粹第四章
第四章 SPSS操作进阶
4.1案例背景 4.2问卷的录入 4.3问卷质量校验 4.4问卷数据的分析 4.5项目的总结与讨论

4.1案例背景
项目背景 分析思路
4.1.1项目背景
互联网技术发展,网上购物盛行。我 们的客户是做数码产品实体店的店主,想搭 建一个购物网站。在搭建网站之前,需要对 网站的建立进行详细规划,包括网购的产品 种类、配送方式、支付方式等等,为了让网 站更贴近顾客喜好,这就产生了调查问卷。 让这个客户的实体店里的会员填写调查问卷。
性别 男 男 男 男 女 女 女 女 教育水平 实际比例 高中-中专及以下 0.12 大学专科 0.12 大学本科 0.24 硕士及以上 0.12 高中-中专及以下 0.08 大学专科 0.08 大学本科 0.16 硕士及以上 0.08
第一步
• 计算出问卷中男女及教育的比例
第二步
• 问卷中的比例*权重=实际比例
连续计算每个组合中匹配个案(0=非匹配个案): 同一重复数据组中包括基本个案和重复个案组内编 号,0表示没有重复数据。
显示已创建变量的显示频率,是根据基本个案指示符(基本个案 1表示,重复个案0表示)中1和0的个数来进行统计描述的。
4.3.2发现异常值
.
可以在缺失值中,离散缺失值3和7 在选择个案中过滤掉未选定个案
个案和重复个案。
把定义匹配个案的依 据设为第一顺序,把 在匹配组内的排序标
准设为第二顺序。
基本个案指示符中基本个案用1表示,重复个案用0表示。 每组中最后一个个案为基本个案:同一重复数据组的最后 一例是主要数据,其他是重复数据。
每组中的第一个个为基本个案:同一重复数据组的第一
例是主要数据,其他是重复数据。 根据指示符(新变量)的值进行筛选:0过滤,1保览器选了谷歌和其他 多重分类法:受访者的答案代表4(年龄) B5(你经常使用的搜索引擎是哪几个?) B5_1(第一个答案) B5_2(第二个答案) B5_3(第三个答案) B5_4(四) B5_5(五)
请问你未来打算优先购买的数码 产品有哪些?(最多选三项)
表示这里使用多重分类法
4.3问卷质量校验
重复记录识别 异常值识别 逻辑错误识别
4.3.1去除重复记录
该变量取值相同则为重复数据
一组变量的取值全相同则为重复数据
在匹配组内的排序标 准框中定义排序顺序, 便于在查找出来的多
条重复记录中指定主
4.3.3逻辑校验
B3:您是否有过网上购物的经历? B4:您平均每月网络购物的消费额大致是? B5:您在网上购物时采用什么样的支付方式?
4.4问卷数据分析
问卷加权 业务分析
4.4.1问卷加权
实体店的会员男女比例6:4,调查问卷里男 女比例7:4,人口特征与实际分布并不一致。
第二段:男女比例和受教育水平这两个因素可能对 分析结果有较大的影响,会员中男女之比为6:4, 教育水平是2:2:4:2,实际分布如下图,为了使问卷 中的人口特征与实际相符,应该使问卷中数据赋予 一定权重,让加权后的数据符合实际比例。
分类计数
汇总总人数
转换成比例
性别 男 男 男 男 女 女 女 女
相关主题