市场调研分析工具:SPSS操作基础一、SPSS基本操作1.SPSS的基本认识SPSS是市场调查的有效工具之一,对这一工具应当具备以下基本认识: SPSS的输出结果基本和office兼容SPSS提供了一个类似于Excel的操作界面,同时SPSS可以打开Excel文件。
由于很多公司的各类信息是录入到Excel文件中的,这样就能够顺利地将相关信息导入SPSS。
SPSS具备很好的画图功能SPSS可以将各类信息整理成各类实用而清晰的图表,这是很多公司都非常关心的一项功能。
图1 SPSS的操作界面如图1所示,SPSS的操作界面与Excel非常相似,这款软件是20世纪50年代斯坦福大学的三个研究生研发成功的,此后不断发展成为世界上最著名和客户占有量最大的统计软件。
2009年,这一软件被IBM公司收购,随后在商务上得到快速推进,因为IBM计划将SPSS打造成一款商务智能软件,而不是只局限在高校范围内。
比如,该软件有一个“直销”(Direct sells)模块,这是在数据分析中经常用到的模块,里面放入了一些非常著名的商务分析模型,如客户价值判断模型(RFM),这一模型可以根据客户的购买频次、购买金额、最后一次购买时间等信息,对客户做出价值判断并进行分组,这些都是SPSS被IBM收购后发生的变化。
目前,中国移动、各大银行、淘宝网等知名公司都在应用这些数据分析模块。
由于国内的软件版权保护制度比较落后,IBM目前并不以软件销售作为主赢利渠道,而是主要通过商务咨询和相关服务获取利润。
2.SPSS的操作流程SPSS的主要操作流程大致可以分为五部分:第一,数据读入——是将相关数据读入SPSS中;第二,数据预处理——数据读入后,要稍微做一下预处理才能继续操作;第三,模型处理——选择一个模型进行分析,然后SPSS就会输出相应的结果;第四,结果解读——对输出的结果要进行必要的解读;第六,结果二次处理——最后对结果进行一些再处理。
3.SPSS的操作示例SPSS的操作基础示例1动作1:用SPSS打开一个Excel文件。
点击“打开数据”,并在目录中找到名为“数据购买”的示例文件。
由于SPSS默认的是打开文件名为“sav”的文件,所以要在文件名下拉框中选择文件名为“xls(x)”的Excel文件。
打开界面后,如果Excel文件的第一行有表头,就要勾选;如果没有表头,就点击“确定”,这样就能将Excel文件读入SPSS。
数据读入后能够发现,这是一张市场调查的结果文件,这时会看到两个不同的标签,一是数据视图;一是变量视图,也就是将变量的属性放到视图中去。
然后打开“变量视图”,如图2所示。
图2 变量视图动作2:在变量视图中改变“值”,如性别。
变量视图包括表头、宽度小数等内容,尤其是其中的“值”应当予以特别关注,只有完成相关的赋值才能够进行分析。
动作3:采用“分析-比较均值-均值”,分析不同性别的受访者的产品消息来源、购买来源、购买原因和书价。
在表头中选择“性别”,将其放入“自变量”,然后按“shift”键统一选中消息来源、购买来源、购买原因和书价等进行基本操作,再点击“选项”就会发现不同性别的各类值,在此只关注均值,去掉个案数和标准差。
然后点击“确定”就会输出相应的结果。
SPSS的输出结果有时会非常复杂,为了将其简单化,可以只选择其中的重要部分,对于那些用处不大且比较晦涩的不妨略过。
由于SPSS每次处理都是模式化的,所以当操作熟练后就会得心应手。
在上面的示例中,为了更直观地获取感性认识,采用了“反例”手法,也就是先有了选项和平均值,再点击数据窗口切换到原数据,为了让输出结果中“1”代表男,“2”代表女,可以进入变量视图,在“性别”栏中双击“无”,然后在弹出的窗口中添加用“1”代表男,“2”代表女,然后点击确定。
这时要想在数据视图中检查某个值是否被标记过,可以在“视图”上点击“值标签”,这样设置完的值就会显示出来。
然后可以用同样的方法再进行一遍正常操作,由于之前的“比较均值”和“均值”等已经完成,所以不需要改动,直接点击确定即可,然后就会发现结果的变化。
SPSS的操作基础示例2动作1:绘制散点图。
在Excel操作中经常会用到许多图表,如柱状图、饼状图、散点图、射线图、曲线图、气泡图、雷达图、双轴图等,这些图在SPSS中都有,而且分析功能更加强大。
接前文示例1所述,为了分析不同年龄受访者购书价格的分布情况,就可以采用散点图的方式。
绘制散点图可以很好地呈现出数据的分布特征,在实际工作中非常有用,是图形分析的基本功。
具体操作是使用“图形改造程序”或旧版对话框,然后点击“散点图”并为其定义,在X轴中放入书价,在Y轴中放入年龄。
为了使散点图承载的信息量更大,便于更好地根据不同性别进行数据分析,可以打开“设置标记”并点击“确定”,这时就可以看到图中的要素分为几个层次:首先是书价,从100元一直到700元;其次是年龄,在X轴上呈递增分布;然后可以将男女性别拆分开来,用不同的颜色代表两种性别,分别观察男性受访者和女性受访者的购书数据分布状况。
具体内容如图3所示。
图3 散点图动作2:在“图标编辑器”中更改颜色。
为了使图表呈报得更加清晰,可以双击这张图进入“图标编辑器”,双击女性的某个散点进行“预览”,这时就可以更改代表女性的散点图标的格式,比如大小、边框、颜色等。
在这里将其大小改为“10”,边框改为醒目的红色,然后点击“应用”并关闭图标编辑器,图中代表女性的散点图标就会完成更改。
回到图中可以发现,20岁到30岁的女性购书花费比较高,结论是这个年龄段的白领女性购买力较强,而且学习充电的动力很大,所以购书花费较多。
通过上面的示例可以看出,要想绘制出各类实用美观的图表,一是要了解绘图中的X 轴、Y轴、设置标记以及面板依据中行、列的意义;二是要了解和掌握图标编辑器的基本功能。
二、SPSS基本分析模块在市场调研分析中,最常用到的SPSS模块是“数据”、“转换”和“分析”,其中“数据”和“转换”主要是用来做SPSS的商业数据的预处理,而“分析”主要用于各种各样的建模,里面包含了大部分常用的基本分析模块。
具体内容如图4所示。
图4 SPSS的三个常用主模块在图4的模块下面,市场调查中常用的SPSS基本分析模块主要包括描述统计、交叉表(cross table,也叫列联表)、相关、回归、分类、降维、多重相应和最优尺度等。
具体内容如表1所示。
表1 SPSS的常用基本分析模块表三、统计分析基本概念统计分析中涉及的基本概念主要包括:方差和均值、置信度、离散量和连续量、标准化、加权个案、假设检验、检验P值和R平方(R2)等。
1.方差和均值方差和均值的定义方差。
方差,主要是用来反映某段数据中数值变量的波动状况。
比如,如果A股大盘指数的方差很大,就说明股票市场还不够成熟,因为成熟的股票市场的波动应当较小。
与其相关的一个概念是标准差。
均值。
均值,就是多个数据的平均值。
如一个公司的平均工资水平、销售的平均业绩等。
方差和均值的作用方差和均值有着各自不同的作用:均值反映数据的平均水平,而方差则反映数据的波动情况。
例如:对于均值相同的两个销售团队,方差小,说明这个团队成员的销售业绩比较平均;方差大,则说明团队成员的销售业绩差距较大,高的高,低的低。
方差和均值的示例如图5所示,这是两个销售员的业绩数据,将销售1和销售2放到因变量中,将自变量保持不变,然后做一个选项。
这时可以忽略个案数和标准差,只关注平均数和方差,这时就会出来一个报告。
通过报告可以看出,两个销售人员销售数据的均值相同,但销售1的方差为72.727,销售2的方差则是418.182,由此可以得知前者各个月度的销售额差别较小,而后者各个月份的销售额则波动很大。
图5 方差和均值数据分析示例2.置信度置信度(Confidence),也叫置信水平,它是指特定个体对待特定命题真实性相信的程度。
例如,找100位金融行业的老总,经过薪资收入水平调查后得出的结果是,95%的金融行业老总的年平均收入在80~100万元人民币,这时就可以说金融行业老总年收入在这一区间的置信度是95%,80~100万元的区间则称为置信区间。
置信区间越大,置信度就越高,例如金融行业老总在0~1000万年收入的置信区间内的置信度几乎为100%。
3.离散量和连续量离散量离散量的定义。
离散量,就是一组跳跃的值。
例如:某品牌或产品是否被客户接受,其结果要么是“是”,要么是“否”,非此即彼,这就是典型的跳跃值。
离散量的分类。
离散量可以分为二项(二元跳跃)、名义值和有序值三类。
二项:即二元跳跃,只有非此即彼的两个值,例如经济是否增长、是否患病、品牌是否被接受。
名义值:多个值,但是其之间没有明显的排序关系,如n个城市、m个品牌。
在做数据分析时,销售团队可能分布在多个城市,或者是像宝洁公司一样有多个品牌的“品牌簇”,这时各个城市或品牌之间的值就是跳跃的,相互之间也没有明显的排序关系。
有序值:有序列关系。
例如空气质量标准欧III、欧IV、欧V,这组数值之间有着明显的递进排序关系,这就是有序值离散量。
要点提示离散量的分类:①二项(二元跳跃);②名义值;③有序值。
连续量连续量就是在数值上可以连续变的值,如年龄、啤酒饮用量、渠道铺货率,显然都是连续量。
4.标准化在数据处理时,经常会出现数据级别差异太大的情况,此时一般需要标准化,通俗地讲,就是“把数据变得差不多大,这样就好处理了”。
例如:在统计游客数量时,人少时游客数可能是7人,人多时则有2000多人,而在计算景区资金支出时,最少时是700元,多时则有4万多元,这时就需要在SPSS中通过数据转换,既保留各个数值原来的特征,又让这些数据看上去差别不那么大。
具体的操作路径是“分析”—“描述统计”—将四个变量选进去—勾选“将标准化得分另存为变量”,这时就能将其另存为新的四列变量,每一列之前都加了一个“z”,这个“z得分”就是标准化。
5.假设检验在生活中,实际上就存在很多假设检验,如在与人打交道时就经常发生这一过程。
如图6所示。
图6 假设检验的示例之所以要了解假设检验,是因为在分析模型中,经常要先做一个假设,然后再去检验统计的量值(俗称“检验P值”)与现实的符合情况。
假设检验的步骤为:第一,设定虚拟假设H0;第二,设定对立假设H1;第三,决定显著水平(α);第四,选择适当的检验统计量,以及决定危险域(放弃域的临界点);第五,计算所选检验统计量的观察值;第六,结论:当检验统计量的观察值落入危险域,放弃虚拟假设H0,反之则接受。
6.检验P值和R平方检验P值检验P值在SPSS的操作中使用极其广泛,几乎所有的检验分析过程都会用到检验P值。
一般来说,检验P值低于5%,就认为差异效果是明显的,而高于5%,则认为差异效果不显著。