《应用统计学》课程论文(2011学年01学期)SPSS在信用卡消费调查中的应用学生姓名学号院系工学院专业工程管理班级工管完成日期2011年12月04日SPSS在信用卡消费调查中的应用X X绍兴文理学院工程管理摘要:本文通过消费者的年收入、家庭人口和每年使用信用卡支付的金额数据,利用SPSS软件提供的散点图、相关系数分析、回归分析对数据进行了深入的分析,再把分析结果进行预测,最后根据预测结果来进行控制调整。
关键词:信用卡;消费;SPSS分析引言消费是社会生产的重要环节,是社会经济活动的出发点和归宿,消费结构的状况不仅反映社会经济发展的水平,又涉及到社会经济诸多方面,近年来,随着社会经济、计算机技术和信息技术的发展,商业领域越来越活跃,消费者除了用现金和个人支票支付外,信用卡支付方式越来越被广泛的采用。
通过信用卡的使用状况,分析各相关因数的关系,利用SPSS软件提对数据进行了深入的分析。
1 抽样调查基本情况研究人员分层抽样的方法从收集的资料中随机抽取50位消费者的年收入、家庭人口和每年使用费信用卡支付的金额数据,用于统计分析。
通过调查消费者的消费特征,此特征可以用来预测用户使用信用卡的支付金额的消费特征。
信用卡消费调查数据见附录。
2 SPSS中的统计分析SPSS作为统计分析工具,理论严谨、内容丰富,具有数据管理、统计分析、趋势研究、制表绘图、文字处理等功能。
其中的统计分析功能包括从基本描述统计、推断统计到聚类分析、因子分析等多元统计分析方法。
本文主要利用其中的散点图、相关系数分析、回归分析对相关信息进行统计分析,而基本描述统计功能就不再做介绍。
2.1 散点图散点图用于表现测量数据的原始分布状况,可从点的位置判断测量值的高低、大小、变动趋势或变化范围,在相关与回归分析中,侧重于使用散点图来直观的观察和判断变量之间的关系,据此判断变量之间协变关系的类型。
具体创建过程是利用在三维空间中绘制出2个或3个变量确定的点,然后通过这些点的分布特征来显示数据的分布特征。
散点图有五种类型:简单散点图(Simple Scatterplot)重叠散点图(Overlay Scatterplot)散点图矩阵(Scatterplot Matrix)三维散点图(3-D Scatterplot)散点∕圆点图(Scatter/Dot)2.2 相关系数分析(1)相关分析相关分析就是从数量的角度出发,精确界定变量之间的关系,把变量之间的关联的紧密程度用数量方法予以反映,即相关系数;相关系数大说明变量之间的关联程度高,相关系数小说明变量之间的关联比较松散。
相关系数是测定变量之间线性相关程度和方向的代表性指标。
其特点表现在:参与相关分析的两个变量是对等的,不分自变量和因变量,因此相关系数只有一个,计算相关系数的两个变量都是随机变量。
相关系数有Pearson相关系数、Spearman和Kendall's tua-b等级相关系数。
(2)偏相关分析在实际问题中,事物之间的联系往往比较复杂,一个结果往往是受到多种因素相互综合作用产生的。
在多变量的情况下,变量之间的的相关系复杂。
偏相关分析是指在对其他变量的影响进行控制的条件下,分析多个变量中两个变量之间的线性相关程度。
偏相关分析的工作是计算偏相关系数,计算偏相关系数时需要掌握多个变量的数据,一方面考虑多个变量之间可能产生的影响,另一方面又采用一定的方法控制其他变量,专门考察两个特低昂变量的净相关关系。
由于变量之间穿在错综复杂的关系,因此偏相关系数与济南单的相关系数与简单的相关系数在数值上可能相差很大,有时甚至符号都相反,一般偏相关系数更能反映现象之间的真实关系。
2.3 线性回归分析回归分析是从一组样本数据出发,确定变量之间的数学关系式,对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量影响显著,哪些不显著。
然后利用所求得关系式根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精度。
回归分析按照经验公式的函数类型可以分为线性回归和非线性回归。
若回归分析的经验公式是线性函数,则称为线性回归;若回归分析的经验公式是非线性函数,则称为非线性回归。
按自变量的个数可以将回归分析分为一元回归和多元回归。
一元回归是自由一个自变量的回归分析。
有两个或两个以上的自变量的回归分析称为多元回归。
按自变量和因变量的类型回归分析分为一般的回归分析、含有哑变量的回归分析和Logistic回归分析。
一般的回归分析自变量和因变量都是定量变量。
若因变量是定性变量的回归分析,则称为Logistic回归。
3 SPSS在消费特征调查中的应用3.1 创建SPSS数据文件将信用卡消费调查数据保存在xykxf.sav中该数据文件的变量、类型及其标签如图1所示:图1 数据文件xykxf.sav的变量、类型及其标签3.2 绘制散点图通过散点图可以观察变量之间的关系,从而决定拟合模型的类型。
启动SPSS,读入数据后:(1)打开对话框。
点击Graphs→Scatter/Dot系统弹出一个对话窗口,选择Scatterplot Matrix,单击Define进入Scatterplot Matrix对话框。
(2)选择矩阵变量。
把变量“年收入”、“家庭人口”、“消费金额”移到Matrix Variables。
(3)选择图形标题。
在对话框中单击Titles,在Titles中修改散点图矩阵的标题“消费特征的散点图”,单击Continue。
(4)单击Scatterplot Matrix对话框中的OK,得到绘制的散点图矩阵图,即图2。
图2 消费特征的散点图从图2可以看出,家庭人口、年收入与信用卡消费金额成比较明显的线性关系。
3.3 相关系数分析通过变量之间的相关性分析,初步了解销售额与哪些因素相关性高,各种提高销售措施之间是否有高度的相关性或可替代性,以及为后续回归分析的变量纳入方式提供参考依据。
操作步骤如下:(1)单击Analyze→Correlate→Partial,把变量“消费金额”、“年收入”移到Variables,把变量“家庭人口”移到Controlling。
(2)单击Options,参数选项如图3。
单击Continue,返回Partial Correlations对话框。
图3 Options对话框(3)单击OK按钮,得到相关分析结果如图4、图5。
图4 偏相关的描述性统计量图5 偏相关的分析结果从图4可知,50位消费者通过信用卡消费的平均的额度为3964.06元,年平均为43480元,家庭人均为3人。
从图5的分析结果初步可知,信用卡消费金额与家庭人口、年收入较显著,对应的显著水平都远小于0.01。
3.4 回归分析建立回归模型,进一步研究信用卡消费金额与家庭人口、年收入的关系,并利用预测结果来控制调节信用卡的市场营销策略。
操作步骤如下:(1)单击Analyze→Regression→Linear,把Linear Regression对话框左侧列表中选择变量“消费金额”使之进入Dependent;选择变量“家庭人口”和“年收入”,使之进入Independent(s);根据偏相关系数,在Method下拉框中选择Enter选项,使其他选项框为默认值。
(2)单击Statistics按钮,弹出“线性回归统计量”窗口,选中复选框Estimates、Model fit和Collinearity diagnostics,单击continue返回Linear Regression对话框。
(3)单击OK,得到结果如图6~10所示。
图7 模型模拟合度检验图8 方差分析表图9 回归分析结果(1)根据相关分析结果,认为信用卡消费金额与家庭人口、年收入相关性高,所以采用所有变量强行进入模型的方法。
(2)对模型模拟合度进行检验,进入模型的变量其调整的决定系数(Adjusted R Square)为0.818。
可见模型的拟合效果很理想。
(3)对模型进行方差分析。
回归模型的Sig.值为0,说明该模型有显著的统计意义。
(4)对模型的回归分析结果和共线性检验结果可知,未标准化时本例的拟合结果为:Y=1304.905+0.033x1+356.296x2常数项和自变量系数的Sig.值为0,模型中不存在共线问题。
检验结果是显著的。
该模型的拟合程度很高,可以用来预测。
4 结果分析回归分析在数据挖掘中主要有预测和控制两大功能,通过对已知训练数据进行回归分析的出经验公式,利用经验公式就可以在已知变量的情况下,预测因变量的取值。
实际问题中往往是根据预测结果来进行控制调整。
本案例中,根据50为消费者的年收入、家庭人口和每年石油信用卡支付的金额数据得到经验公式为:Y=1304.905+0.033x1+356.296x2经验公式可以预测:在其他条件不变的情况下,家庭人口每增加1人,信用卡支付的金额将增加356.296元;收入每增加1000元,信用卡支付金额将增加33元。
因此,针对此地区的消费者,家庭人口的数量对信用卡支付的金额影响较大。
若要推行信用卡消费,其目标用户的首选是家庭人口较多的用户。
附录信用卡消费调查数据参考文献:[1] 孙艳玲, 何源, 等. 2010. SPSS 统计分析 北京:人民邮电出版社 [2] 马庆国主编. 2005. 应用统计学 北京:科学出版社[3] 范大茵,陈永华. 1996. 概率论与数理统计. 杭州:浙江大学出版社[4] 郭志刚等. 1999. 社会统计分析方法:SPSS 软件应用. 北京:中国人民大学出版社 [5] 卢纹岱. 2000. SPSS for Windows 统计分析. 北京:电子工业出版社 [6] M.费史. 1962. 概率论及数理统计. 王福保译. 上海:上海科学技术出版社年收入 (元) 家庭人口(人)消费金额(元) 年收入 (元) 家庭人口(人)消费金额(元) 54000 3 4016 41000 7 4828 30000 2 3159 23000 6 4127 32000 4 5100 51000 3 4110 50000 5 4742 25000 3 4208 31000 2 1864 48000 4 4219 55000 2 4070 27000 1 2477 37000 1 2731 33000 2 2514 40000 2 3348 65000 3 4214 66000 4 4764 63000 4 4965 54000 6 5573 42000 6 4412 30000 1 2583 62000 3 4705 48000 2 3866 64000 2 4157 34000 5 3586 22000 3 3579 67000 4 5037 29000 4 3890 50000 2 3605 39000 2 2972 67000 5 5345 35000 1 3121 55000 6 5370 39000 4 4183 52000 2 3890 54000 3 3730 21000 2 2448 27000 2 2921 44000 1 2995 26000 7 4603 37000 5 4171 61000 2 4273 62000 6 5678 30000 2 3067 21000 3 3623 22000 4 3074 55000 7 5301 46000 5 4820 42000230206600045149[7] 马庆国. 2002. 管理统计:数据获取、统计原理、SPSS工具与应用研究. 北京:科学出版社[8] 张寿,于清文. 1984. 计量经济学, 上海:交通大学出版社。