3.1.2 虚拟变量的应用例3.1.2.1:为研究美国住房面积的需求,选用3120户家庭为建模样本,回归模型为:123log log P Y βββ++logQ=其中:Q ——3120个样本家庭的年住房面积(平方英尺) 横截面数据P ——家庭所在地的住房单位价格 Y ——家庭收入经计算:0.247log 0.96log P Y -+logy=4.17 20.371R =(0.11)(0.017) (0.026)上式中2β=0.247-的价格弹性系数,3β=0.96的收入弹性系数,均符合经济学的常识,即价格上升,住房需求下降,收入上升,住房需求也上升。
但白人家庭与黑人家庭对住房的需求量是不一样的,引进虚拟变量D :01i D ⎧=⎨⎩黑人家庭白人家庭或其他家庭模型为:112233log log log log D P D P Y D Y βαβαβα+++++logQ=例3.1.2.2:某省农业生产资料购买力和农民货币收入数据如下:(单位:十亿元)①根据上述数据建立一元线性回归方程:ˆ 1.01610.09357yx =+ 20.8821R = 0.2531y S = 67.3266F = ②带虚拟变量的回归模型,因1979年中国农村政策发生重大变化,引入虚拟变量来反映农村政策的变化。
01i D ⎧=⎨⎩19791979i i <≥年年 建立回归方程为: ˆ0.98550.06920.4945yx D =++ (9.2409)(6.3997) (3.2853)20.9498R = 0.1751y S = 75.6895F =虽然上述两个模型都可通过显著性水平检验,但可明显看出带虚拟变量的回归模型其方差解释系数更高,回归的估计误差(y S )更小,说明模型的拟合程度更高,代表性更好。
3.5.4 岭回归的举例说明企业为用户提供的服务多种多样,那么在这些服务中哪些因素更为重要,各因素之间的重要性差异到底有多大,这些都是满意度研究需要首先解决的问题。
国际上比较流行并被实践所验证,比较科学的方法就是利用回归分析确定客户对不同服务因素的需求程度,具体方法如下:假设某电信运营商的服务界面包括了A1……Am 共M 个界面,那么各界面对总体服务满意度A 的影响可以通过以A 为因变量,以A1……Am 为自变量的回归分析,得出不同界面服务对总体A 的影响系数,从而确定各服务界面对A 的影响大小。
同样,A1服务界面可能会有A11……A1n 共N 个因素的影响,那么利用上述方法也可以计算出A11……A1n 对A1的不同影响系数,由此确定A1界面中的重要因素。
通过两个层次的分析,我们不仅得出各大服务界面对客户总体满意度影响的大小以及不同服务界面上各因素的影响程度,同时也可综合得出某一界面某一因素对总体满意度的影响大小,由此再结合用户满意度评价、与竞争对手的比较等因素来确定每个界面细分因素在以后工作改进中的轻重缓急、重要性差异等,从而起到事半功倍的作用。
例3.5.4:对某地移动通信公司的服务满意度研究中,利用回归方法分析各服务界面对总体满意度的影响。
a. 直接进入法显然,这种方法计算的结果中,C 界面不能通过显著性检验,直接利用分析结果是错误的,见表3.5.4.1:表3.5.4.1 强制回归的Coefficientsb.逐步回归法这种方法剔除了一个不能通过统计检验的大的服务界面(C界面),虽然通过了显著性检验,但却遗漏了C界面的信息。
同样,使用强制删除法,C服务界面不能通过显著性检验,向前法和向后法亦剔除了C 界面进入分析。
可以看出,通过以上回归分析我们得到了不同的分析结果,显然这种分析方法存在着较大的偏差,随意选取一种是不负责任的,必须深入研究。
一般来说,满意度分析中涉及到许多因素,而诸多因素间存在着一定的关联,因而在进行回归分析时,各自变量之间的共线性问题导致了直接使用线性回归分析模型时一些因子不能参与分析的现象。
一些市场研究咨询公司常采用舍弃一些变量,遗漏部分信息来求得统计检验通过的方法;有的不顾显著性检验结果而强行使用不合理的分析结果来保证变量不被舍弃,从而虚假地保障了信息不被遗漏。
我们认为这是满意度分析错误的两个极端。
处理的正确方法是,利用SPSS软件中的岭回归分析来解决,既保障信息不被遗漏,同时保障分析具有统计意义。
SPSS软件界面没有直接进行岭回归的命令,我们可以通过SPSS 提供的程序编辑命令,自行编辑程序加以实现。
在SAS软件中可直接进行岭回归分析。
对例3.5.4.1进行岭回归,分析结果和表3.5.4.1的结果对比如下。
可见两者之间有较大差异(下表数据将已将回归系数之和标准化为100%),F界面对总体满意度的作用被缩小了5%左右,而B界面、D界面的作用各被夸大近5%。
表3.5.4.3 强制回归与岭回归结果的比较5 回归分析方法应用的举例说明——怎样作回归分析How本章以一个例子详细说明回归分析方法在实际研究中是如何应用的。
5.1 回归分析变量的数据转换本章举例说明的例子选用39家企业样本数据(见表5.1),带动作用是因变量,其余各变量均为自变量,其中所属产业和员工人数是对该样本企业而言,而接触程度则指该样本企业与本地的龙头企业之间在业务上的接触紧密程度。
接触程度、各自变量和因变量均以Likert五分量表进行度量。
表5.1 例子5.1的样本数据样本编号所属产业员工人数接触程度企业合作公共事务营销努力技术改进资源共享风险分担带动作用1皮革2301 1.40 2.60 3.00 3.33 1.50 2.33 1.40 2皮革1593 3.40 4.00 4.75 3.67 3.50 3.33 3.20 3皮革2082 3.00 3.20 3.75 3.67 3.33 3.50 3.40 4皮革1121 4.20 4.20 4.50 4.00 2.83 1.17 2.40 5皮革1001 2.20 2.80 2.75 2.67 2.00 2.17 2.00 6皮革4951 2.40 3.60 5.00 3.67 2.50 2.67 3.00 7皮革333 3.60 3.60 3.75 3.33 3.00 3.33 3.008 皮革 80 1 1.80 1.60 4.50 2.67 1.00 2.00 2.20 9 皮革 100 3 3.00 3.00 3.50 4.00 4.17 3.00 3.20 10 皮革 150 3 2.40 2.00 4.50 4.00 2.83 3.17 2.20 11 皮革 136 1 1.60 2.20 3.00 4.00 3.67 4.00 3.40 12 皮革 61 3 3.80 4.20 3.50 3.67 4.00 4.17 3.80 13 皮革 17 3 3.20 3.80 2.50 3.67 4.00 3.50 3.80 14 皮革 230 3 1.00 1.40 2.50 2.00 1.17 1.17 1.40 15 家电 300 5 2.60 4.00 5.00 4.00 2.50 4.83 4.60 16 家电 250 3 3.00 2.00 3.00 3.67 3.00 2.67 3.40 17 家电 80 5 1.80 4.20 4.75 5.00 1.83 2.00 3.60 18 家电 134 3 2.80 4.60 5.00 4.67 4.33 3.83 4.80 19 家电 428 3 2.40 2.80 2.00 4.33 2.33 2.00 2.80 20 家电 80 3 3.00 3.60 3.75 4.67 3.50 3.17 3.60 21 家电 400 2 3.20 3.80 4.00 3.67 3.33 2.67 3.20 22 家电 20 3 2.60 2.60 4.50 4.00 3.00 3.00 3.80 23 家电 225 4 3.00 2.40 4.00 3.33 2.67 2.83 3.00 24 家电 180 3 1.80 3.20 3.25 3.33 3.33 3.17 3.00 25 家电 90 3 4.60 3.60 4.75 3.67 3.33 2.17 2.80 26 家电 160 1 2.20 2.80 3.25 3.00 3.00 2.67 2.60 27 家电 100 2 2.80 2.80 4.00 3.33 3.33 2.67 3.20 28 家电 350 3 2.80 3.00 3.25 3.67 3.33 3.50 3.40 29 家电 345 3 2.60 4.00 3.50 3.67 4.00 3.33 3.20 30 家电 305 1 2.00 2.00 4.75 3.33 3.50 3.33 4.20 31 家电 400 2 1.00 2.80 3.75 2.67 2.17 2.33 2.00 32 家电 100 3 1.40 1.00 3.75 2.67 3.50 2.33 3.40 33 家电 414 2 1.20 2.80 3.00 3.33 2.67 2.50 2.40 34 家电 324 2 3.40 3.20 5.00 3.00 4.33 3.83 4.20 35 家电 300 4 3.20 2.80 3.75 3.67 3.50 2.83 3.40 36 家电 200 3 3.60 4.20 5.00 4.33 5.00 3.83 4.20 37 家电 85 3 4.00 4.00 4.50 4.00 3.33 3.83 3.20 38 家电 180 1 3.40 4.00 5.00 4.33 2.00 1.67 2.40 39 家电 415 3 2.20 3.20 3.50 4.33 2.83 2.50 2.005.1.1 企业所属产业虚拟变量的引入从表5.1中看到,自变量所属产业为名义变量,在进行多元回归分析之前需要将其转化为虚拟变量进行处理。
而员工人数在一定程度上能够反映企业的规模,因此也将其处理为虚拟变量。
将皮革产业变量定义为变量D 1,则⎩⎨⎧=101D属于皮革产业属于家电产业5.1.2 企业规模虚拟变量的引入首先按照企业员工人数将企业划分为微型、小型、一般型、中型和大型共5种类型企业,具体划分标准见表5.2:表5.2 企业规模的划分和变量说明企业规模 小型 中型 大型 员工数 ≤100 >100且≤300 ≥300 变量名 D 2 D 3 D 4由此,有:⎩⎨⎧=102D属于小型产业不属于小型产业;⎩⎨⎧=103D 属于中型产业不属于中型产业 当以上D 2、D 3均为0时,则表示该企业属于大型企业。