实验报告八实验课程:回归分析实验课专业:统计学年级:姓名:学号:指导教师:完成时间:得分:教师评语:学生收获与思考:实验八含定性变量的回归模型(4学时)一、实验目的1.掌握含定性变量的回归模型的建模步骤3.运用SAS计算含定性变量的各种回归模型的各参数估计及相关检验统计量二、实验理论与方法在实际问题的研究中,经常会遇到一些非数量型的变量。
如品质变量;性别;战争与和平。
我们把这些品质变量也称为定性变量,在建立回归模型的时候我们需要考虑到这些定性变量。
定性变量的回归模型分为自变量含定性变量的回归模型和因变量是定性变量的回归模型。
自变量含有定性变量的时候,我们一般引进虚拟变量,将这些定性变量数量化。
例如研究粮食产量问题,y为粮食产量,x为施肥量,另外考虑气候问题,分为正常年份和干旱年份两种情况,这个问题数量化方法就是引入一个0-1型变量D,令D i=1 表示正常年份,D i=0表示干旱年份,粮食产量的回归模型为:y i=β0+β1x i+β2D i+εi。
因变量是定性变量时,一般用logistic回归模型(分组数据的logistic回归模型,未分组数据的logistic回归模型,多类别的logistic回归模型),probit回归模型等。
三. 实验内容1.用DATA步建立一个永久SAS数据集,数据集名为xt103,数据见表21;对数据集xt103,建立y 对公司规模和公司类型的回归,并对所得到的模型进行解释。
2.研制一种新型玻璃,对其做耐冲实验。
用一个小球从不同的高度h对玻璃做自由落体撞击,玻璃破碎记为y=1,玻璃未破碎记y=0.数据见表22.是对表中数据建立玻璃耐冲性对高度h的logistic回归,并解释回归方程的含义。
3.某学校对本科毕业生的去向做了一个调查,分析影响毕业去向的相关因素,结果见表23.其中毕业去向“1”=工作,“2”=读研,“3”=出国留学。
性别“1”=男生,“0”=女生。
用多类别的Logisitic回归分析影响毕业去向的因素。
四.实验仪器计算机和SAS软件五.实验步骤和结果分析1.用DATA步建立一个永久SAS数据集,数据集名为xt103,数据见表21;对数据集xt103,建立y 对公司规模和公司类型的回归,并对所得到的模型进行解释。
R检验中R方为0.8951,可以认为回归拟合效果较好。
回归方程通过F检验,说明模型是显著成立的。
由参数估计表,可以看出,全部变量都是显著的,回归方程为:21^06.8102.087.33x x y +-=其中,x2是虚拟变量,当公司类型为“互助”时,x2为0,为“股份”时,x2为1。
由方程可知,x2为1,即股份制公司的保险革新措施速度y 会更大。
股份制公司采取保险革新措施的积极性比互助型公司高,股份制公司建立在共同承担风险上,更愿意革新。
公司规模越大,采取保险革新措施的倾向越大:大规模公司保险制度的更新对公司的影响程度比小规模公司大。
SAS 程序:data xt103;input y x1 x2 ;/*引入虚拟变量,将公司类型的互助设为0,股份设为1*/ cards ; 17 151 0 26 92 0 21 175 0 30 31 0 22 104 0 0 277 0 12 210 0 19 120 0 4 290 0 16 238 0 28 164 1 15 272 1 11 295 1 38 68 1 31 85 121 224 120 166 113 305 130 124 114 246 1;run;proc reg data=xt103;model y=x1 x2;run;2.研制一种新型玻璃,对其做耐冲实验。
用一个小球从不同的高度h对玻璃做自由落体撞击,玻璃破碎记为y=1,玻璃未破碎记y=0.数据见表22.是对表中数据建立玻璃耐冲性对高度h的logistic回归,并解释回归方程的含义。
模型信息:模型解出的是y=0的概率。
由三个检验中,统计量的P 值都小于0.05,可以认为模型是显著的。
由Wald 检验的显著性概率及其P 值,可以看出,h 变量对方程的影响是显著的。
由极大似然估计,各个参数系数也通过检验。
因此模型有效。
二元logit 模型为)98.759.14ex p(1)98.759.14ex p()0(h h y p -+-==模型意义为,小球掉落高度为h ,则玻璃未破碎的概率为p,而y=0表示玻璃未破碎。
也就是说,该种新型的玻璃,用小球对其撞击,当小球的掉落高度为h 时,玻璃未破碎的概率就是)98.759.14ex p(1)98.759.14ex p()0(h h y p -+-==,那么,玻璃会破碎的概率就为1-p(y=0),这也可以看成是一种比例,就是大量实验中,同个高度h ,玻璃会被击破的比例。
SAS程序:data wjz;input h y ;/*引入虚拟变量,将公司类型的互助设为0,股份设为1*/ cards;1.50 01.52 01.54 01.56 01.58 11.60 01.62 01.64 01.66 01.68 11.70 01.72 01.74 01.76 11.78 01.80 11.82 01.84 01.86 11.88 11.90 01.92 11.94 01.96 11.98 12.00 1;run;proc logistic data=wjz;model y=h;run;proc logistic data=wjz;class h;model y=h/link=glogit aggregate scale=none;run;3.某学校对本科毕业生的去向做了一个调查,分析影响毕业去向的相关因素,结果见表23.其中毕业去向“1”=工作,“2”=读研,“3”=出国留学。
性别“1”=男生,“0”=女生。
用多类别的Logisitic 回归分析影响毕业去向的因素。
专业课x1英语x2性别x3月生活费x4毕业去向y两个统计量的P值均大于0.05,说明模型拟合的较好。
检验全局零假设: BETA=0 无效假设检验结果(似然比,评分)的结果P值均小于0.01,具有显著统计学意义。
三个变量中,有两个是不显著的变量,x3,x2,剔除x3:两个统计量的P值均大于0.05,说明模型拟合的较好。
检验全局零假设: BETA=0 无效假设检验结果(似然比,评分,wald)的结果P值均小于0.01,具有显著统计学意义。
三个变量都是显著的。
以x4=“1”,即参加工作,为参照。
由模型可以看出:)0101.0122.0012.08.011-ex p()004.0038.017.0116.19-ex p(1)004.0038.017.0116.19-ex p()2(421421421x x x x x x x x x y p ++-++++++++==)0101.0122.0012.08.011-ex p()004.0038.017.0116.19-ex p(1)0101.0122.0012.08.011-ex p()3(421421421x x x x x x x x x y p ++-+++++++-==从参数估计表中,与参加工作的同学相比,读研的(y=2)的同学相比,读研的同学其专业课成绩更好(x1的P 值=0.003),而外语成绩(x2的p 值=0.356)和经济状况(x4的P 值=0.184)没有显著差异;出国留学的(y=3)学生其专业课成绩和参加工作的没有显著差异,外语成绩和经济状况则更好。
Sas 程序:data a;input x1 x2 x3 x4 y; cards ; 95 65.0 1 600 2 63 62.00 850 182 53.0 0 700 260 88.0 0 850 372 65.0 1 750 185 85.0 0 1000 3 95 95.0 0 1200 2 92 92.0 1 950 263 63.0 0 850 178 75.0 1 900 190 78.0 0 500 182 83.0 1 750 280 65.0 1 850 383 75.0 0 600 260 90.0 0 650 375 90.0 1 800 263 83.0 1 700 185 75.0 0 750 273 86.0 0 950 286 66.0 1 1500 3 93 63.0 0 1300 2 73 72.0 0 850 186 60.0 1 950 276 63.0 0 1100 1 96 86.0 0 750 271 75.0 1 1000 1 63 72.0 1 850 260 88.0 0 650 167 95.0 1 500 186 93.0 0 550 163 76.0 0 650 186 86.0 0 750 276 85.0 1 650 182 92.0 1 950 373 60.0 0 800 182 85.0 1 750 275 75.0 0 750 172 63.0 1 650 181 88.0 0 850 392 96.0 1 950 2;run;proc print;run;proc logistic;class x3;model y(ref='3')=x1 x2 x3 x4/link=glogit aggregate scale=none ;run;proc logistic;class x3;model y(ref='3')=x1 x2 x4/link=glogit aggregate scale=none ;run;proc logistic;class x3;model y(ref='1')=x1 x2 x4/link=glogit aggregate scale=none ;run;六.收获与思考七. 思考题当自变量是定性变量的时候,我们需要引进虚拟变量进行数量化,当定性变量有n个水平的时候,我们该引进多少的虚拟变量,否则会怎样?不妨试试在sas中试试会出现什么问题。
答:当定性变量有n个水平时应该引进n-1个虚拟变量。
否则最后一个虚拟变量无法用最小二乘估计计算出来。
例:X1-X3为虚拟变量。
Data a;input x1 x2 x3 x y@@;cards;1 0 0 1.26 75 1 0 0 1.35 77 1 0 0 1.40 78 1 0 0 1.58 820 1 0 1.71 65 0 1 0 1.76 66 0 1 0 1.80 68 0 1 0 1.85 700 0 1 1.22 68 0 0 1 1.35 69 0 0 1 1.46 70 0 0 1 1.44 72;proc reg data=a;model y=x1-x3 x;run;X3没有参数估计结果。