第七章思考与练习参考答案1.答:函数关系是两变量之间的确定性关系,即当一个变量取一定数值时,另一个变量有确定值与之相对应;而相关关系表示的是两变量之间的一种不确定性关系,具体表示为当一个变量取一定数值时,与之相对应的另一变量的数值虽然不确定,但它仍按某种规律在一定的范围内变化。
2.答:相关和回归都是研究现象及变量之间相互关系的方法。
相关分析研究变量之间相关的方向和相关的程度,但不能确定变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况;回归分析则可以找到研究变量之间相互关系的具体形式,并可变量之间的数量联系进行测定,确定一个回归方程,并根据这个回归方程从已知量推测未知量。
3.答:单相关系数是度量两个变量之间线性相关程度的指标,其计算公式为:总体相关系数,样本相关系数。
复相关系数是多元线性回归分析中度量因变量与其它多个自变量之间的线性相关程度的指标,它是方程的判定系数2R 的正的平方根。
偏相关系数是多元线性回归分析中度量在其它变量不变的情况下两个变量之间真实相关程度的指标,它反映了在消除其他变量影响的条件下两个变量之间的线性相关程度。
4.答:回归模型假定总体上因变量Y 与自变量X 之间存在着近似的线性函数关系,可表示为t t t u X Y ++=10ββ,这就是总体回归函数,其中u t 是随机误差项,可以反映未考虑的其他各种因素对Y 的影响。
根据样本数据拟合的方程,就是样本回归函数,以一元线性回归模型的样本回归函数为例可表示为:tt X Y 10ˆˆˆββ+=。
总体回归函数事实上是未知的,需要利用样本的信息对其进行估计,样本回归函数是对总体回归函数的近似反映。
两者的区别主要包括:第一,总体回归直线是未知的,它只有一条;而样本回归直线则是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归直线。
第二,总体回归函数中的0β和1β是未知的参数,表现为常数;而样本回归直线中的0ˆβ和1ˆβ是随机变量,其具体数值随所抽取的样本观测值不同而变动。
5.最小二乘法是在根据样本数据估计样本回归方程时,采用残差平方和作为衡量总偏差的尺度,找到使得残差平方和最小的回归系数0ˆβ和1ˆβ的取值的估计方法。
根据微积分中求极小值的原理,可知欲使残差平方和Q 达到最小,Q 对0ˆβ和1ˆβ的偏导数必须等于零。
6.答:总离差平方和是因变量的实际观测值和样本均值的离差平方和;回归平方和是因变量的理论回归值与样本均值的离差平方和;残差平方和是实际观测值与理论回归值的离差平方和。
三者之间的关系是:总离差平方和= 回归平方和+ 残差平方和。
7.答:判定系数R2是回归平方和占总离差平方和的比例,它是对估计的回归模型拟合程度的度量。
它可以解释为:在因变量的离差中,可以由自变量所解释的部分。
R2越接近于1,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好;反之,R2越接近于0,回归直线的拟合程度就越差。
8.答:一元回归模型中,估计标准误差是对各观测数据在回归直线周围分散程度的一种度量值,它是对随机误差项tu 的标准差σ的估计。
它反映了用样本回归方程估计因变量Y时平均误差的大小。
9.答:在多元线性回归方程中,F 检验是对回归方程整体显著性的检验,其原假设为所有回归系数全部为零,即只要其中有一个自变量的回归系数不显著为零,其F 检验就能通过,即该方程整体上是显著的。
但是这并不意味着每个自变量与因变量的关系都显著。
而t 检验是对每个回归系数的显著性单独进行检验,它主要用于检验每个自变量对因变量的影响是否显著非零。
10.答:在一元线性回归模型中,不同的模型都仅包含一个自变量,如果使用的样本容量也一样,判定系数便可以直接作为评价拟合程度的尺度。
然而在多元线性回归模型中,不同模型所包含的自变量个数未必相同,如果在模型中额外增加一个自变量,即使这个自变量没有经济意义,在统计上也不显著,2R 仍可能会变大,至少不会下降,因此为了避免增加自变量而高估2R ,需要对多元线性回归方程的判定系数进行修正,其计算公式为:11)1(122---*--=p n n R R a 。
11.答:(1)人均GDP 与人均消费水平的散点图如下:由散点图可以看出二者之间呈线性正相关关系。
(2)根据样本相关系数公式∑∑∑----=22)()())((Y Y X X Y Y X X r tttt计算可得,人均GDP 与人均消费水平之间的线性相关系数。
(3)各地人均国内生产总值和人均消费水平的有关数据如下表:地区 人均国内生产总值X (元) 人均消费水平(元)X 2 Y 2 XY北京 22460 7326 504451600 53670276 164541960 辽宁 11226 4490 126023076 20160100 50404740 上海 34547 11546 1193495209 133310116 398879662 江西 4851 2396 23532201 5740816 11622996 河南 5444 2208 29637136 4875264 12020352 贵州 2662 1608 7086244 2585664 4280496 陕西 4549 2035 20693401 4141225 9257215合计 85739316091904918867 224483461 651007421已知n =7,∑X =85739,∑Y =31609,∑2X =1904918867,∑XY =651007421,因此根据公式7-9计算可得,,。
估计的一元线性回归方程为:X Y309.0693.734ˆ+=。
其中,0.309表示人均国内生产总值每增加1元,人均消费水平平均增加0.309元;734.693表示与人均国内生产总值无关的人均消费水平平均为734.693元。
(4)根据判定系数公式∑∑∑∑---=--==22222)()ˆ(1)()ˆ(Y Y Y Y Y Y Y Y SSTSSRR tt t计算可得,。
其意义为,在人均消费水平的离差中,有99.6%可以由人均消费水平与人均GDP 之间的线性回归方程来解释,该方程的拟合程度较好。
(5)第1步:提出假设H 0:01=β,即两个变量之间的线性关系不显著。
H 1:01≠β,即两个变量之间的线性关系显著。
第2步:计算检验统计量 根据公式MSEMSRn SSE SSR F =-=)2/(1/计算可得,。
第3步:做出决策在α=0.05的显著性水平下,查F 分布表(分子自由度为1、分母自由度为5),得到临界值F α=6.61。
由于F>F α,因此拒绝H 0,即两个变量之间的线性关系是显著的。
(6)根据回归方程计算可得,,即预测该地区人均消费水平平均为2279.693元。
12.答:啤酒广告费用和销售量的有关数据如下表:啤酒品牌广告费X (万元) 销售量Y (万箱)X 2Y 2XYA 120.0 36.3 14400.00 1317.69 4356.00B 68.7 20.7 4719.69 428.49 1422.09C 100.1 15.9 10020.01 252.81 1591.59D 76.6 13.2 5867.56 174.24 1011.12E 8.7 8.1 75.69 65.61 70.47F 1.0 7.1 1.00 50.41 7.10G 21.5 5.6 462.25 31.36 120.40H 1.4 4.4 1.96 19.36 6.16I 5.3 4.4 28.09 19.36 23.32J 120.0 36.3 2.8918.49 7.31合计40512035579.14 2377.82 8615.56已知n =10,∑X =405,∑Y =120,∑2X =35579.14,∑XY =8615.56,因此根据公式7-9计算可得,,。
估计的一元线性回归方程为:X Y196.0062.4ˆ+=。
13.答:(1) 表7-11 不同广告费用的方差分析表 方差来源df SS MS F Significance F回归11602708.60 1602708.60 399.102.17E-09残差 10 40158.07 4015.81总计 11 1642866.67(2),因此汽车销售量的变差中有97.6%是由广告费用的变动引起的。
(3),即销售量与广告费用之间的相关系数为0.988。
(4)估计的回归方程为:ˆ363.689 1.42YX =+ 其中,1.42表示广告费用每增加1个单位,汽车销售量平均增加1.42个单位;363.689表示广告费用为0时汽车销售量平均为363.689个单位。
(5)F 检验,提出原假设和备择假设:H 0:01=β;H 1:01≠β。
由表7-11可知,F 统计量为399.10,其精确的显著性水平p 值为2.17×10-9,远小于显著性水平α=0.05,因此拒绝H 0,认为两个变量之间的线性关系是显著的。
14.计算过程可参考11和12题,具体过程略。
答:(1)以航班正点率为自变量,顾客投诉次数为因变量得到的回归方程为:ˆY430.19 4.70X =-,其中-4.7表示航班正点率每提高1%,投诉次数平均下降4.70次;430.19没有明确的实际意义,也可以解释为当航班正点率为0时,顾客平均投诉次数为430.19次。
(2)t 检验,提出假设: 01:0H β=;11:0H β≠,t 统计量为-4.96,显著性水平α为0.05,自由度为8,查t 分布表,找到相应的临界值2(102) 2.306t α-=,由于2t t α>,则能够拒绝0H ,表明自变量X 对因变量Y 的影响是显著的。
(3)X=80带入样本回归方程,得到顾客平均投诉次数为54次。
15.答:(1)回归方程为ˆY348.9414.41X =+,其中,14.41表示当广告费每增加1万元时,销售量平均会增加14.41辆;与广告费无关的销售量平均为348.94。
(2)SSR= 755456,SSE= 37504,判定系数210.95SSR SSER SST SST==-=,其统计含义:在销售量的离差中,有95%可以由广告费和销售量之间的线性回归方程来解释;或者说在销售量的变动中,有95%是由广告费用因素决定的,说明该方程的拟合程度较好。
(3)在一元线性回归中,相关系数r 的平方就等于判定系数,而相关系数的r 与回归系数1β的正负号是相同的。
所以相关系数0.97r ==。
(4)将广告费用X=1000带入所得回归方程中得汽车销售量Y=14758.94辆。
(568.47=辆,其统计含义,根据广告费用对汽车销售量进行估计时,平均的估计误差为68.47辆。