实验十三 商品需求量的预测【实验目的】1.了解回归分析的基本原理和方法。
2.学习用回归分析的方法解决问题,初步掌握对变量进行预测和控制。
3.学习掌握用MATLAB 命令求解回归分析问题。
【实验内容】现有某种商品的需求量、消费者的平均收入、商品价格的统计数据如表1所示,试用所提供的数据预测消费者平均收入为1000、商品价格为6时的商品需求量。
【实验准备】现实生活中,一切事物都是相互关联、相互制约的。
我们将变化的事物看作变量,那么变量之间的相互关系,可以分为两大类:一类是确定性关系,也叫作函数关系,其特征是一个变量随着其它变量的确定而确定,如矩形的面积由长宽确定;另一类关系叫相关关系,其特征是变量之间很难用一种精确的方法表示出来,如商品销量与售价之间有一定的关联,但由售价我们不能精确地计算出销量。
不过,确定性关系与相关关系之间没有一道不可逾越的鸿沟,由于存在实际误差等原因,确定性关系在实际问题中往往通过相关关系来体现;另一方面,当对事物内部规律了解得更加深刻时,相关关系也可能转化为确定性关系。
1.回归分析的基本概念回归分析就是处理变量之间的相关关系的一种数学方法,它是最常用的数理统计方法,能解决预测、控制、生产工艺化等问题。
由相关关系函数确定形式的不同,回归分析一般分为线性回归、非线性回归和逐步回归,在这里我们着重介绍线性回归,它是比较简单的一类回归分析,在实际问题的处理中也是应用得较多的一类。
回归分析中最简单的形式是y =0β+1βx +ε (x 、y 为标量) (1)固定的未知参数0β,1β称为回归系数,自变量x 称为回归变量,ε是均值为零的随机变量,它是其他随机因素对y 的影响,是不可观察的,我们称(1)为一元线性回归。
它的一个自然推广是x 是多元变量,形如y =0β+1β1x +…+m βm x +ε (2)m ≥2,我们称为多元线性回归,或者更有一般地y =0β+1β)(1x f +…+m β)(x f m +ε (3)其中x =(1x ,…,m x ),)(x f j (j =1,…,m )是已知函数,称为非线性回归(也叫曲线或曲面回归)。
不难看出,对自变量x 作变量替换,一般能够将非线性回归(3)转化为线性回归(2)的形式进行求解分析,所以我们着重讨论线性回归的内容。
对(2)式两边同时取数学期望得 Y =X β+ε (E ε=0,εD =2σ) (4)其中1 11x … m x 11yX = … … … Y = …1 1n x … nm x n yβ=(0β,1β,…,m β)T ,ε=(1ε,2ε,…,n ε)T(4)式称为线性回归方程。
线性回归分析所要考虑的主要任务是:用试验值(样本值)对未知参数β和2σ作点估计,同时对估计值作假设检验,从而确立y 与1x ,…,m x 之间的数量关系;在0x =(01x ,…,m x 0)处对y 值作预测与控制,即对y 作区间估计。
这里我们均假设样本容量大于变量个数,即n >m +1。
2.模型的参数估计和假设检验用最小二乘法估计模型(4)中的参数,作离差平方和 Q =∑=ni i12ε=21110).....(im m ni i ix x yβββ----∑= (5)求β使得Q 达到最小。
根据微积分学中求极值的方法,只需求Q 关于0β,1β,…,m β一阶导数为0的方程组的解,此解不是0β,1β,…,m β的真值,而是β的最小二乘估计值,我们用0β),1β),…,m β)表示β)=Y X X X TT 1)(- (6) 将β的估计值0β),1β),…,m β)代入回归方程(4)得到y 的估计值y )=0β)+1β)1x +…+m β)m x (7) 拟合误差e =y -y )称为残差,可作为随机误差ε的估计,而Q =∑=ni ie12=∑=-ni i y 12i)(y)(8)为残差平方和(或剩余平方和),即)(β)Q 。
在实际问题中,事先我们并不知道或者不能断定随机变量y 与一组变量1x ,…,m x 之间有线性关系,如(2)式y =0β+1β1x +…+m βm x +ε往往只是一种假设,因此在求出线性回归方程后,还须对求出的线性回归方程同实际观测数据拟合效果进行检验,可提出以下原假设: 0H :0β=1β=…=m β=0 (9) 采用F 检验法或R 检验法(详细内容在数理统计类书籍中均可查到,此处不再赘述),拒绝0H ,则认为y 与1x ,…,m x 之间显著地有线性关系;否则就接受0H ,认为y 与1x ,…,m x 之间线性关系不显著。
3.变量的预测与控制当回归模型和系数通过了假设检验后,可由给定的0x =(01x ,…,m x 0)预测出0y ,0y 是随机的,显然由回归方程(7)知道,其预测值(点估计)为0y )=0β)+1β)01x +…+m β)m x 0 (10) 对于给定的显著水平a ,可以算出0y 的预测区间(区间估计),结果较复杂,但当n 较大且i x 0接近平均值i x ,0y 的预测区间可简化为 [0y )-s ua21-,0y )+s u a21-] (11)其中21a u-是标准正态分布的1-2a分位数。
对于0y 的区间估计方法可用于给出已知随机数据的残差e =y -y )的置信区间,e 服从均值为零的正态分布,所以若某个i e 的置信区间不包括零点,则认为这个数据是异常的,可予以剔除。
4.MATLAB 统计工具箱中的回归分析命令多元线性回归模型(4)可采用命令regress ,此命令也可用于求解一元线性回归,其格式如下所示:多元二项式回归用命令rstool,格式如下:对于非线性回归模型的求解命令我们也一并给出,可用命令nlinfit,nlintool,nlpredci来实现,其格式如下:【实验方法与步骤】1.引例问题的分析求解由问题提供的数据,我们可以初步判断,商品的需求量与消费者的平均收入和商品价格之间存在某种相关关系,具体的函数关系式我们还不清楚。
输入三组数据,我们先独立分析商品需求量与消费者平均收入,商品需求量与价格之间存在何种关系:>> x1=[1000 600 1200 500 300 400 1300 1100 1300 300]';%消费者的平均收入>> x2=[5 7 6 6 8 7 5 4 3 9]';%商品价格>> y=[100 75 80 70 50 65 90 100 110 60]';%商品的需求量>> plot(x1,y,'+')%以消费者的平均收入和商品的需求量所对应的离散点作图>> plot(x2,y,'+')%以商品的价格和商品的需求量所对应的离散点作图3456789由上面两图我们看到商品的需求量随着消费者平均收入增加呈线性递增的趋势,而随着商品的价格增加呈线性递减趋势,这样我们可初步判断商品需求量与消费者平均收入和商品价格之间存在某种线性相关的关系。
接下来用多元线性回归来进行分析检验:>> x=[ones(10,1) x1 x2];>> [b,bint,r,rint,stats]=regress(y,x)b =bint =stats =可知回归系数0β=,1β=,2β=,它们的置信区间为bint ,均包含了回归系数的估计值,stats 第一个分量为,第三个分量p =<,拒绝H 0,说明回归方程系数不为0,线性回归方程模型y =+1x -2x (12)成立。
继续对残差进行分析,作残差图: >> rcoplot(r,rint)12345678910-20-100102030从残差图可以看出,大多数数据的残差离零点较近,且残差的置信区间全部包含零点,这进一步说明回归模型(12)能近似地符合原始数据。
现利用线性回归方程对引例问题的要求作出预测,1x =1000,2x =6 >> z=+**6 z =得到结果,当消费者平均收入为1000、商品价格为6时的商品需求量大约为。
【结果分析】利用线性回归分析所得结果,我们看到stats 第一个分量为,它并不十分接近1,且部分残差离零点较远,这说明回归模型还存在缺陷,几个随机变量之间的线性关系有待改进,我们不妨用多元二项式回归来试验: >> x=[x1,x2];>> rstool(x,y,'purequadratic')400600800100012002040608010012014045678得到一交互式画面,左图是x2固定时曲线y(x1)及置信区间,右图是x1固定时曲线y(x2) 及置信区间。
在x1,x2指示框中分别输入1000和6,即预测到平均收入为1000、价格为6时商品需求量为。
在下拉列表框Export 中选择“all ”,把beta (回归系数)、rmse (剩余标准差)和residuals (残差)传送到MATLAB 工作区,在命令框中输入 >> beta,rmse,residuals即可得beta 、rmse 、residuals 的数值 beta = rmse =在Model 下拉列表菜单对linear 、purequadratic 、interaction 、quadratic4模型比较剩余标准差,其中purequadratic 型的剩余标准差相比其它3个模型的剩余标准差最接近于0,故此回归模型的显著性较好。
我们用纯二次回归模型所得的残差与前面线性回归模型所得的残差列表进行比较显然由二元纯二次多项式所得残差绝大多数要比由线性回归模型所得残差更接近零点,由最小二乘法原理我们可以相信,改进后的回归模型y =+1x -2x -21x +22x 能够更好地近似原始数据。
【练习与思考】1.电影院调查电视广告费用和报纸广告费用对每周收入的影响,得到下面的数据,建立回归模型并进行检验,诊断是否有异常点。
2.由成年女子身高与裤长的样本,研究成年女子身高与裤长的潜在关系。
制定服装标准时,抽样测量了15个成年女子身高与裤长的数据如下表(单位:cm)试研究这些数据之间的潜在关系,并预测身高170(cm)的成年女子裤长为多少。
3.某建材实验室在作陶粒混凝土实验,考察每立方混凝土的水泥用量(kg)对于28天后抗压强度(kg /cm2)影响,测试所得数据如下:试求抗压强度关系水泥用量的回归函数,相关系数r,对于x=225(kg)时,预测抗压强度y,并且给出y的置信度为95%的预测区间。