当前位置:文档之家› 多种类型的回归模型

多种类型的回归模型

数学建模第二次作业例一:(线性模型)针叶松数据该数据包含70棵针叶松的测量数据,其中y 表示体积(单位立方英尺),x 1为树的直径(单位:英寸),x 2为树的高度(单位:英尺)。

x 1 4.6 4.4 5.0 5.1 5.1 … 19.4 23.4 x 2 33 38 40 49 37 … 94 104 解答:(1)问题分析:首先根据这组数据做自变量与因变量之间的关系图,如图1.1 。

由图可知y 随x 1、x 2的增加而增加,从而可大致判断y 与x 1,x 2呈线性关系。

判断是线性回归模型后进行细节的量纲分析,得出具体模型,从而利用已知的线性模型,借助R 软件求解出估计量0β,1β,β2的值得出最终结果。

图1.1(2)模型基础设变量Y 与变量X 1,X 2,…,XP 间有线性关系Y=εββββ+++++P P X X X (22110)其中N ~ε(0,2σ),P βββ,...,,10和2σ是未知参数,p ≥2,称上述模型为多元线性回归模型,则模型可以表示为:n i x x y i ip p i i ,...,2,1,...110=++++=εβββ其中()2,0σεN i ∈,且独立分布 即令⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n y y y y 21,⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=p ββββ 10,⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x x x x x X ...1...1 (12)12222111211,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n εεεε 21则多元线性回归模型可表示为εβ+=X Y ,其中Y 是由响应变量构成的n 维向量,X 是n ⨯(p+1)阶设计矩阵,β是p+1维向量,并且满足E (ε)=0,Var (ε)=2σI n与一元线性回归类似,求参数β的估计值βˆ,就是求最小二乘函数 Q (β)=()()ββX y X y T--达到最小的β的值。

β的最小二乘估计()y X X X T T 1ˆ-=β从而得到经验回归方程P P X X Y βββˆˆˆˆ11+++=(3)问题求解:由于体积与长度的量纲不一致,为了使等式两边量纲统一,首先利用excel 软件对数据进行预处理,即对y 进行三次开方的处理。

其中,选择线的性模型为:i i i i x x y εβββ+++=221103,i=1,…,703y 计算结果如下表1.10β=0.03291β=0.1745 2β=0.0142根据计算结果可以将x 1,x 2的值带入回归方程求解y 值,将所得y 值(实验值)与真实y 值(观测值)进行比较达到检验模型模拟优度的目的,得下图1.2图1.2由图1.2得,回归系数和回归方程检验都是显著的,模型模拟结果较好。

则该题结果为:ii i x x y 2130142.01745.000329.0++=(4)模型评价:①模型优点:选取线性回归模型有效反应了自变量与因变量之间的内在关系,在利用线性模型的基础上,注意到保持等式两边量纲的一致性,体现模型的严谨性。

②模型缺点:当x 值增大时,y 实验值增长速度加快,模拟出现偏差。

例二:(非线性模型)欧洲野兔No. 1 2 4 5 … 70 71 X 15 15 18 28 … 768 860 y 21.66 22.75 31.25 44.79 … 232.12 246.70这组数据包含71组观测值,其中y 为在澳大利亚的欧洲野兔干燥眼球重量(单位:毫克)的对数值,x 为野兔相应的年龄(单位:天)。

、解答:(1)问题分析:要求澳大利亚的欧洲野兔年龄与干燥眼球重量之间的关系,首先应该大致分析两者之间的线性关系。

确定其大致性关系后进一步具体化分析,得出澳大利亚的欧洲野兔年龄与干燥眼球重量之间的具体模型并建立函数模型,通过对未知参数的求解得出最终结果。

本题中,通过spss 模型进行初步估计后建模具体求解 (2)问题求解:利用spss 软件对野兔年龄(自变量x)与干燥眼球重量(因变量y )进行画图初步分析,所得结果如图2.1图2.1由图2.1可知,x、y两者呈非线性关系,故需用非线性回归模型进行进一步估计。

(2)由(1)知x、y两者呈非线性关系,则用曲线估计中的线性、对数、逆模型、二次项、立方、幂次、复合、S、logistic、增长、指数分布等11种模型进行拟合,所得结果如表2.1,拟合效果图见图2.2.表2.1模型汇总和参数估计值因变量:重量模型汇总参数估计值方程R 方 F df1 df2 Sig. 常数b1 b2 b3 线性.762 217.236 1 68 .000 82.217 .264对数.970 2184.028 1 68 .000 -173.394 62.940倒数.636 118.830 1 68 .000 186.705 -3748.419二次.950 636.309 2 67 .000 37.172 .689 -.001三次.979 1016.731 3 66 .000 17.289 1.035 -.002 1.061E-6 复合.559 86.313 1 68 .000 76.813 1.002幂.936 999.744 1 68 .000 7.021 .571S .860 416.599 1 68 .000 5.279 -40.205增长.559 86.313 1 68 .000 4.341 .002指数.559 86.313 1 68 .000 76.813 .002Logistic .559 86.313 1 68 .000 .013 .998图2.2由表2.1知三次模拟的R方值0.979与其他10种模拟中相比最大,证明三次模型模拟的效果最好。

观察图2.2可进一步验证三次模型模拟所得曲线与观测值最接近,故用三次模型进行具体模拟。

(3)由(2)知x、y两者符合三次非线性模型,则设x、y之间的函数关系为y i=b1-b2(xi-b3)^(-1)+c过spss软件求解得相关参数b1、b2、b3、c如表2.2由表2.2知,b1=1.035、b2=-0.002、b3=1.0616⨯、c=17.289,则x、y之间函10-数关系为:y i=1.035–(-0.002)*(xi-1.0616⨯)+ 17.289。

其函数图象如图2.310-图2.3(3)模型评价:①模型优点:该模型充分考虑x、y变量之间的非线性关系,经过多种模拟模型的相互比较筛选,得出模拟效果最好的三次非线性模型模拟函数,结果比较可靠,从函数图象来看模拟值与真实值之间较为接近,模拟效果较好。

②模型缺点:从最终的模拟模式图中我们可以看到当自变量年龄较大时,重量的真实值与模拟值差异增大,模拟效果变差。

例三(分类数据模型):降雨数据123,4示偏少,y=2表示正常,y=3表示偏多。

解答:(1)问题分析考虑多因素的影响时,对于反应变量为分类变量时(如本题的预报因子),用线性回归模型就不合适,因此可以采用logistic回归模型进行统计分析,由于题目中响应变量(降雨情况)是由3种不同的取值,于是便可以利用多分类的Logistic模型。

(2) 模型基础① 设y 是一个响应变量有c 个取值,从0到c -1,并且y=0是一个参照组,协变量x=(p x x x ,,,21 ),那么可以得到y 的条件概率:P (y=k|x )=∑-=+11)()(1c jx g x g i k ee其中k=0,1,2,...,c -1.由此得到相应的logistic 回归模型:)(x g k e=()()⎥⎥⎦⎤⎢⎢⎣⎡==x y P x k y P 0ln =p kp k k x βββ+++ 10② 最小二乘估计对y 每一个取值进行n 次独立观测,可以得到如下矩阵:⎪⎪⎪⎪⎪⎭⎫ ⎝⎛-1212222111211n n n p p y y y y y y y y y=⎪⎪⎪⎪⎪⎭⎫⎝⎛npn p p x x x x x x 1221111111⎪⎪⎪⎪⎪⎭⎫⎝⎛---p c ppc c ,1211,121110,12010βββββββββ令 Y=⎪⎪⎪⎪⎪⎭⎫⎝⎛-1212222111211n n n p p y y y y y yy y y, X=⎪⎪⎪⎪⎪⎭⎫⎝⎛np n p p x x x x x x 1221111111 B=⎪⎪⎪⎪⎪⎭⎫⎝⎛---p c ppc c ,1211,121110,12010βββββββββ记B=(121,...,,-c βββ),则有Y=XB 成立. 于是可以得到β的最小二乘估计:[]Y X XX T T1-=β③ 似然函数为构造似然函数,利用二进制编码表示观测值,规定如果y=0那么y 0=1,y 1=y 2=…=y c -1=0;如果y=1,那么y 0=0,y 1=1,y 2=…=y c -1=0;以此类推,可以得出无论y 取何值,总有∑-==101c j j y 成立,可得似然函数:l ])(...)()([)(110111ic iiy i c ni y i y i o x x x --=∏=πππβ=()[]∏∏=-=⎭⎬⎫⎩⎨⎧ni c j yi j jix 110π(*)其中()()i i j x j y P x ==π对(*)式两端取对数得似然函数:L (β)=()[]∑∑-==101ln c j ni i i ji x y π(3) 模型求解:本题中,c=3,可以取y=2作为参照组,通过Stata 软件中的mlogit 命令,建立多类结果的logistic 回归,如下图3.1图3.1从图中可以得出:logit (21y y →)=543.8623.50471.136.716.124321+-+-x x x x logit (23y y →)=18.9001.057.011.138.43321-+-+-x x x x(4)模型评价本题将二分类logistic 回归模型的知识推广到多分类logistic 回归模型,有效的解决了多种响应变量的分类数据问题。

例4.非参数模拟实验数据产生自()n i n i r Y i i ,,1,/ =+=σε,其中,n=1000,)1,0(~,1.0N i εσ=,估计函数表达式 解答:(1)问题分析:对于非参数回归主要有核回归,样条回归以及局部多项式回归,利用所给公式通过matlab 生成的1000个随机数据,考虑到核回归多用于密度估计的随机样本回归,便采用非参数回归中的核回归,通过最小均方误差比较,选取最优核Epanechnikov 核,然后通过缺一交叉验证选取带宽h=0.04 ,模拟出离散曲线图。

最后通过曲线图,估计出函数表达式。

(2)模型基础在非参数核函数估计领域里,有两个基本工具:核函数K (u )和带宽(h ),前者包含点x 区间中观测值的权重,而后者主要控制包含观测值的多少在核函数回归中,需要进行核函数和带宽的选择,其中和函数有4种不同的形式,依据最优均方误差可以发现Epanechnikov 核是最优的核函数,即())u ()u 1(43u 2I K -=,其中I(⋅)为示性函数,满足I (u )=⎪⎩⎪⎨⎧≤1,01u ,1 u利用缺一交叉验证选择带宽: CV (h )=[]211)n (2)(1)(ˆ1)(ˆn1∑∑==-⎥⎦⎤⎢⎣⎡--=-ni ni ii i i i i iL x r Y nx r Y这里)(ˆi r -指未用数据点(x i ,Y i )时所得到的估计,ii L 为光滑矩阵L 的第i 个对角元,其中L=(l (x 1),…,l (x n ))T(3)模型求解首先由原始数据画出相应散点图进行趋势预估,所得图形见下图4.1图4.1接着,用样条回归以及局部多项式回归进行拟合分析,Epanechnikov核函数进行平滑估计。

相关主题