当前位置:文档之家› 多种类型地回归模型

多种类型地回归模型

实用文档 大全 数学建模第二次作业 例一:(线性模型) 针叶松数据该数据包含70棵针叶松的测量数据,其中y表示体积(单位立方英尺),x1为树的直径(单位:英寸),x2为树的高度(单位:英尺)。 No. 1 2 3 4 5 … 69 70 x1 4.6 4.4 5.0 5.1 5.1 … 19.4 23.4 x2 33 38 40 49 37 … 94 104 y 2.2 2.0 3.0 4.3 3.0 … 107.0 163.5

解答: (1)问题分析: 首先根据这组数据做自变量与因变量之间的关系图,如图1.1 。由图可知y随x1、x2的增加而增加,从而可大致判断y与x1,x2呈线性关系。判断是线性回归模型后进行细节的量纲分析,得出具体模型,从而利用已知的线性模型,借助R

软件求解出估计量0,1,2的值得出最终结果。

图1.1 (2)模型基础 设变量Y与变量X1,X2,…,XP间有线性关系

Y=PPXXX...22110

其中N~(0,2),P,...,,10和2是未知参数,p2,称上述模型为多元线性回归模型,则模型可以表示为: nixxyiippii,...,2,1,...110

其中2,0Ni,且独立分布 即令

0 20 40 60 80 100 120 140 160 180 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 x与y关系图

x1 x2 y 实用文档

大全 nyyyy21,p10,npnnppxxxxxxxxxX...1...1...1212222111211,

n

2

1

则多元线性回归模型可表示为 XY,

其中Y是由响应变量构成的n维向量,X是n(p+1)阶设计矩阵,是p+1维

向量,并且满足 E()=0,Var()=2

I

n

与一元线性回归类似,求参数的估计值ˆ,就是求最小二乘函数

Q()=XyXyT 达到最小的的值。 的最小二乘估计

yXXXTT1ˆ

从而得到经验回归方程

PPXXYˆˆˆˆ11

(3)问题求解: 由于体积与长度的量纲不一致,为了使等式两边量纲统一,首先利用excel软件对数据进行预处理,即对y进行三次开方的处理。

其中,选择线的性模型为:iiiixxy221103,i=1,…,70

3y计算结果如下表1.1

表1.1 3y 1.30 1.26 1.44 1.62 1.44 … 4.75 5.47

利用R软件中的回归函数,可以求得

0=0.0329

1=0.1745

2=0.0142 实用文档 大全 根据计算结果可以将x1,x2的值带入回归方程求解y值,将所得y值(实验值)与真实y值(观测值)进行比较达到检验模型模拟优度的目的,得下图1.2

图1.2 由图1.2得,回归系数和回归方程检验都是显著的,模型模拟结果较好。

则该题结果为:iiixxy

2130142.01745.000329.0

(4)模型评价: ①模型优点:选取线性回归模型有效反应了自变量与因变量之间的内在关系,在利用线性模型的基础上,注意到保持等式两边量纲的一致性,体现模型的严谨性。 ②模型缺点:当x值增大时,y实验值增长速度加快,模拟出现偏差。

例二:(非线性模型)欧洲野兔 No. 1 2 4 5 … 70 71 X 15 15 18 28 … 768 860 y 21.66 22.75 31.25 44.79 … 232.12 246.70 这组数据包含71组观测值,其中y为在澳大利亚的欧洲野兔干燥眼球重量(单位:毫克)的对数值,x为野兔相应的年龄(单位:天)。、

解答: (1)问题分析:要求澳大利亚的欧洲野兔年龄与干燥眼球重量之间的关系,首先应该大致分析两者之间的线性关系。确定其大致性关系后进一步具体化分析,得出澳大利亚的欧洲野兔年龄与干燥眼球重量之间的具体模型并建立函数模型,通过对未知参数的求解得出最终结果。本题中,通过spss 模型进行初步估计后建模具体求解 (2)问题求解: 利用spss软件对野兔年龄(自变量x)与干燥眼球重量(因变量y)进行画图初步分析,所得结果如图2.1

-50 0 50 100 150 200 1 6 11 16 21 26 31 36 41 46 51 56 61 66

观测值与实验值对比

y观测值 y实验值 线性 (y观测值) 线性 (y实验值) 实用文档

大全 图2.1 由图2.1可知,x、y两者呈非线性关系,故需用非线性回归模型进行进一步估计。

(2)由(1)知x、y两者呈非线性关系,则用曲线估计中的线性、对数、逆模型、二次项、立方、幂次、复合、S、logistic、增长、指数分布等11种模型进行拟合,所得结果如表2.1,拟合效果图见图2.2. 表2.1

模型汇总和参数估计值 因变量:重量

方程 模型汇总 参数估计值 R 方 F df1 df2 Sig. 常数 b1 b2 b3 线性 .762 217.236 1 68 .000 82.217 .264 对数 .970 2184.028 1 68 .000 -173.394 62.940 倒数 .636 118.830 1 68 .000 186.705 -3748.419 二次 .950 636.309 2 67 .000 37.172 .689 -.001 三次 .979 1016.731 3 66 .000 17.289 1.035 -.002 1.061E-6 复合 .559 86.313 1 68 .000 76.813 1.002 幂 .936 999.744 1 68 .000 7.021 .571 S .860 416.599 1 68 .000 5.279 -40.205 增长 .559 86.313 1 68 .000 4.341 .002 指数 .559 86.313 1 68 .000 76.813 .002 Logistic .559 86.313 1 68 .000 .013 .998 实用文档 大全 图2.2 由表2.1知三次模拟的R方值0.979与其他10种模拟中相比最大,证明三次模型模拟的效果最好。观察图2.2可进一步验证三次模型模拟所得曲线与观测值最接近,故用三次模型进行具体模拟。

(3)由(2)知x、y两者符合三次非线性模型,则设x、y之间的函数关系为

yi=b1-b2(xi-b3)^(-1)+c过spss软件求解得相关参数b1、b2、b3、c如表2.2 表2.2 模型汇总和参数估计值 因变量:重量

方程 模型汇总 参数估计值 R 方 F df1 df2 Sig. 常数 b1 b2 b3 三次 .979 1016.731 3 66 .000 17.289 1.035 -.002 1.061E-6 自变量为 年龄。 由表2.2知,b1=1.035、b2=-0.002、b3=1.061610、c=17.289,则x、y之间函数关系为: yi=1.035 –(-0.002)*(xi-1.061610)+ 17.289。其函数图象如图2.3 实用文档 大全 图2.3 (3)模型评价: ①模型优点:该模型充分考虑x、y变量之间的非线性关系,经过多种模拟模型的相互比较筛选,得出模拟效果最好的三次非线性模型模拟函数,结果比较可靠,从函数图象来看模拟值与真实值之间较为接近,模拟效果较好。 ②模型缺点:从最终的模拟模式图中我们可以看到当自变量年龄较大时,重量的真实值与模拟值差异增大,模拟效果变差。

例三 (分类数据模型):降雨数据 年份 x1 x2 x3 x4 y 1951 0.58 82.0 44.0 40.6 1 1952 0.40 83.0 18.0 43.0 3 1953 0.55 85.0 36.0 30.7 3 … … … … … … 1973 0.53 83.0 23.0 61.3 2 1974 0.48 84.0 19.0 23.2 3 1975 0.30 85.0 27.0 17.5 3 北京市25年有关降雨资料,x1,x2,x3,x4是4个预报因子,y表示降雨情况:y=1表示偏少,y=2表示正常,y=3表示偏多。

解答: (1) 问题分析 考虑多因素的影响时,对于反应变量为分类变量时(如本题的预报因子),用线性回归模型就不合适,因此可以采用logistic回归模型进行统计分析,由于题目中响应变量(降雨情况)是由3种不同的取值,于是便可以利用多分类的

相关主题