当前位置:文档之家› 高中数学学案回归分析

高中数学学案回归分析

§3.2 回归分析(1)
教学目标
(1)通过实例引入线性回归模型,感受产生随机误差的原因;
(2)通过对回归模型的合理性等问题的研究,渗透线性回归分析的思想和方法; (3)能求出简单实际问题的线性回归方程. 教学重点,难点
线性回归模型的建立和线性回归系数的最佳估计值的探求方法. 教学过程
一.问题情境
1. 情境:对一作直线运动的质点的运动过程观测了8次,得到如下表所示的数据,试估计当
根据《数学(必修)》中的有关内容,解决这个问题的方法是: 先作散点图,如下图所示:
从散点图中可以看出,样本点呈直线趋势,时间x 与位置观测值y 之间有着较好的线性关系.因此可以用线性回归方程来刻画它们之间的关系.根据
线性回归的系数公式,
1
221()n
i i i n i i x y nx y b x n x a y bx
==⎧
-⎪
⎪=⎪⎨-⎪⎪=-⎪⎩∑∑ 可以得到线性回归方为 3.5361 2.1214y x =+,所以当9x =时,由线性回归方程可以估计其位置值为22.6287y =
2.问题:在时刻9x =时,质点的运动位置一定是22.6287cm 吗?
二.学生活动
思考,讨论:这些点并不都在同一条直线上,上述直线并不能精确地反映x 与y 之间的关系,y 的值不能由x 完全确定,它们之间是统计相关关系,y 的实际值与估计值之间存在着误差. 三.建构数学
1.线性回归模型的定义:
我们将用于估计y 值的线性函数a bx +作为确定性函数;
y 的实际值与估计值之间的误差记为ε,称之为随机误差;
将y a bx ε=++称为线性回归模型.
说明:(1)产生随机误差的主要原因有:
①所用的确定性函数不恰当引起的误差; ②忽略了某些因素的影响; ③存在观测误差.
(2)对于线性回归模型,我们应该考虑下面两个问题: ①模型是否合理(这个问题在下一节课解决); ②在模型合理的情况下,如何估计a ,b ? 2.探求线性回归系数的最佳估计值:
对于问题②,设有n 对观测数据(,)i i x y (1,2,3,
,)i n =,根据线性回归模型,对于
每一个i x ,对应的随机误差项()i i i y a bx ε=-+,我们希望总误差越小越好,即要使
2
1
n
i
i ε
=∑越小越好.所以,只要求出使2
1
(,)()
n
i
i
i Q y x αββα==
--∑取得最小值时的α,β值作
为a ,b 的估计值,记为a ,b .
注:这里的i ε就是拟合直线上的点(),i i x a bx +到点(),i i i P x y 的距离. 用什么方法求a ,b ?
回忆《数学3(必修)》“2.4线性回归方程”P71“热茶问题”中求a ,b 的方法:最小二乘法.
利用最小二乘法可以得到a ,b 的计算公式为
1
1
22211
()()()()n
n
i i i i
i i n n
i i
i i x x y y x y nx y
b x x x
n x a y bx
====⎧
---⎪
⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑,
其中11n i i x x n ==∑,1
1n
i i y y n ==∑
由此得到的直线y a bx =+就称为这n 对数据的回归直线,此直线方程即为线性回归方程.其中a ,b 分别为a ,b 的估计值,a 称为回归截距,b 称为回归系数,y 称为回归值.
在前面质点运动的线性回归方程 3.5361 2.1214y x =+中, 3.5361a =, 2.1214b =. 3. 线性回归方程y a bx =+中a ,b 的意义是:以a 为基数,x 每增加1个单位,y 相应地
平均增加b 个单位;
4. 化归思想(转化思想)
在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.下面列举出一些常见的曲线方程,并给出相应的化为线性回归方程的换元公式. (1)b y a x =+
,令'y y =,1
'x x
=,则有''y a bx =+. (2)b
y ax =,令'ln y y =,'ln x x =,'ln a a =,则有'''y a bx =+. (3)bx
y ae =,令'ln y y =,'x x =,'ln a a =,则有'''y a bx =+. (4)b x y ae =,令'ln y y =,1
'x x
=
,'ln a a =,则有'''y a bx =+. (5)ln y a b x =+,令'y y =,'ln x x =,则有''y a bx =+.
四.数学运用 1.例题:
例1.下表给出了我国从1949年至1999年人口数据资料,试根据表中数据估计我国2004年的人口数.
解:为了简化数据,先将年份减去1949,并将所得值用x 表示,对应人口数用
y 表示,
作出11个点(),x y 构成的散点图,
由图可知,这些点在一条直线附近,可以用线性回归模型y a bx ε=++来表示它们之间的关系.
根据公式(1)可得
14.453,
527.591.
b a ⎧≈⎪⎨
≈⎪⎩ 这里的,a b 分别为,a b 的估 计值,因此线性回归方程 为527.59114.453y x =+
由于2004年对应的55x =,代入线性回归方程527.59114.453y x =+可得1322.50
y =(百万),即2004年的人口总数估计为13.23亿. 例2. 某地区对本地的企业进行了一次抽样调查,下表是这次抽查中所得到的各企业的
人均资本x (万元)与人均产出y (万元)的数据:
(1)设y 与x 之间具有近似关系b
y ax ≈(,a b 为常数),试根据表中数据估计a 和b 的值; (2)估计企业人均资本为16万元时的人均产出(精确到0.01).
分析:根据x ,y 所具有的关系可知,此问题不是线性回归问题,不能直接用线性回归方
程处理.但由对数运算的性质可知,只要对b
y ax ≈的两边取对数,就能将其转化为线性关系.
解(1)在b
y ax ≈的两边取常用对数,可得lg lg lg y a b x ≈+,设lg y z =,lg a A =,
lg x X =,则z A bX ≈+.相关数据计算如图327--所示.
仿照问题情境可得A ,b 的估计值A ,b 分别为0.2155,
1.5677,
A b ⎧=-⎪⎨=⎪⎩由lg 0.2155a =-可得
0.6088a ≈,即a ,b 的估计值分别为0.6088和1.5677.
(2)由(1)知1.56770.6088y x =.样本数据及回归曲线的图形如图328--(见书本102P
页)
当16x =时, 1.56770.60881647.01y =⨯≈(万元),故当企业人均资本为16万元时,人均产值约为47.01万元.
2.练习:104P 练习第1题. 五.回顾小结:
1. 线性回归模型y a bx ε=++与确定性函数y a bx =+相比,它表示y 与x 之间是统计相
关关系(非确定性关系)其中的随机误差ε提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a ,b 的工具;
2. 线性回归方程y a bx =+中a ,b 的意义是:以a 为基数,x 每增加1个单位,y 相应地
平均增加b 个单位; 3.求线性回归方程的基本步骤. 六.课外作业:106P 第2题.。

相关主题