对回归分析的认识、体会和思考海口市第一中学潘峰一、教材分析1.内容编排散点图、最小二乘估计的基本思想、最小二乘估计的计算公式、建立回归方程并进行预报等回归分析的部分内容在《数学3(必修)》中已经出现过。
在此基础上,本章通过现实生活中遇到的问题“女大学生身高和体重的关系”进一步讨论一元线性回归模型,分析产生模型中随机误差项的原因,并从相关系数的角度研究了两个变量间线性相关关系的强弱,从而让学生了解在什么情况下可以考虑使用线性回归模型。
教材介绍了一元线性回归模型的残差平方和分解的思想,从而给出相关指数的含义,即相关指数越大,模型拟合的效果越好。
从残差分析的角度研究所选用的回归模型是否合适,引导学生初步体会检验模型的思想。
为提高学生解决应用问题的能力,教材还强调了用解释变量(自变量)估计预报变量(因变量)时需要注意的问题(这点总结得非常的好,帮助学生思考),总结建立回归模型的基本步骤。
作为线性回归模型的一个应用,教材还给出了一个处理非线性相关关系的例子,并通过相关指数比较不同模型对同一样本数据集的拟合效果。
这里所涉及的非线性相关关系可以通过变换转化成线性相关关系,从而可以用线性回归模型进行研究。
这个例子没有增加难度,但能开阔学生的思路,使学生了解虽然任何数据对都可以用线性回归模型来拟合,但其拟合的效果并不一定最好,可以探讨用其他形式的回归模型来拟合观测数据。
2.学习价值:⑴.数理统计已成为人们的常识,它几乎渗透到每一学科中,哪里有试验,哪里有数据,哪里就少不了数理统计,不懂数理统计,就无法应付大量信息;⑵.现代社会是信息社会,学会搜集、测量、评价信息做出决策是一个人成功必备的素质。
3.教材处理的优点:⑴.总以一些生动活泼的、丰富的实际情境引入,激发学生的兴趣和学习激情;⑵.以恰时恰点的问题引导学生思考,培养问题意识,孕育创新精神;(这点对我们教师的思考也是一种帮助)⑶.螺旋上升地安排核心概念和数学思想,加强数学思想方法的渗透与概括;⑷.对高等知识点到即止,强调类比、推广、特殊化、化归等思想方法的运用,开阔视野,提高数学思维能力,培育理性精神。
4.重点和难点重点:了解线性回归模型与函数模型的差异;了解判断刻画模型拟合效果的方法—相关指数和残差分析。
难点:解释残差变量的含义;了解偏差平方和分解的思想。
5.目标定位:⑴.了解随机误差、残差、残差分析等概念;明确掌握相关关系,回归方程,散点图等定义; ⑵.了解回归分析的基本思想,会求回归直线方程,并会用回归直线方程进行预报;⑶.掌握建立回归模型的一般步骤;⑷.会用残差分析、判断线性回归模型的拟合效果;⑸.了解相关系数、会用相关系数判断相关关系的强弱;5.方法指引:⑴.对于回归分析只通过案例了解方法即可,不论是线性回归方程或者非线性回归方程,都只是模拟而已,是不确定中的确定性;⑵.了解最小乘法的思想方法,理解回归方程与一般函数的差别与联系;⑶.会用书中介绍的方法搜集资料、分析资料,感兴趣的同学可从互联网上查询相关资料。
二、 教材中的要点精析:1. 相关关系:自然界中,大量存在着一些变量,它们之间相互联系、相互依存,关系密切。
大致分为两类:一类是函数关系,又叫确定性关系;一类是相关关系,又叫不确定性关系、统计相关关系。
2. 回归分析:是对具有相关关系的两变量进行统计分析的一种常用方法。
通俗地讲,回归分析就是寻找相关关系中非确定性关系的某种确定性。
其步骤为画散点图,求回归直线方程,并用回归直线方程进行预报。
3. 回归函数,也叫回归方程。
形如y bx a =+的散点图的各个点大致分布在一条直线附近,这种分析就叫线性回归分析,直线方程叫做回归直线方程。
不是形如y bx a =+的回归方程,我们称之为非线性回归方程,具体选择何种类型,由经验判断,再分析残差是否异常,确定选择的好与坏。
回归直线:对于一组线性相关关系的数据 ,其回归直线方程的斜率b ∧和截距a ∧的最小乘法估计公式分别为:121()(),()ni ii n ii x x y y b x x ∧==--=-∑∑ (1) ,a y b x ∧∧=- (2) 其中1111,.n ni i i i x x y y n n ====∑∑ (,)x y 称为样本点的中心,回归直线过样本点的中心。
线性回归模型:与函数关系不同,在回归模型y bx a e =++中的y 的值是由x 和随机因素e 共同确定的,即x 只能解释部分y 的变化,因此把x 称为解释变量,把y 称为预报变量,其中a b 和为模型的未知参数,e 是y 与bx a +之间的误差。
通常e 为随机变量,称为随机误差,它的均值Ey bx a =+。
线性回归模型的完整表达式为:y bx a e =++ ,其中随机误差e 的方差 越小,通过回归直线预报真实值的精确度越高。
随机误差e 是引起预报值y ∧与真实值y 之间误差的原因之一,其大小取决于随机误差e 的方差。
再者由于公式(1)、(2)中的a b ∧∧和分别为截距和斜率的估计值,与真实值a b 和之间也有误差,这也是引起预报值y ∧与真实值y 之间误差的另一个原因。
4. 残差分析因为随机误差是随机变量,因此可以通过这个变量的数字特征来刻画它的一些总体特征。
均值是反映随机变量取值平均水平的数字特征,方差反映随机变量集中于均值程度的数字特征,而随机误差的均值0,因此可以用方差来衡量随机误差的大小。
为了衡量预报的精度,需要估计i e 的值,通过样本方差来估计总体方差。
解决问题的途径是通过样本的估计值i e ∧来估计i e 的值。
根据截距和斜率的估计公式(1)、(2),可以建立回归方程y b x a ∧∧=+,其中b ∧是b 的估计量,a ∧是a 的估计量。
对于样本点而言,相应于它们的随机误差为 i e ,其估计值为i e ∧, 称为相应于数据点的残差。
类比样本方差估计总体方差的思想,可用i y ∧作为i y 的估计量,其中i y ∧是由公式(1)、(2)给出的,21()n i ii y y ∧=-∑成为残差平方和。
可以用残差平方和衡量回归方程的预报精度。
通常残差平方和越小,预报精度越高。
在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据。
然后,可以通过残差12,,,n e e e ∧∧∧来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析。
利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计等,这样作出的图形称为残差图。
5.散点图表示相关关系的两个变量的一组数据,作为点的坐标,在直角坐标系中描出来得到的图形叫散点图。
散点图使相关关系具有直观性。
6.回归分析的解题规律:a) 在解具体问题过程中,通常是先进行相关检验,通过检验确认两个变量具有线性相关关系时,再求其线性回归方程;b) 相关性检验有几种方法,教材用的是相关系数r 和相关指数2R ,两者在教材中具有平方关系(在只有一个解释变量的线性模型中2R 恰好等于相关系数r 的平方)。
当0r >时,表明两个变量正相关;当0r <时,表明两个变量负相关。
当r 越接近于1,表示相关程度越好,表明两个变量的线性相关性越强,r 越接近于0,表示相关程度越差,表明两个变量之间几乎不存在线性相关关系;同样2R 取值越大,意味着残差平方和越小,模型的拟和效果越好,回归方程的预报精度越高。
在线性回归模型中,2R 表示解释变量对于预报变量变化的贡献率,2R 越接近1,表示回归的效果越好。
c) 相关程度的强弱,除相关系数的大小之外,与选取的数据个数多少有关,还有一个问题是显著性临界值的选取,教材中点到即止,没有往下交待;d) 回归分析计算量大,现在一般用计算机解决,学习中只要求明白原理即可;e) 教材中直接选取对数变换是选取比较简单的函数演示而已,还可以做其他函数模拟;f) 回归分析中,通常先观察散点图,若分布在一条直线附近,经验证线性相关,则选一次函数,否则选取其他函数模拟;g) 判断两个变量的相关程度通常有:其一相关系数 ,相关系数r 的绝对值越接近于1,相关程度越高;相关指数2R ,与r 类似,2R 的值越大残差平方和越小,拟合越精确。
h) 判断模拟精确的尺度为:2R (或残差平方和)的大小。
7.建立回归模型的一般的基本步骤:① 确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;② 画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);③ 由经验确定回归方程的类型(如观察到的数据呈现性关系,则选用线性回归方程y bx a =+); ④ 按一定规则估计回归方程中的参数(如最小二乘法);⑤ 得出的结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等。
[典型例题]例1.已知10只狗的血球体积及红血球的测量值如下x 45 42 46 48 42 35 58 40 39 50y 6.53 6.30 9.25 7.50 6.99 5.90 9.49 6.20 6.55 7.72x (血球体积,mm),y (红血球数,百万) (1) 画出上表的散点图;(2)求出回归直线并且画出图形 (3)若血球体积为49mm,预测红血球数大约是多少?解:(1)见下图(要学会运用计算机技术辅助我们数学学习,加强直观上的效果,这里要求学生会运用简单的excel 作出散点图,并直接通过计算机拟合出回归直线,具体步骤见本文最后的附录)。
设回归直线为y b x a ∧∧=+,利用公式(1)、(2)计算得0.1597,0.1364b a ∧∧==所以所求回归直线的方程为y = 0.1597x + 0.1364 ,图形如下:(3)由(2)中求出的回归直线方程,把49x =代入,得7.9617y =(百万),计算结果表明,当血球体积为49mm 时,红血球数大约为7.9617百万。
[实战演练]1.某种产品表面进行腐蚀性试验,得到腐蚀深度y 与腐蚀时间t 之间对应的一组数据: 时间()t s 5 10 15 20 30 40 50 60 70 90 120深度()y m μ 6 10 10 13 16 17 19 23 25 29 46(1)试求腐蚀深度y 对时间t 的回归直线方程;(2)预测腐蚀时间为80 s 时产品腐蚀的深度大约是多少?解:(1)经计算可得0.3043, 5.3444b a ∧∧==故所求的回归直线方程为 y = 0.3043x + 5.3444(2)由(1)求出的回归直线方程,把80x =代入,易得29.6884()y m μ=,计算结果表明,当腐蚀80 s 时产品腐蚀深度大约为29.6884m μ8.非线性回归:在散点图中样本点并没有分布在某个带壮区域内,因此两个变量不呈线性相关关系,不能直接用线性回归方程来建立两个变量之间的关系。