第七章相关与回归分析学习内容一、变量间的相关关系二、一元线性回归三、线性回归方程拟合优度的测定学习目标1. 掌握相关系数的含义、计算方法和应用2. 掌握一元线性回归的基本原理和参数的最小二3. 掌握回归方程的显著性检验4. 利用回归方程进行预测5. 了解可化为线性回归的曲线回归6. 用Excel 进行回归分析一、变量间的相关关系1. 变量间的关系(函数关系)1)是一一对应的确定关系。
2)设有两个变量x和y,变量y 随变量x一起变化,并完全依赖于x,当变量x 取某个数值时,y依确定的关系取相应的值,则称y 是x的函数,记为y = f (x),其中x 称为自变量,y 称为因变量。
3)各观测点落在一条线上。
4)函数关系的例子–某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p 为单价)。
–圆的面积(S)与半径之间的关系可表示为S = π R2。
–企业的原材料消耗额(y)与产量x1、单位产量消耗x2、原材料价格x3间的关系可表示为y =x1 x2 x3。
单选题下面的函数关系是()A、销售人员测验成绩与销售额大小的关系B、圆周的长度决定于它的半径C、家庭的收入和消费的关系D、数学成绩与统计学成绩的关系2. 变量间的关系(相关关系)1)变量间关系不能用函数关系精确表达。
2)一个变量的取值不能由另一个变量唯一确定。
3)当变量 x 取某个值时,变量 y 的取值可能有几个。
4)各观测点分布在直线周围。
5)相关关系的例子–商品的消费量(y)与居民收入(x)之间的关系。
–商品销售额(y)与广告费支出(x)之间的关系。
–粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度 (x3)之间的关系。
–收入水平(y)与受教育程度(x)之间的关系。
–父亲身高(y)与子女身高(x)之间的关系。
3. 相关图表1)相关表:将具有相关关系的原始数据,按某一顺序平行排列在一张表上,以观察它们之间的相互关系。
2)相关图:也称为分布图或散点图,它是在平面直角坐标中把相关关系的原始数据用点描绘出来,通常以直角坐标轴的横轴代表自变量x,纵轴代表因变量y。
4. 相关关系的类型相关关系的图示(散点图)5. 相关关系的测度(相关系数)1)对变量之间关系密切程度的度量。
2)对两个变量之间线性相关程度的度量称为简单相关系数。
3)若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ。
4)若是根据样本数据计算的,则称为样本相关系数,记为 r。
样本相关系数的计算公式化简为相关系数取值及其意义a)r 的取值范围是 [-1,1]。
|r|=1,为完全相关。
(r =1,为完全正相关。
r =-1,为完全负相关。
)b)r = 0,不存在线性相关关系。
c)-1<r<0,为负相关。
d)0<r<1,为正相关。
e) |r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切。
单选题①下列哪两个变量之间的相关程度高()– A、商品销售额和商品销售量的相关系数是0.9– B、商品销售额和商业利润率的相关系数是0.84– C、平均流通费用率与商业利润率的相关系数是0.94– D、商品销售价格与销售量的相关系数是-0.91②下列关系中,属于正相关关系的有()– A、合理限度内,施肥量和平均单产量之间的关系– B、产品产量与单位产品成本之间的关系– C、商品的流通费用与销售利润之间的关系– D、流通费用率与商品销售量之间的关系③变量之间的相关程度越低,则相关系数值()A、越小B、越接近于0C、越接近于-1D、越接近于1④已知Σ(X-X¯)2是Σ(Y-Y¯)2的两倍,并已知Σ(X-X¯) (Y-Y¯)是Σ(Y-Y¯)2的1.2倍,则相关系数r为()A、不能计算B、0.6C、1.2/D、多选题变量之间的不完全相关可以表现为()A、零相关B、正相关C、负相关D、曲线相关E、相关系数为1求X与Y的相关系数二、一元线性回归1. 什么是回归分析?(内容)1)从一组样本数据出发,确定变量之间的数学关系式。
2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。
3)利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。
回归分析与相关分析的区别1)相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化。
2)相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量。
3)相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y的影响大小,还可以由回归方程进行预测和控制。
多选题线性相关分析的特点表现为()– A、两个变量之间的地位是对等关系– B、只能算出一个相关系数– C、相关系数有正负号– D、相关的两个变量必须都是随机变量– E、不反映任何自变量和因变量的关系回归模型的类型2. 一元线性回归1)涉及一个自变量的回归。
2)因变量y与自变量x之间为线性关系。
–被预测或被解释的变量称为因变量,用y表示。
–用来预测或用来解释因变量的一个或多个变量称为自变量,用x表示。
3)因变量与自变量之间的关系用一条线性方程来表示。
3. 一元线性回归模型(概念要点)1)当只涉及一个自变量时称为一元回归,若因变量y 与自变量 x 之间为线性关系时称为一元线性回归。
2)对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系。
3)描述因变量 y 如何依赖于自变量 x 和误差项ε的方程称为回归模型。
4)一元线性回归模型可表示为: y =(a+bx)+ ε◆y 是 x 的线性函数(部分)加上误差项。
◆线性部分反映了由于 x 的变化而引起的 y 的变化。
◆误差项ε是随机变量,反映了除 x 和 y 之间的线性关系之外的随机因素对y 的影响,不能由 x 和 y之间的线性关系所解释的变异性。
◆a和 b称为模型的参数。
5)基本假定◆误差项ε是一个期望值为0的随机变量,即E(ε)=0。
◆对于一个给定的 x 值,y 的期望值为E ( y ) = a+ b x。
◆对于所有的 x 值,ε的方差σ2都相同。
◆误差项ε是一个服从正态分布的随机变量,且相互独立,即ε~N( 0 ,σ2 )。
–独立性意味着对于一个特定的 x 值,它所对应的ε与其他 x 值所对应的ε不相关。
–对于一个特定的 x 值,它所对应的 y 值与其他 x所对应的 y 值也不相关。
4. 回归方程1)描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程。
2)一元线性回归方程的形式如下: E( y ) =β0+ β1x–方程的图示是一条直线,也称为直线回归方程。
–β0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值。
–β1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值。
5. 估计(经验)回归方程1)总体回归参数β0和β1都是未知的,必须利用样本数据去估计。
2)用样本统计量a和b代替回归方程中的未知参数β0和β1,就得到了估计的回归方程。
3)简单线性回归中估计的回归方程为:yˆ = a + bx单选题劳动消耗和产量之间的回归方程为Y=18+2.1X,这意味着劳动消耗每增加一单位时,产量增加的单位为()A、8B、2.1C、20.1D、2.1%6. 参数a和b的最小二乘估计一元回归方程数值试验1)使因变量的观察值与估计值之间的离差平方和达到最小来求得a和b的方法。
即:2)用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小。
3)根据最小二乘法的要求,可得求解a和b的标准方程如上图。
参数a和b的最小二乘估计(例题)某从事饮食业的企业家认为高校后勤社会化是一个很好的投资机会,他得到10组高校人数与周边饭店季营业额的数据资料,并想根据数据决策其投资规模。
7. 回归系数与相关系数的关系b-回归系数 r-相关系数单选题在线性相关的条件下,自变量的均方差为2,因变量均方差为5,而相关系数为0.8时,则其回归系数为()A、8B、0.32C、2D、 12.5多选题①相关系数与回归系数()- A、回归系数大于零则相关系数大于零- B、回归系数小于零则相关系数小于零- C、回归系数大于零则相关系数小于零- D、回归系数小于零则相关系数大于零- E、回归系数等于零则相关系数等于零②直线回归方程y=a+bx 中的b 称为回归系数,回归系数的作用是()– A、可确定两变量之间因果的数量关系– B、可确定两变量的相关方向– C、可确定两变量相关的密切程度– D、可确定因变量的实际值与估计值的变异程度– E、可确定当自变量增加一个单位时,因变量的平均增加量三、线性回归方程拟合优度的测定1. 离差平方和的分解1)因变量 y 的取值是不同的,y 取值的这种波动称为变差。
变差来源于两个方面:-由于自变量 x 的取值不同造成的。
-除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响。
2)对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 y − y来表示。
图解三个平方和的关系三个平方和的意义1)总平方和(SST)总偏差-反映因变量的 n 个观察值与其均值的总离差。
2)回归平方和(SSR)回归偏差-反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与y 之间的线性关系引起的 y的取值变化,也称为可解释的平方和。
3)残差平方和(SSE)剩余偏差-反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和。
-2. 判定系数r21)回归平方和占总离差平方和的比例。
2)反映回归直线的拟合程度。
3)取值范围在 [ 0 , 1 ] 之间。
4)r2 →1,说明回归方程拟合的越好;r2→0,说明回归方程拟合的越差。
5)判定系数等于相关系数的平方,即r2=(r)2。
r2等于多少?3. 估计标准误差 S yx1)实际观察值与回归估计值离差平方和的均方根。
2)反映实际观察值在回归直线周围的分散状况。
3)从另一个角度说明了回归直线的拟合程度。
4)计算公式为:S yx越小,拟合越好;S yx越大,拟合越差。
5)相关系数与估计标准误差在数量上具有以下关系:r值与估计标准误差负相关。
单选题①回归估计的估计标准误差的计量单位与()– A、自变量相同– B、因变量相同– C、自变量及因变量相同– D、相关系数相同②计算估计标准误差的依据是()– A、因变量的总变差– B、因变量的回归变差– C、因变量的剩余变差– D、因变量数列多选题估计标准误差是反映()– A、回归方程代表性大小的指标– B、估计值与实际值平均误差程度的指标– C、自变量与因变量离差程度的指标– D、因变量估计值的可靠程度的指标– E、回归方程适用价值大小的指标判断题①回归系数b和相关系数r都可用来判断现象之间相关的密切程度。