当前位置:文档之家› 回归分析与独立性检验

回归分析与独立性检验

回归分析与独立性检验知识要点及解析1.函数关系与相关关系的区别?函数关系是一种确定性关系,而相关关系是一种非确定性关系.2.回归公式∑∑∑∑====--=---=ni ini ii ni ini iix n xy x n yx x x y yx x b1221121)())((ˆ x b y a ˆˆ-= a x b yˆˆˆ+= 3.回归分析的步骤?回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法, 其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报.4.回归直线的性质 a x by ˆˆ+= ⑴回归直线 过样本点的中心()y x , 其中解释变量x 的平均数为: ∑==n i i x n x 11 预报变量y 的平均数为: ∑==ni i y n y 11⑵回归直线的斜率的估计值bˆ的意义:解释变量x 每增加一个单位,预报变量y 就增加bˆ个单位. 5.求线性回归方程的五个步骤: ⑴计算y x x y x 、、、2⑵计算∑=ni ii yx 1⑶计算∑=ni ix12⑷代入系数公式求bˆ⑸代入公式计算a ˆ 例题1:下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的能耗y (吨标准煤)的几组数据:⑴画出散点图;⑵求出线性回归方程a x b yˆˆˆ+= ⑶已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)问求出的线性回归方程预测(估计)生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?a xb yˆˆˆ+=例题2:从某大学中随机选取8名女大学生,其身高和体重数据如表所示:⑴画出散点图;⑵求出根据身高预报体重的回归方程a x b yˆˆˆ+= ⑶根据以上回归方程预测一名身高为172cm 的女大学生的体重.例题3:下表是某厂1~4月份用水量(单位:百吨)的一组数据,由散点图可知:用水量y 与月份x 之间有较好的线性相关关系,其线性回归方程为a x yˆ7.0ˆ+-=, 请你预测该厂5月份的用水量大约为多少百吨?6.线性回归模型y=bx+a+e 中随机误差e 产生的原因?⑴选用的函数模型不恰当引起的误差 ⑵忽略了某些因素的影响 ⑶存在观测误差 7.如何发现数据中的错误?先分别计算出残差a x b y y y e ii i i ˆˆˆˆ--=-=然后选取横坐标为编号或解释变量x 或预报变量y,纵坐标为残差,作出残差图;最后观察:如果样本点的残差较大(落在带状区域外),说明数据的采集有可能错误。

8.如何衡量模型的拟合效果?方法1:在残差图中,残差点比较均匀落在带状水平区域内,说明选用的模型比较合适;带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高例题1:根据一位母亲记录儿子3~9岁身高数据,建立儿子身高(单位:cm)对年龄(单位:岁)的线性回归方程 93.7319.7ˆ+=x y,若用此方程预测儿子10岁时的身高,下列有关叙述正确的是( )A .身高一定为145.83cm;B .身高大于145.83cm;C .身高小于145.83cm;D .身高在145.83cm 左右例2.用两个模型分别去拟合某组数据,这两个模型的残差图(以样本编号为横坐标)分别如图1、图2,试判断这两个模型哪一个的拟合效果更好,为什么?例3.下表是某产品的广告费x 与销售额y 的统计数据.由散点图可知广告费x 与销售额y之间有较好的线性相关关系,其线性回归方程为a x yˆ4.9ˆ+= , 根据此模型,请你预测广告费为6万元时,销售额大约为多少万元?方法2:残差平方和:残差i eˆ的平方和越小,回归模型拟合效果越好. 方法3:相关指数R 2: ()()∑∑==---=n i ini i iy yy yR 12122ˆ1 其中. 在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率,相关指数R 2越接近于1(越大),回归模型拟合效果越好。

例题:在两个变量y 与x 的回归模型中,分别选择了4个不同的模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的R 2=0.98 B .模型2的R 2=0.80 C .模型3的R 2=0.50 D .模型4的R 2=0.25 9.用线性回归模型进行预报时应注意的几个问题:⑴样本数据来自哪个总体,预报时也仅适用这个总体⑵模型的时效性,利用不同时间段的样本数据建立的模型,只能用来对那段时间范围的数据进行预报⑶建立模型时,变量的取值范围决定了预报时模型的适用范围,通常不能超出太多 ⑷在回归模型中,因变量的值不能由自变量完全确定.()102≤≤R10.建立回归模型的基本步骤:⑴确定研究对象,明确哪个是解释变量,哪个是预报变量 ⑵画出散点图,观察两个变量之间的关系 ⑶由经验确定回归方程的类型⑷按一定规则(如最小二乘法)估算回归方程中的参数⑸回归分析残差图是否异常、数据是否有误、所选模型是否合适等; ⑹最后才利用回归方程进行预报。

例题:调查显示某地若干户家庭的年收入x(单位:万元)与年饮食支出y(单位:万元)具有线性相关关系,其回归方程为 ,利用回归方程,求家庭年收入每增加1万元,年饮食支出平均增加多少万元?11.用换元法求非线性回归方程例题1:在一次抽样调查中测得样本的5组数据,试建立y 与x 之间的回归方程.分析:由散点图知y 与x 近似地呈反比例函数关系,可设a x b y +=令xt 1=则a bt y += 画出y 关于t 的散点图知y 与t 呈近似的线性相关关系,可设线性回归方程为:a t b yˆˆˆ+= 得=---=∴∑∑==51251)())((ˆi ii i it ty y t tb1344.43.945.38≈ =-=∴t b y aˆˆ8.055.11344.42.7≈⨯- 8.01344.4ˆ+=∴t y∴y 与x 之间的回归方程为8.01344.4ˆ+=xy 例题2:下表记录了篮球爱好者小明某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y 之间的关系。

⑴求投篮命中率y 关于打篮球时间x 之间的线性回归方程 ⑵预测小明该月6号打6小时篮球的命中率例题2:为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:⑵试求出预报变量对解释变量的回归方程. (所求非线性回归方程为0.69 1.112ˆy=e x +.) 321.0254.0ˆ+=x y12.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. 13.2×2列联表与等高条形图:例题1:某学校对高三学生作了一次调查发现:在平时的模拟考试中,性格内向学生426人中有332人在考前心情紧张;性格外向学生594人中有213人在考前心情紧张 ⑴先作出2×2列联表,然后作出等高条形图; ⑵利用等高条形图判断考前心情紧张与性格类别是否有关例题2:下表是某地区的一种传染病与饮用水的调查统计表:⑴先填表,后计算饮用干净水得传染病的频率,以及饮用不干净水得传染病的频率 ⑵作出等高条形图⑶利用等高条形图判断得传染病是否与饮用水有关14.独立性检验的定义:利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验))()()(()(22d b c a d c b a bc ad n K ++++-= 其中d c b a n +++=15.独立性检验的步骤:⑴制定判别规则:根据实际问题的需要,确定容许推断“两个分类变量有关系”犯错误概率的上界α ,然后查表确定临界值k 0 ⑵利用公式计算随机变量K 2的观测值k⑶如果K 2的观测值k 很大,说明“X 与Y 有关系”,观测值k 很小,说明“X 与Y 没有关系” 如果k ≥k 0 ,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α,即有α-1的把握认为“X 与Y 有关系”例题:针对某地区的一种传染病与饮用水进行抽样调查发现:饮用干净水得病5人,不得病50人;饮用不干净水得病9人,不得病22人。

⑴作出2×2列联表⑵能否有90%的把握认为该地区中得传染病与饮用水有关? 分析:作出2×2列联表计算随机变量K 2的观测值≈⨯⨯⨯⨯-⨯⨯=72143155)950225(862k 5.785查表知5.785>2.706 且P(K 2≥2.706)=0.10∴在犯错误的概率不超过0.10的前提下, 可以认为“该地区中得传染病与饮用水有关”,即 有90%的把握认为该地区中得传染病与饮用水有关16.如何判断两个分类变量之间有关系?方法1:观察等高条形图,若发现小矩形的高相差很大,就可以粗略判断两个分类变量之间有关系方法2:计算|ad-bc|,若|ad-bc|越大,则说明两个分类变量之间关系越强; 方法3:计算dc c b a a W +-+=,若W 越大,则说明两个分类变量之间关系越强; 方法4:计算K 2的观测值k,若k 越大,则说明“X 与Y 的关系”越强.例题:通过随机调查发现:爱好运动的大学生中男生有40人,女生有20人;不爱好运动的大学生中男生有20人,女生30人. ⑴作出2×2列联表;⑵能否有99%的把握认为 “爱好运动与性别有关”.。

相关主题