当前位置:文档之家› 回归分析的基本思想及其初步应用

回归分析的基本思想及其初步应用

第一章:统计案例回归分析的基本思想及其初步应用实例为172cm的女大学生的体重.解:由于问题中要求根据身高预报体重,因此选自变量x,为因变量.(1)做散点图:从散点图可以看出和有比较好的相关关系.(2) = =所以于是得到回归直线的方程为(3)身高为172cm的女大学生,由回归方程可以预报其体重为新知:用相关系数r可衡量两个变量之间关系.计算公式为r =r>0, 相关, r<0 相关;相关系数的绝对值越接近于1,两个变量的线性相关关系,它们的散点图越接近;,两个变量有关系.x y81i iix y==∑821iix==∑81822188i iiiix y x ybx x==-==-∑∑a y bx=-≈y=r>例1某班5名学生的数学和物理成绩如下表:(2) 求物理成绩y 对数学成绩x 的回归直线方程;(3) 该班某学生数学成绩为96,试预测其物理成绩;练习1:下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗 (吨标准煤)的几组对照数据(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值)x y y x y bx a =+3 2.543546 4.566.5⨯+⨯+⨯+⨯=当堂检测1. 下列两个变量具有相关关系的是( ) A. 正方体的体积与边长 B. 人的身高与视力 C.人的身高与体重D.匀速直线运动中的位移与时间2. 在画两个变量的散点图时,下面哪个叙述是正确的( ) A. 预报变量在x 轴上,解释变量在 y 轴上 B. 解释变量在x 轴上,预报变量在 y 轴上C. 可以选择两个变量中任意一个变量在x 轴上D. 可选择两个变量中任意一个变量在 y 轴上 3. 回归直线必过( )A. B. C. D. 4.越接近于1,两个变量的线性相关关系 .5. 已知回归直线方程,则时,y 的估计值为 .6、一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验(2)求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为 10 个,那么机器的运转速度应控制在什么范围内?相关指数:表示 对 的贡献,公式为:的值越大,说明残差平方和 ,说明模型拟合效果 .残差分析:通过 来判断拟合效果.通常借助 图实现.残差图:横坐标表示 ,纵坐标表示 .残差点比较均匀地落在 的区的区域中,说明选用的模型 , 带状区域的宽度越 ,说明拟合精度越 ,回归方程的预报精度越y bx a =+(0,0)(,0)x (0,)y (,)x y r 0.50.81y x =-25x =2R 2R =2R为了对、y 两个变量进行统计分析,现有以下两种线性模型:,,试比较哪一个模型拟合的效果更好?例2 假定小麦基本苗数x与成熟期有效苗穗y 之间存在相关关系,今测得5组数据如下: (2)求回归方程并对于基本苗数56.7预报期有效穗数; (3)求,并说明残差变量对有效穗数的影响占百分之几. (参考数据:,)x 6.517.5y x =+717y x =+2R 2115101.51,6746.76,nni i i i i x x y ====∑∑521()50.18ii yy =-=∑521()9.117ii i yy =-=∑练1. 某班5名学生的数学和物理成绩如下表:(4)求学生A,B,C,D,E 的物理成绩的实际成绩和回归直线方程预报成绩的差.并作出残差图评价拟合效果.练习:1. 两个变量 y 与x 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 如下 ,其中拟合效果最好的模型是( ).A. 模型 1 的相关指数为 0.98B. 模型 2 的相关指数为 0.80C. 模型 3 的相关指数为 0.50D. 模型 4 的相关指数为 0.252. 在回归分析中,残差图中纵坐标为( ). A. 残差 B. 样本编号 C. x D.3. 通过来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分工称为( ).A.回归分析B.独立性检验分析C.残差分析D. 散点图分析4.越接近1,回归的效果 .5. 在研究身高与体重的关系时,求得相关指数,可以叙述为“身高解释了的体重变化,而随机误差贡献了剩余 ”所以身高对体重的效应比随机误差的 .2i i e y y =-2R 2R 2R 2R 2R n e 12,,,n e e e 2R 2R =69%练.(07广东文科卷)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗 (吨标准煤)的几组对照数据 (1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值) (4)求相关指数评价模型.实例一只红铃虫的产卵数和温度有关,现收集了7组观测数据列于下表中,试建立与 个(1)根据收集的数据,做散点图上图中,样本点的分布没有在某个 区域,因此两变量之间不呈 关系,所以不能直接用线性模型.由图,可以认为样本点分布在某一条指数函数曲线的周围(为待定系数).对上式两边去对数,得令,则变换后样本点应该分布在直线y 和x 的非线性回归方程. x y y x y bx a =+3 2.543546 4.566.5⨯+⨯+⨯+⨯=y x y /C y bx a y e +=,a b ln y =ln ,z y =作散点图(描点)由上表中的数据得到回归直线方程因此红铃虫的产卵数和温度的非线性回归方程为例1一只红铃虫的产卵数和温度有关,现收集了7组观测数据列于下表中,个(散点图如由图,可以认为样本点集中于某二次曲线的附近,其中为待定参数)试建立与之间的回归方程.练习:1. 两个变量 y 与x 的回归模型中,求得回归方程为,当预报变量时( ). A. 解释变量 B. 解释变量大于 C. 解释变量小于 D. 解释变量在左右2. 在回归分析中,求得相关指数,则( ). A. 解释变量解对总效应的贡献是 B. 解释变量解对总效应的贡献是 C. 随机误差的贡献是 D. 随机误差的贡献是(,)i i x z z =y x y x /C y 234y c x c =+12,c c y x 0.232x y e -=10x =30y e -=y 30e -y 30e -y 30e -20.89R =11%89%89%0.89%3. 通过来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分析称为( ).A .回归分析B .独立性检验分析C .残差分析 D. 散点图分析 4.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围,令,求得回归直线方程为,则该模型的回归方程为 .5. 已知回归方程,则时,y 的估计值为 .独立性检验的基本思想及其初步应用 新知2:统计量 吸烟与患肺癌列联表假设:吸烟与患肺癌没关系,则在吸烟者和不吸烟者中患肺癌不患肺癌者的相应比例 .即因此, 越小,说明吸烟与患肺癌之间关系 ;反之, .=例1 吸烟与患肺癌列联表求.练1. 性别与喜欢数学课程列联表:喜欢数学 不喜欢数学 总 计 男 37 85 122 女 35 143 178 总 计 72 228 300求.12,,,n e e e bx a y e +=ln z y =0.25 2.58z x =-0.5ln ln 2y x =-100x =2K 0H 2K 2K 2K 不患肺癌 患肺癌 总计 不吸烟 7775 42 7817 吸 烟 2099 49 2148 总 计98749199652. 独立性检验的步骤(略)及原理(与反证法类似):反证法 假设检验 要证明结论A 备择假设H在A 不成立的前提下进行推理 在H 不成立的条件下,即H 成立的条件下进行推理推出矛盾,意味着结论A 成立推出有利于H 成立的小概率事件(概率不超过的事件)发生,意味着H 成立的可能性(可能性为(1-))很大没有找到矛盾,不能对A 下任何结论,即反证法不成功推出有利于H 成立的小概率事件不发生,接受原假设某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:求.独立性检验的基本思想及其初步应用探究任务:吸烟与患肺癌的关系第一步:提出假设检验问题 H :第二步:根据公式求观测值k =(它越小,原假设“H :吸烟与患肺癌没有关系”成立的可能性越 ;它越大,备择假设“H : ” 成立的可能性越大.)第三步:查表得出结论1101α1α12K 02K 01 不健康 健 康 总计 不优秀 41 626 667 优 秀 37 296 333总 计 78 922 1000 P (k 2>k ) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0.455 0.708 1..323 2.072 2.706 3.84 5.024 6.635 7.879 10..83※ 典型例题例1 在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175名秃顶. 分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?小结:用独立性检验的思想解决问题: 第一步: 第二步: 第三步:例2为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽由表中数据计算得到的观察值. 在多大程度上可以认为高中生的性别与是否数学课程之间有关系?为什么?练1.某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:请问有多大把握认为“高中生学习状况与生理健康有关”?K 4.513k练习:1. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是 ( ) A. 若k =6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.B. 从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能性患肺病.C. 若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使推断出现错误.D. 以上三种说法都不对.2. 下面是一个列联表则表中a,b 的之分别是( )A. 94,96B. 52,50C. 52,54D. 54,523.某班主任对全班50名学生进行了作业量多少的调查,数据如下表: 则认为喜欢玩游戏与认为作业量多少有关系的把握大约为( )A. 99%B. 95%C. 90%D.无充分依据4. 在独立性检验中,当统计量满足 时,我们有99%的把握认为这两个分类变量有关系.统计案例检测题 一、选择题(本大题共12小题,每题4分) 1、散点图在回归分析中的作用是 ( ) A .查找个体数目 B .比较个体数据关系 C .探究个体分类D .粗略判断变量是否呈线性关系2、对于相关系数下列描述正确的是 ( ) A .r >0表明两个变量相关 B .r <0表明两个变量无关C .越接近1,表明两个变量线性相关性越强D .r 越小,表明两个变量线性相关性越弱22 2K r3、预报变量的值与下列哪些因素有关 ( ) A .受解释变量影响与随机误差无关 B .受随机误差影响与解释变量无关 C .与总偏差平方和有关与残差无关 D .与解释变量和随机误差的总效应有关4、下列说法正确的是 ( ) A .任何两个变量都具有相关系 B .球的体积与球的半径具有相关关系 C .农作物的产量与施肥量是一种确定性关系 D .某商品的产量与销售价格之间是非确定性关系5、在画两个变量的散点图时,下面哪个叙述是正确的( )A. 预报变量在x 轴上,解释变量在 y 轴上B. 解释变量在x 轴上,预报变量在 y 轴上C. 可以选择两个变量中任意一个变量在x 轴上D. 可以选择两个变量中任意一个变量在 y 轴上 6、回归直线必过 ( ) A . B . C . D .7、三维柱形图中,主、副对角线上两个柱形高度的 相差越大,要推断的论述成立的可能性就越大 ( ) A .和 B .差 C .积 D .商8、两个变量 y 与x 的回归模型中,求得回归方程为,当预报变量 ( )A. 解释变量B. 解释变量大于C. 解释变量小于D. 解释变量在左右 9、在回归分析中,求得相关指数,则( ) A. 解释变量解对总效应的贡献是 B. 解释变量解对总效应的贡献是 C. 随机误差的贡献是 C. 随机误差的贡献是10、在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是 ( )A .若k =6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能 性患肺病.C .若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使得推断出现错误.D .以上三种说法都不对.y bx a =+(0,0)(,0)x (0,)y (,)x y 0.232x y e -=10x =30y e -=y 30e -y 30e -y 30e -20.89R =11%89%89%0.89%11、通过来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分析称为( )A .回归分析B .独立性检验分析C .残差分析 D. 散点图分析12、在独立性检验时计算的的观测值=3.99,那么我们有 的把握认为这两个分类变量有关系 ( ) A .90% B .95% C .99% D .以上都不对 二、填空题(本大题共4小题,每题4分)13、已知回归直线方程,则时,y 的估计值为 . 14、如下表所示:计算= .15、下列关系中:(1)玉米产量与施肥量的关系; (2)等边三角形的边长和周长; (3)电脑的销售量和利润的关系; (4)日光灯的产量和单位生产成本的关系. 不是函数关系的是 .16、在一项打鼾与患心脏病的调查中,共调查1768人,经计算的=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是 的.(填“有关”“无关”) 三、解答题(本大题共2小题,每题18分)18、为考察某种药物预防疾病的效果,进行动物试验,得到如下列联表能以97.5%的把握认为药物有效吗?为什么?12,,,n e e e 2K k 0.50.81y x =-25x =2K 2K18、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗 (吨标准煤)的几组对照数据 (1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值)作业:一、选择题:本大题共道小题,每小题分,共分,在每小题给出的四个选项中,只有一项符合题目要求1、对于散点图下列说法中正确一个是( )(A )通过散点图一定可以看出变量之间的变化规律 (B )通过散点图一定不可以看出变量之间的变化规律 (C )通过散点图可以看出正相关与负相关有明显区别 (D )通过散点图看不出正相关与负相关有什么区别 2、在画两个变量的散点图时,下面叙述正确的是( )(A )预报变量在轴上,解释变量在轴上 (B )解释变量在轴上,预报变量在轴上(C )可以选择两个变量中的任意一个变量在轴上 (D )可以选择两个变量中的任意一个变量在轴上3、如果根据性别与是否爱好运动的列联表,得到,所以判断性别与运动有关,那么这种判断出错的可能性为( )(A ) (B ) (C ) (D )4、下列关于线性回归的说法,不正确的是( )(A )变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;(B )在平面直角坐标系中用描点法的方法得到表示具有相关关系的两个变量的一组数据的图形叫散点图;(C )线性回归直线方程最能代表观测值之间的关系;(D )任何一组观测值都能得到具有代表意义的回归直线方程;x y y x y bx a =+3 2.543546 4.566.5⨯+⨯+⨯+⨯=12560x y x y x y 841.3852.3>≈k 002000150010005y x ,5、在两个变量与的回归模型中,分别选择了四个不同的模型,它们的相关指数如下,其中拟合效果最好的为( )(A )模型①的相关指数为 (B )模型②的相关指数为 (C )模型③的相关指数为 (D )模型④的相关指数为6、关于如何求回归直线的方程,下列说法正确的一项是( )(A )先画一条,测出各点到它的距离,然后移动直线,到达一个使距离之和最小的位置,测出此时的斜率与截距,就可得到回归直线方程(B )在散点图中,选两点,画一条直线,使所画直线两侧的点数一样多或基本相同,求出此直线方程,则该方程即为所求回归方程(C )在散点图中多选几组点,分别求出各直线的斜率与截距,再求它们的平均值,就得到了回归直线的斜率与截距,即可产生回归方程(D )上述三种方法都不可行7、若对于变量与的组统计数据的回归模型中,相关指数,又知残差平方和为,那么的值为( )(A ) (B ) (C ) (D )8、右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )(A )(B )(C )(D )9、某医院用光电比色计检验尿汞时,得尿汞含量与消光系数读数的结果如下:如果与之间具有线性相关关系,那么当消光系数的读数为时,( )(A )汞含量约为 (B )汞含量高于 (C )汞含量低于 (D )汞含量一定是y x 2R 976.0776.0076.0351.0y x 1095.02=R 53.120∑=-1012)(i iy y06.2416.241008.2538.2530564.92=K 564.32=K 706.22<K 841.32>K )/(L mg y x 480L mg /27.13L mg /27.13L mg /27.13L mg /27.1310、由一组样本数据得到的回归直线方程,那么下面说法正确的是( )(A )直线必过点(B )直线必经过一点 (C )直线经过中某两个特殊点 (D )直线必不过点11、根据下面的列联表得到如下中个判断:①有的把握认为患肝病与嗜酒有关;②有的把握认为患肝病与嗜酒有关;③认为患肝病与嗜酒有关的出错的可能为;④认为患肝病与嗜酒有关的出错的可能为;其中正确命题的个数为( )(A ) (B ) (C ) (D )12、对于两个变量之间的相关系数,下列说法中正确的是( )(A )越大,相关程度越大 (B )越小,相关程度越大(C )越大,相关程度越小;越小,相关程度越大(D )且越接近于,相关程度越大; 越接近于,相关程度越小;二、填空题:本大题共小题,每小题分,共分,把答案填在题中的横线上 13、下表是关于出生男婴与女婴调查的列联表那么,A= ,B= ,C= ,D= ,E= ;),(,),,(),,(2221n n y x y x y x a bx y +=∧a bx y +=∧),(--y x a bx y +=∧),(,),,(),,(2221n n y x y x y x a bx y +=∧),(,),,(),,(2221n n y x y x y x a bx y +=∧),(--y x 009.99009900100100123r ||r ||r ||r ||r 1||≤r ||r 1||r 0441614、如右表中给出五组数据,从中选出四组使其线性相关最大,且保留第一组,那么,应去掉第 组。

相关主题