当前位置:文档之家› 高中数学 第2讲变量的相关性、回归分析及独立性检验

高中数学 第2讲变量的相关性、回归分析及独立性检验

第2讲 变量的相关性、回归分析及独立性检验一、知识回顾1.如何判断两个变量的线性相关:如果在散点图中,2个变量数据点分布在一条直线附近,则这2个变量之间具有线性相关关系。

2.所求直线方程 ˆy=bx +a 叫做回归直线方程;其中 ⋅∑∑∑∑nnii i ii=1i=1nn222iii=1i=1(x-x)(y -y)x -nx yb ==,a =y -bx (x-x)x-nxy回归直线方程必过中心点(,)x y3.相关系数的∑nii (x-x)(y -y)r =性质• (1)|r|≤1.(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.4. ˆˆ=-i i y y i 残差e=实际值-预测值2^^211()===-∑∑nniiii i e y y 总残差平方和:残差平方和越小,即模型拟合效果越好5. 两个分类变量的独立性检验:(1)假设结论不成立,即“两个分类变量没有关系”.(2)在此假设下计算随机变量 22n(ad -bc)K =(a +b)(c +d)(a +c)(b +d)(3) 根据随机变量K 2查表得“两个分类变量没有关系”的概率,用1减去此概率即得有联系的概率 典型例题:例1.(宁夏海南卷)对变量x, y 有观测数据理力争(,)(i=1,2,…,10),得散点图1;对变量u ,v 有观测数据(,)(i=1,2,…,10),得散点图2. 由这两个散点图可以判断( )。

(A )变量x 与y 正相关,u 与v 正相关 (B )变量x 与y 正相关,u 与v 负相关 (C )变量x 与y 负相关,u 与v 正相关 (D )变量x 与y 负相关,u 与v 负相关1x 1y 1u 1v变式1. (韶关一模文、理)甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性作试验,)()A 甲 ()B 乙 ()C 丙 ()D 丁 例2.一系列样本点(,)(1,2,,)=⋅⋅⋅i i x y i n 的回归直线方程为23,∧=-y x 若117==∑nii X则1==∑ni i y变式1.某地第二季各月平均气温(℃)与某户用水量(吨)如下表,根据表中数据,用最小二乘法求得用水量关于月平均气温的线性回归方程是( )A B. C. D. 例3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆy bxa =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3 2.543546 4.566.5⨯+⨯+⨯+⨯=)例4.(惠州一模)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪x y y x 5.115ˆ-=x y5.115.6ˆ-=x y 5.112.1ˆ-=x y5.113.1ˆ-=x y0.0005300035000.00030.0004200015000.00020.0001400025001000月收入(元)频率/组距 第2讲 变量的相关性、回归分析及独立性检验课后作业:姓名: 学号:1.若施化肥量x 与小麦产量y 之间的回归直线方程为ˆ2504yx =+,当施化肥量为50kg 时,预计小麦产量为2.下表是某厂1~4月份用水量(单位:百吨)的一组数据:月份x1 2 3 4用水量y5.443 5.2由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是a x y +-=∧7.0,则=a3.一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则所得新数据的平均数和方差分别是( )A .57.2 3.6B .57.2 56.4C .62.8 63.6D .62.8 3.64.有一笔统计资料,共有11个数据如下(不完全以大小排列):2,4,4,5,5,6,7,8,9,11,x ,已知这组数据的平均数为6,则这组数据的方差为( ) A .6B .6C .66D .6.55.为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5袋奶粉的编号可能是( ) A.5,10,15,20,25 B.2,4,8,16,32 C.1,2,3,4,5 D.7,17,27,37,476.(广州调研文、理)某校对全校男女学生共1600名进行健康调查,选用分层抽样法抽取一个容量为200的样本.已知女生比男生少抽了10人,则该校的女生人数应是 人.7. (韶关一模文、理)一个社会调查机构就某地居民的 月收入调查了10000人,并根据所得数据画了样本的频率分 布直方图(如下图)。

为了分析居民的收入与年龄、学历、 职业等方面的关系,要从这10000人中再用分层抽样方法抽出100人作进一步调查,则在[2500,3000)(元)/月收入段应抽出 人.8.为了调查某厂工人生产某种产品的能力,随机抽查 了20位工人某天生产该产品的数量.产品数量的分组区间为[)45,55,[)[)[)55,65,65,75,75,85,[)85,95由此得到频率分布直方图如图3,则这20名工人中一天生产该产品数量在[)55,75的人数是 .第11题图甲乙1 2 3 49.为考察高中生性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到由表中数据计算得 ≈2K ,高中生的性别与是否喜欢数学课程之间是否有关系?为什么?10.在一段时间内,某种商品的价格x(万元)和需求量y(t)之间的一组数据如下表:(1)画出散点图;(2)求出Y 对X 的回归直线方程; (3)如果价格定为1.9万元,预测需求量大约是多少?11.佛山市在每年的春节后,市政府都会发动公务员参与到植树活动中去.林管部门在植树前,为保证树苗的质量,都会在植树前对树苗进行检测.现从甲乙两种树苗中各抽测了10(单位:厘米)甲:37,21,31,20,29,19,32,23,25,33乙:10,30,47,27,46,14,26,10,44,46(Ⅰ)根据抽测结果,完成答题卷中的茎叶图,并根据你填写的茎叶图, 对甲、乙两种树苗的高度作比较,写出两个统计结论; (Ⅱ)设抽测的10株甲种树苗高度平均值为x ,将这10株树苗的高度依次输入按程序框图进行的运算,问输出的S 大小为多少?并说明S12.为了了解某年段1000名学生的百米成绩情况,随机抽取了若干学生的百米成绩,成绩全部介于13秒与18秒之间,将成绩按如下方式分成五组:第一组[13,14);第二组[14,15);……;第五组[17,18].按上述分组方法得到的频率分布直方图如图所示,已知图中从左到右的前3个组的频率之比为3∶8∶19,且第二组的频数为8.(Ⅰ)将频率当作概率,请估计该年段学生中百米成绩在[16,17)内的人数;(Ⅱ)求调查中随机抽取了多少个学生的百米成绩;(Ⅲ)若从第一、五组中随机取出两个成绩,求这两个成绩的差的绝对值大于1秒的概率.6.某校从参加高一年级期末考试的学生中抽出60名学生,并统计了他们的物理成绩(成绩均为整数且满分为100分),把其中不低于50分的分成五段,…后画出如下部分..频率分布直方图.观察图形的信息,回答下列问题: (1)求出物理成绩低于50分的学生人数; (2)估计这次考试物理学科及格率(60分及 以上为及格)(3) 从物理成绩不及格的学生中任选两人, 求他们成绩至少有一个不低于50分的概率.[)60,50[)70,60[]100,900.03 1000.025 0.015 0.0059080706050组距频率率分数第2讲 变量的相关性、回归分析及独立性检验一、知识回顾1.如何判断两个变量的线性相关:如果在散点图中,2个变量数据点分布在一条直线附近,则这2个变量之间具有线性相关关系。

2.所求直线方程 ˆy=bx +a 叫做回归直线方程;其中 ⋅∑∑∑∑nnii i ii=1i=1nn222iii=1i=1(x-x)(y -y)x -nx yb ==,a =y -bx (x-x)x-nxy回归直线方程必过中心点(,)x y3.相关系数的∑nii (x-x)(y -y)r =性质• (1)|r|≤1.(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.4. ˆˆ=-i i y y i 残差e=实际值-预测值2^^211()===-∑∑nniiii i e y y 总残差平方和:残差平方和越小,即模型拟合效果越好5. 两个分类变量的独立性检验:(1)假设结论不成立,即“两个分类变量没有关系”.(2)在此假设下计算随机变量 22n(ad -bc)K =(a +b)(c +d)(a +c)(b +d)(3) 根据随机变量K 2查表得“两个分类变量没有关系”的概率,用1减去此概率即得有联系的概率 典型例题:例1.(宁夏海南卷)对变量x, y 有观测数据理力争(,)(i=1,2,…,10),得散点图1;对变量u ,v 有观测数据(,)(i=1,2,…,10),得散点图2. 由这两个散点图可以判断。

(A )变量x 与y 正相关,u 与v 正相关 (B )变量x 与y 正相关,u 与v 负相关 (C )变量x 与y 负相关,u 与v 正相关 (D )变量x 与y 负相关,u 与v 负相关1x 1y 1u 1v解析:由这两个散点图可以判断,变量x 与y 负相关,u 与v 正相关,选C变式1. (韶关一模文、理)甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性作试验,D )()A 甲 ()B 乙 ()C 丙 ()D 丁 例2.一系列样本点(,)(1,2,,)=⋅⋅⋅i i x y i n 的回归直线方程为23,∧=-y x 若117==∑nii X则1==∑ni i y31变式1.某地第二季各月平均气温(℃)与某户用水量(吨)如下表,根据表中数据,用最小二乘法求得用水量关于月平均气温的线性回归方程是( D )A B. C. D. 例3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆy bxa =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3 2.543546 4.566.5⨯+⨯+⨯+⨯=) 解: (1) 散点图略 (2)4166.5i ii X Y ==∑ 4222221345686ii X==+++=∑ 4.5X = 3.5Y =266.54 4.5 3.566.563ˆ0.7864 4.58681b -⨯⨯-===-⨯- ; ˆˆ 3.50.7 4.50.35a Y bX =-=-⨯= 所求的回归方程为 0.70.35y x =+ (3) 100x =, 1000.35y =+预测生产100吨甲产品的生产能耗比技改前降低9070.3519.65-=(吨)例4.(惠州一模)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪____________ .1.78 不能作出这两种手术对病人又发作心脏病的影响有差别的结论.x y y x 5.115ˆ-=x y5.115.6ˆ-=x y 5.112.1ˆ-=x y5.113.1ˆ-=x y0.0005300035000.00030.0004200015000.00020.0001400025001000月收入(元)频率/组距 第2讲 变量的相关性、回归分析及独立性检验课后作业:姓名: 学号:1.若施化肥量x 与小麦产量y 之间的回归直线方程为ˆ2504yx =+,当施化肥量为50kg 时,预计小麦产量为 4502.下表是某厂1~4月份用水量(单位:百吨)的一组数据:月份x1 2 3 4用水量y5.443 5.2由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是a x y +-=∧7.0,则=a3.一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则所得新数据的平均数和方差分别是(D ) A .57.2 3.6 B .57.2 56.4 C .62.8 63.6 D .62.8 3.6 4.有一笔统计资料,共有11个数据如下(不完全以大小排列):2,4,4,5,5,6,7,8,9,11,x ,已知这组数据的平均数为6,则这组数据的方差为A A .6B .6C .66D .6.55.为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5袋奶粉的编号可能是( D ) A.5,10,15,20,25 B.2,4,8,16,32 C.1,2,3,4,5 D.7,17,27,37,47 6.(广州调研文、理)某校对全校男女学生共1600名进行健康调查,选用分层抽样法抽取一个容量为200的样本.已知女生比男生少抽了10人,则该校的女生人数应是760 人. 7. (韶关一模文、理)一个社会调查机构就某地居民的 月收入调查了10000人,并根据所得数据画了样本的频率分 布直方图(如下图)。

相关主题