当前位置:文档之家› 变量间的相关关系、统计案例教案(绝对经典)

变量间的相关关系、统计案例教案(绝对经典)

§11.3 变量间的相关关系与独立性检验⎪⎪⎩⎪⎪⎨⎧⎩⎨⎧、不相关、非线性相关、线性相关、不确定的相关关系、确定的函数关系两个变量的关系32121 1.相关性(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关.(2)从散点图上,如果变量之间存在某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样的近似过程称为曲线拟合.(3)若两个变量x 和y 的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关,这条直线叫回归直线.若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是非线性相关.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. (4)相关系数①r =∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x)2∑ni =1(y i -y )2或()()12211ni i i n ni i i i x ynx yr x x y y ===-=--∑∑∑;②当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当r 的绝对值>0.75时,认为两个变量有很强的线性相关关系。

2.线性回归方程 (1)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来刻画这些点与直线ˆˆˆybx a =+的接近程度,使得上式达到最小值的直线ˆˆˆy bx a =+就是所要求的直线,这种方法称为最小二乘法(使得样本数据的点到回归直线的距离平方和最小的方法). (2)回归方程方程ˆˆˆybx a =+是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中,是待定参数.121()()ˆ()niii nii x x y y bx x ==--=-∑∑[]112222212()()()()...()()()()...()nnnx x y y x x y y x x yy x x x x x x --+--++--=⎡⎤-+-++-⎣⎦或者1221ˆni ii nii x ynx ybxnx ==-=-∑∑[]1122222212...,...n n nx y x y x y nx y x x x nx++-⋅=⎡⎤+++-⎣⎦ˆˆay bx =- 线性回归方程过样本点的中心(,)3、回归分析(1)y =bx +a +e 中,a 、b 称为模型的未知参数;e 称为随机误差.(2)随机误差e 的估计值e ˆ(a x b y y y e ii i i i ˆˆˆˆ--=-=)叫做相对于点(x i ,y i )的残差。

残差平方和越大,则拟合效果越好,否则反之。

(3)相关指数用相关指数R 2来刻画回归的效果,其计算公式是:R 2=∑∑==---n i ini i iy yyy1212)()ˆ(1 ,R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R 2表示解释变量对预报变量变化的贡献率,R 2越接近于1,表示回归效果越好. 4.独立性检验设A ,B 为两个变量,每一个变量都可以取两个值,变量A :A 1,A 2;变量B :B 1,B 2;其2×2列联表:BAB 1 B 2 总计 A 1 a b a +b A 2cdc +d 总计 a +c b +dn =a +b +c +d构造一个随机变量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. 通常当K 2<2.706时,认为没有充分依据显示两个变量有关,但也不能显示无关。

参考数据:1.已知x 、y 的取值如下表:x 0 1 3 4 y2.24.34.86.7从所得的散点图分析,y 与x 线性相关,且y =0.95x +a ,则a =________.答案 2.6 解析 因为回归直线必过样本点的中心(x ,y ), 又x =2,y =4.5,代入y =0.95x +a ,得a =2.6.2.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程:y =0.254x +0.321.由线性回归方程可知,家庭P (K 2≥k ) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001k0.4550.708 1.323 2.0722.7063.841 5.024 6.635 7.879 10.828年收入每增加1万元,年饮食支出平均增加______万元.答案0.254解析由题意知[0.254(x+1)+0.321]-(0.254x+0.321)=0.254.3.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为y=0.85x-85.71,则下列结论中不正确...的是() A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg答案 D 解析由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本点的中心(x,y),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确.题型一两个变量间的相关关系例15个学生的数学和物理成绩如下表:学生A B C D E学科数学8075706560物理7066686462画出散点图,并判断它们是否具有相关关系.解以x轴表示数学成绩,y轴表示物理成绩,可得到相应的散点图如图所示.由散点图可知,各组数据对应点大致在一条直线附近,所以两者之间具有相关关系,且为正相关.对变量x,y有观测数据(x i,y i) (i=1,2,…,10),得散点图(1);对变量u、v有观测数据(u i,v i) (i =1,2,…,10),得散点图(2).由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关答案 C 解析 由图(1)可知,各点整体呈递减趋势,x 与y 负相关;由图(2)可知,各点整体呈递增趋势,u 与v 正相关.题型二 线性回归分析例2.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:(1)请根据上表数据,用相关系数说明与的线性相关程度;(保留两位小数,参考数据:414.12≈)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆˆybx a =+; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.参考公式:121()()ˆ()niii nii x x y y bx x ==--=-∑∑,;相关系数r=∑ni =1(x i -x )(y i -y )∑ni =1(x i -x)2∑ni =1(y i -y )2; 详解:(1)6×2+8×3+10×5+12×6=158,==9,==4, 62+82+102+122=344.,线性相关性非常强.(2)158, =9,=4,344.===0.7,=-=4-0.7×9=-2.3, 故线性回归方程为=0.7x -2.3.(3)由(2)中线性回归方程知,当x =9时,=0.7×9-2.3=4,故预测记忆力为9的同学的判断力约为4.① “双十一网购狂欢节”源于淘宝商城(天猫)2009年11月11 日举办的促销活动,当时参与的商家数量和促销力度均有限,但营业额远超预想的效果,于是11月11日成为天猫举办大规模促销活动的固定日期.如今,中国的“双十一”已经从一个节日变成了全民狂欢的“电商购物日”.某淘宝电商分析近8年“双十一”期间的宣传费用x (单位:万元)和利润y (单位:十万元)之间的关系,得到下列数据:x 2 3 4 5 6 8 9 11 y12334568(1)请用相关系数r 说明y 与x 之间是否存在线性相关关系;(2)根据(1)的结果,建立y 与x 的回归方程,并预测当24x =时,对应的利润ˆy为多少(ˆˆˆ,,b a y 精确到0.1). 附参考公式:回归方程中ˆˆˆybx a =+中ˆb 和ˆa 最小二乘估计分别为1221ˆni ii nii x ynx y b xnx ==-=-∑∑,ˆˆay bx =-,相关系数()()12211ni i i n ni i i i x ynx yr x x y y ===-=--∑∑∑.参考数据:()()88882221111241,356,8.25,6i ii iii i i i x yx x x y y ======-≈-=∑∑∑∑.答案及解析:(1)由题意得6,4x y ==.又()()88882221111241,356,8.25,6i ii iii i i i x yx x x y y ======-≈-=∑∑∑∑,所以()()8188221182418640.990.818.256i i i i i i i x yx yr x x y y ===--⨯⨯=≈≈>⨯--∑∑∑,所以y 与x 之间具有线性相关关系. 因为81822218241864ˆ0.7356868i ii ii x yx ybxx ==--⨯⨯==≈-⨯-∑∑, (2)因为ˆˆ40.760.2ay bx =-≈-⨯=-, 所以回归直线方程为ˆ0.70.2y x =-, 当24x =时,ˆ0.70.20.7240.216.6yx =-=⨯-=,即利润约为166万元.②下表提供了某工厂节能降耗技术改造后,一种产品的产量x (单位:吨)与相应的生产能耗y (单位:吨)的几组对应数据:x 3 4 5 6 y2.5t44.5根据上表提供的数据,求得y 关于x 的线性回归方程为0.70.35y x =+,那么表格中t 的值为 .答案:3题型三 线性回归分析例3.已知药用昆虫的产卵数y 与一定范围内的温度x 有关,现收集了该中药用昆虫的6组观测数据如表: 温度x /℃212324272932产卵数y /个 6 11 20 27 57 77经计算得:6666211111126,33,()()557,()84,66i i i i i i i i i x x y y x x y y x x ========--=-=∑∑∑∑621()3930ii y y =-=∑,线性回归模型的残差平方和为31670605.8≈e ,分别为观察数据中温度和产卵数1,2,3,4,5,6i =,(1)若用线性回归模型,求y 关于x 的回归方程ˆˆˆy bx a =+(精确到0.1 );(2)若用非线性回归模型求得y 关于x 的回归方程xe y2303.006.0ˆ=,且相关指数20.9952R =,①试与(1)中的回归模型相比,用2R 说明哪种模型的拟合效果更好;②用拟合效果更好的模型预测温度为35℃时该中药用昆虫的产卵数(结果取整数). 附:一组数据1122(,),(,),,(,)n n x y x y x y ,其回归直线ˆˆˆybx a =+的斜率和截距的最小二乘估计分为121()()ˆˆˆ,()niii nii x x y y bay bx x x ==--==--∑∑,相关指数R 2=∑∑==---n i ini i iy yyy1212)()ˆ(1答案及解析:(1)依题意,61621()()557ˆ6, 6.684()iii ii x x y y n bx x ==--===≈-∑∑, 所以ˆ33 6.626138.6a≈-⨯=-, 所以y 关于x 的线性回归方程为ˆ 6.6138.6yx =-。

相关主题