回归分析与独立性检验
(一)变量间的相关关系、回归分析的基本思想及初步运用
一、相关关系:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫相关关系. 二、散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图. 三、回归分析:对具有相关关系的两个变量进行统计分析的方法叫回归分析. 1、回归直线方程
设所求的直线方程为y b x a ∧
=+,其中1
2
1
()()
,()
n
i i i n
i i x x y y b a y b x x x ==--==--∑
∑
,1
1
11,,n
n
i i i i x x y y n
n
===
=
∑
∑
(,)
x y 称为样本点的中心,回归直线过样本点的中心.回归方程的截距a 和斜率b 是用最小二乘法计算出来的. 2、相关系数:两个变量之间线性相关关系的强弱用相关系数r 来衡量.
相关系数:()()
n
i i x x y y r --=
∑
0r >,表示两个变量正相关;0r <,表示两个变量负相关;
r
的绝对值越接近1,表明两个变量的线性相关性越强.r 的绝对值越接近0,表明两个变量之间几乎不存在
线性相关关系.通常,r 的绝对值大于0.75时,表明两个变量的线性相关性很强. (二)独立性检验的基本思想及其初步运用
一、用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例:是否吸烟,是否患肺癌等 二、独立性检验的方法:列出两个分类变量的频数表(列联表),直观判断.一般步骤: (1)2*2列联表
(2)提出假设:设p 与q 没有关系 (3)根据列联表中的数据2
K 计算的值
2
2
()
()()()()()
n a d b c K
n a b c d a b c d a c b d -=
=+++++++其中为样本容量
(4)根据计算得到的随机变量2K 的观测值作出判断
如:2
4.232K =因为4.232介于临界值3.841和
5.024之间,2
( 3.841)p K ≥=0.05,所以两个分类变量
没有关系的概率是5%,即两个分类变量有关系的概率为95%.
【例1】【2017课标1,文19】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm ).下面是检验员在一天内依次抽取的16个零件的尺寸:
经计算得
16
1
1
9.9716
i i x x ==
=∑,0.212s =
=
≈,
18.439≈,16
1
()(8.5) 2.78i i x x i =--=-∑,
其中i x 为抽取的第i 个零件的尺寸,1,2,,16i =⋅⋅⋅. (1)求(,)i x i (1
,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进
行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小). (2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. (ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅
的相关系数()()
n
i i x x y y r --=
∑
0.09≈.
【反馈检测1】下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图
(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:参考数据:7
1
9.32i i y ==∑,7
1
40.17i i i t y ==∑
0.55=
2.646≈.
参考公式:相关系数()()
n
i i t t y y r --=
∑
回归方程y a b t =+ 中斜率和截距的最小二乘估计公式分别为:1
2
1
()()
()
n
i i i n
i i t t y y b t t ==--=
-∑
∑
,=.
a y
b t -
【例2】全国人大常委会会议于 2015年12月27日通过了关于修改人口与计划生育法的决定, “全面二孩”从2016年元旦起开始实施,A市妇联为了解该市市民对“全面二孩”政策的态度,随机抽取了男性市民30人、女性市民70人进行调查, 得到以下的22
⨯列联表:
(1)根椐以上数据,能否有0
90的把握认为A市市民“支持全面二孩”与“性别”有关?
(2)现从持“支持”态度的市民中再按分层抽样的方法选出15名发放礼品,分别求所抽取的15人中男性市民和女性市民的人数;
(3)将上述调查所得到的频率视为概率,.现在从A市所有市民中,采用随机抽样的方法抽取3位市民进行长期跟踪调查, 记被抽取的3位市民中持“支持”态度人数为X.
①求X的分布列;②求X的数学期望()
E X和方差()
D X.
参考公式:
()
()()()()
2
2
n a d b c
K
a b a d a c b d
-
=
++++
,其中n a b c d
=+++
【反馈检测3】【2017课标II ,理18】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收
获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg )某频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A 表示事件:“旧养殖法的箱产量低于50kg, 新养殖法的箱产量不低于50kg”,估计A 的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
(3
)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01
)
附:
2
2
()
()()()()
n a d b c K a b c d a c b d -=
++++。