当前位置:文档之家› 2020年高考数学第68讲变量的相关性回归分析独立性检验

2020年高考数学第68讲变量的相关性回归分析独立性检验


2×2 列联表
y1
x1
a
y2
总计
b
a+b
x2
c
d
c+d
总计
a+ c
b+ d
n
构造随机变量
K
2

?a

b
n?ad- bc?2 ??c+d??a+ +b+c+d 为样本容量.
(3) 独立性检验 利用随机变量 K2 来确定在多大程度上可以认为
“两个分类变量 有关系 ”的方法 ,称为两个分类变
n
?
xiyi-n-x ·-y
i=1
i=1
b=


n
?
?xi--x ?2
n
?
x2i -n-x 2
i=1
i=1
a=
.
n
通过求 Q=? [yi-(b xi+a )]2 的最小值而得出回
i=1
归直线的方法,即求回归直线,使得样本数据的点到它 的距离的平方和最小,这一方法叫做最小二乘法.
(5)相关系数: r=
2.独立性检验 (1)分类变量:如果某种变量的不同“值”表示个体
所属的不同类别,像这样的变量称为 分类变量 .
(2) 列联表:列出的两个分类变量的 频数表 ,称为
列联表.假设有两个分类变量 X 和 Y,它们的可能取值
分别为 {x1,x2},{y 1,y2},其样本频数列联表 (称为 2×2
列联表 )为
第68讲 变量的相关性、回归 分析、独立性检验
1.会作两个有关联变量的数据的散点图,会利用散点 图认识变量间的相关关系.
2.了解最小二乘法的思想,能根据给出的线性回归方 程系数公式建立线性回归方程.
3.了解独立检验(只要求 2×2 列联表)的思想、方法, 并能初步应用独立性检验的思想、方法解决一些简单的实际 问题.
②当 K2>2.706 时,有 90%的把握认为变量 x,y 有 关系;
③当 K2>3.841 时,有 95%的把握认为变量 x,y 有 关系;
④当 K2>6.635 时,有 99%的把握认为变量 x,y 有 关系;
⑤当 K2>10.828 时,有 99.9%的把握认为变量 x,y 有关系.
1.下列说法中不正确的是 ( ) A.变量取值一定时 ,因变量的取值带有一定随机性的 两个变量之间的关系叫作相关关系 B .在平面直角坐标系中用描点的方法得到表示具有相 关关系的两个变量的一组数据的图形叫作散点图
(6)残差及残差平方和:残差 ei=
,残差平
方和为
.
(7)用相关指数来刻画回归的效果,其计算公式是
1—
R2=
,R2 的值越大,说明残差平方和
越 小 ,说明回归模型的拟合效果越 好 .
(8)残差分析:在研究两个变量的关系时,首先要根 据散点图来粗略地判断它们是否线性相关 ,是否可用线 性回归模型来拟合数据.然后可以通过残差 e^1,e^2,…, e^n来判断模型的拟合效果 ,判断原始数据中是否存在可 疑数据,这方面的工作称为残差分析.
A. 变量 x 与 y 正相关, u 与 v 正相关 B. 变量 x 与 y 正相关, u 与 v 负相关 C. 变量 x 与 y 负相关, u 与 v 正相关 D. 变量 x 与 y 负相关, u 与 v 负相关
解:x→大,y→小,所以负相关; u→大,v→大,所 以正相关,故选 C.
答案:C
3. (2017·山东卷·理)为了研究某班学生的脚长 x(单位: 厘米)和身高 y(单位:厘米)的关系,从该班随机抽取 10 名 学生,根据测量数据的散点图可以看出 y 与 x 之间有线性
量的独立性检验. 先假设两个分类变量 x 与 y 无关系 ,计算 K2 的值 ,
则 K2 的值应该很小 , 若 K2 值较大 , 就拒绝假设 ,只要 K2>2.706 ,就认为 x 与 y 有关系.
(4) 两个分类变量 x 和 y 是否有关系的判断方法: ①当 K2≤2.706 时,没有充分的证据判断变量 x,y 有关系 ,可以认为变量 x,y 没有关系;
在线性回归模型 y=bx+a+e 中,因变量 y 的值由自变 量 x 和随机误差 e 共同确定,即自变量 x 只能解释部分 y 的变化,在统计中,我们把自变量 x 叫做 解释 变量, 因变量 y 称为 预报 变量.
(4)回归直线的方程为 y =b x+a ,其中
n
?
?xi--x ??yi--y ?
个变量的一组数据的图形 ,这样的图形叫做散点图. 它可
直观地判断两个变量关系是否是可以用线性关系表示. 若
这些点分布在从左下角到右上角的区域内 ,两个变量的这
种相关关系称为 正相关 ,若这些点分布在左上角到右 下角的区域内 , 两个变量的相关关系为 负相关 .
(3)回归分析:对具有 相关关系 的两个变量进行统 计分析的方法叫作回归分析.通俗地讲 ,回归分析是寻找 相关关系中非确定关系的某种确定性.
10
相关关系.设其回归直线方程为 y =b x+a .已知? xi=
i=1
10
225,? yi=1 600,b =4.该班某学生的脚长为 24,据此估
i=1
计其身高为( ) A.160 B.163 C.166 D.170
n
?
xiyi-n-x ·-y
i=1
,它
n
??
x2i -
n
-x
n
2???
y2i -n-y 2?
i=1
i=1
主要用于相关量的显著性检验 ,以衡量它们之间的线性 相关程度.
当 r>0 时,表示两个变量正相关;当 r<0 时,表示 两个变量负相关; |r|越接近 1,表明两个变量的线性相关 性越强;当|r|接近 0 时,表明两个变量间几乎不存在线性 相关关系.
C.若两个变量具有线性相关关系 ,则线性回归方程最
能代表观测值 x、 y 之间的关系 D .任何一组观测值都能得到具有代表意义的回归直线
方程
答案:D
2.对变量 x,y 有观测数据 (x i, yi)(i= 1,2 ,…, 10) ,得散 点图 (a);对变量 u, v 有观测数据 (u i, vi)(i= 1,2 , …, 10) , 得散点图 (b).由这两个散点图可以判断 ( )
4.了解回归分析的思想、方法,并能初步应用回归分 析的思想、方法解决一些简单的实际问题.
1. 变量的相关关系
(1) 相关关系:当自变量的取值一定时 , 因变量的取
值带有一定随机性 的两个变量之间的关系 , 叫相关关
系 , 与函数关系不同 , 相关关系是一种不确定
关系.
(2) 散点图:在平面直角坐标系中描点 , 得到关于两
相关主题