高中选修1-2回归
分析和独立性检验
知识总结与联系
-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN
1
122211()()()n n i i i i i i n n i i i i x x y y x y nx y b x x x nx a y bx ====⎧
---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑选修1-2第一部分 变量间的相关关系与统计案例
【基础知识】
一、回归分析
1.两个变量的线性相关:判断是否线性相关 ①用散点图
(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. ②用相关系数r
(3)除用散点图外,还可用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,
n
i i
x y nx y
r -•=
∑当r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系. 2.回归方程:
两个变量具有线性相关关系,数据收集如下:
可用最小二乘法得到回归方程ˆy bx a =+,其中
3.回归分析的基本思想及其初步应用
(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,其常用的 研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报.
(2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心.样本点中心一定落在回归直线上。
4、回归效果的刻画:
用相关指数2R来刻画回归的效果,公式是
2 2
1
2
1
()
1
()
n
i i
i
n
i
i
y y
R
y y
=
=
-
=-
-
∑
∑
2
R的值越大,说明残差平方和越小,也就是说模型拟合效果好
二.独立性检验的基本思想及其初步应用
题型一相关关系的判断
【例1】对四组数据进行统
计,获得以下散点图,关于其相
关系数比较,正确的是()
A.r2<r4<0<r3<r1
B. r4<r2<0<r 1<r3
C. r4<r2<0<r3<r1
D. r2<r4<0<r1<r3
【变式1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).
题型二 线性回归方程
【例2】在2013年元旦期间,某市物价部门对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x 元和销售量y 件之间的一价格x 9 9.5 10 10.5 11
销售量y
11 10 8 6 5 y 关于商品的价格x 的线性回归方程为________.
(参考公式:b ^= ,a ^=y -b ^
x )
【变式3】为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:
父亲身高
x /cm 174 176 176 176 178
儿子身高
y /cm
175 175 176 177 177
则y 对x 的线性回归方程为( ). A .y =x -1 B .y =x +1
C .y =88+1
2x D .y =176
题型三 独立性检验
【例4】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线
由K 2=n (ad -dc )
(a +b )(c +d
)(a +c )(b +d )
,
算得K 2=110×(40×30-20×20)
2
60×50×60×50
≈7.8.
附表:
A. 有99%以上的把握认为“选择过马路的方式与性别有关”
B. 有99%以上的把握认为“选择过马路的方式与性别无关”
C. 在犯错误概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”
D. 在犯错误概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关
【变式2】 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,
(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分
附 K 2
巩固提高
1.下列说法:
①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;
②设有一个回归方程y ^
=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;
③线性回归方程y ^=b ^x +a ^
必过(x ,y );
④在一个2×2列联表中,由计算得K 2=13.079,则有99%的把握确认这两个变量间有关系;
其中错误的个数是( )
A. 0
B. 1
C. 2
D. 3
2.已知回归直线斜率的估计值为1.23,样本点的中心为点(4,5),则回归直线的方程为( ) A. y ^=1.23x +4 B. y ^=1.23x +5 C. y ^=1.23x +0.08 D. y ^
=0.08x +1.23 3.
从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =( ) A. 1.30 B. 1.45 C. 1.65 D. 1.80
4.
根据上表可得回归直线方程:y =0.56x +a ,据此模型预报身高为172 cm 的高三男生的体重为( )
A. 70.09 kg
B. 70.12 kg
C. 70.55 kg
D. 71.05 kg
5.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x
的回归直线方程:y ^
=0.254x +0.321.由回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
6.利用独立性检验对两个分类变量是否有关系进行研究时,若在犯错误的概率不超过0.005的前提下认为事件A 和B 有关系,则具体计算出的数据应该是( )
A .k≥6.635
B .k <6.635
C .k≥7.879
D .k <7.879
7.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数
据如下表:
非统计专业
统计专业
男13 10
女7 20
为了判断主修统计专业是否与性别有关系,根据表中数据得到,
k=
50(13×20-10×7)2
20×30×23×27
≈4.844,因为k>3.841,所以确定主修统计专业与性别有关系,那么这种判断出错的可能性为________.
与销售额(单位:百万元)之间有如下对应数据:
(1)画出散点图;(2)求线性回归方程;(3)试预
测广告费支出为百万元时,销售额多大?
9.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.
(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前吨甲产品的生产能耗为吨标准煤,试根据(2)求出的线性回归方程,预测生产吨甲产品的生产能耗比技改前降低多少吨标准煤(
参考数值:)
9.某大学餐饮中心为了了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
喜欢甜品不喜欢甜品合计
南方学生60 20 80
北方学生10 10 20
合计70 30 100
(1)
甜品的饮食习惯方面有差异”;
(2)已知在被调查的北方学生中有5名数学系学生,其中2名习惯甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.
10、我市某校某数学老师这学期分别用两种不同的教学方式试验高一甲、乙两个班(人数均为人,入学数学平均分和
优秀率都相同,勤奋程度和自觉性都一样)。
现随机抽取甲、乙两班各名的数学期末考试
成绩,并作出茎叶图
(Ⅰ)依茎叶图判断哪个班的平均分高?
(Ⅱ)现从甲班所抽数学成绩不低于分的同
学中随机抽取两名同学,求刚好有1人在85
分以上的概率
(Ⅲ)学校规定:成绩不低于分的为优秀,
作出分类变量成绩与教学方式的列联表,
并判断“能否在犯错误的概率不超过的
前提下认为成绩优秀与教学方式有关”
下面临界值表仅供参
考:
(参考公式:其中)
复习专题一数列
1、在等差数列中:
(1)已知,,求;
(2)已知,,求.
(3)已知,,,求a 10和S10;
(4)已知,,,求和Sn;
2、等差数列的前项和为,且,.求数列的通项;
3、在等比数列中,
(1)已知,,求;
(2)已知,,求;
4、在等比数列中,.求:(1)首项和公比;(2)前项的和.。