统计及统计案例
其中事件A“两天空气质量等级都为良”包含的基本事件为 (a,b),(a,c),(a,d),(b,c),(b,d),(c,d),共6个, 所以P(A)= 6 = 3 .
10 5
方法 3 样本的数字特征
1.利用频率分布直方图估计样本的数字特征
(1)在样本数据的频率分布直方图中,众数就是最高矩形底边中点的横
(4)如果总体容量N能被样本容量n整除,则抽样间隔k=
N n
,如果总体容量
N不能被样本容量n整除,可随机地从总体中剔除余数个个体,然后再按
系统抽样的方法抽样.
2.分层抽样适用于由差异明显的几部分组成的总体,抽取的步骤是:
(1)按某种特征将总体分成若干部分.
(2)按比例确定每层抽取的个体数.
(3)各层按简单随机抽样或系统抽样的方法抽取个体. (4)综合每层抽取的个体,组成样本. 例1 (2016广东肇庆三模,3)一个总体中有100个个体,随机编号为0,1,2, …,99.依编号顺序平均分成10个小组,组号依次为一,二,三,…,十.现用系 统抽样方法抽取一个容量为10的样本,如果在第一组随机抽取的号码为 m,那么在第k组中抽取的号码个位数字与m+k的个位数字相同.若m=6, 则在第七组中抽取的号码是 ( A ) A.63 B.64 C.65 D.66
解析 (1)∵0.004×50= 20 ,∴n=100,
n
∵20+40+m+10+5=100,∴m=25.
40 =0.008; 25 =0.005; 10 =0.002; 5 =0.001.
100 50
100 50
100 50
100 50
由此完成频率分布直方图,如图:
(2)由频率分布直方图得该组数据的平均数为 25×0.004×50+75×0.008×50+125×0.005×50+175×0.002×50+225×0.001× 50=
关系,这条直线叫做回归直线,直线方程叫做回归直线方程.
求回归直线方程的步骤:
n
n
(1)整理数据,计算出
i1
xi2
,
i1
xiyi,
x
,
y
.
^^
(2)计算回归系数a ,b ,公式为
b^
n
xi yi
i1
n
n x y ,
xi2 nx?2
i1
a^
y
^
b
x.
(3)写出回归直线方程
x)2 ]
.
注意:方差和标准差描述了一组数据与平均数的离散程度,反映了一组
数据相对于平均数的波动情况,标准差和方差越大,说明这组数据的波
动性越大.
3.关于平均数、方差的有关性质
(1)若x1,x2,…,xn的平均数为 x,那么mx1+a,mx2+a,…,mxn+a的平均数为m x
+a.
(2)数据x1,x2,…,xn与数据x'1=x1+a,x'2=x2+a,……,x'n=xn+a的方差相等.
录和表示都带来了方便.
考点三 样本的数字特征 1.众数、中位数、平均数
2.方差和标准差 方差和标准差反映了数据波动程度的大小.
1
(1)方差:④ s2= n [(x1- x )2+(x2- x )2+…+(xn-x )2] ;
(2)标准差:s=
1 n [(x1
x)2
( x2
x)2
( xn
n
i1
tiyi-nt
y =120-5×3×7.2=12,
^
从而b
=
lty
=12
^
=1.2,a
=
y
^
-b
t
=7.2-1.2×3=3.6,
ltt 10
^
故所求回归方程为 y =1.2t+3.6.
^
(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为 y =1.2
×6+3.6=10.8(千亿元).
^
a
中,
n
^ ti yi nt y ^
^
= b i1 n
,a = y-b t.
ti2 nt ?2
i1
解析 (1)列表计算如下:
t
2 i
这里n=5,t
=
1 n
n
i1
ti=
15 5
=3,
y
=
1 n
n
yi=
i1
36 5
=7.2.
又ltt=
n
i1
ti2
-n
t
2
=55-5×32=10,lty=
解析 若m=6,则在第7组中抽取的号码个位数字与13的个位数字相同, 而第7组中的编号依次为60,61,62,63,…,69,故在第7组中抽取的号码是63.
方法 2 频率分布直方图
频率
1.小长方形的面积=组距×组距 =频率. 2.各小长方形的面积之和等于1. 例2 (2017安徽黄山二模,19)全世界越来越关注环境保护问题,某监测 站点于2016年8月某日起连续n天监测空气质量指数(AQI),数据统计如 下表:
n
xi2
2
nx
,
i 1
i 1
a^
y
^
b
x.
其中(
x,
y
)为样本点的中心, x =
1 n
n
xi,
i1
y
=
1 n
n
yi.
i1
n
xi yi nx y
2.样本相关系数r=
i1
n
i1
xi2
2
nx
n
i1
yi2
2
ny
.
如果|r|>r0.05,那么表明有95%的把握认为x与y具有线性相关关系.如果|r|
当K2>3.841时,有95%的把握说X与Y有关;
当K2>6.635时,有99%的把握说X与Y有关;
当K2>10.828时,有99.9%的把握说X与Y有关.
方法技巧
方法 1 系统抽样与分层于元素个数很多且均衡的总体;
(2)各个个体被抽到的机会均等;
(3)总体分组后,在起始部分采用的是简单随机抽样;
)2+(x2-
x
)2+…+(xn-
x
)2];
标准差:s=
1 n
[( x1
x)2
( x2
x)2
( xn
x)2 ]
.
方差、标准差描述数据的离散程度.
例3 (2017湖北黄冈3月质检,7)已知数据x1,x2,x3,…,xn是某市n(n≥3,n∈
N*)个普通职工的年收入,设这n个数据的中位数为x,平均数为y,方差为z,
考点五 独立性检验 1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的 变量称为分类变量. 2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变 量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为 2×2列联表)如下:
可构造一个随机变量K2=
(2)如果确实属于这类问题,要科学地抽取样本,样本容量要适当,不可太
小;
(3)根据数据列出2×2列联表;
(4)提出假设H0:所研究的两类对象(X、Y)无关;
(5)根据公式计算K2=
n
进行.
考点二 频率分布直方图与茎叶图
1.频率分布直方图的特征
(1)各个小矩形的面积和为1.
(2)纵轴的含义为
频率 组距
,矩形的面积=组距×
频 组率 距=频率.
(3)样本数据的平均数的估计值等于每个小矩形的面积乘矩形底边中点
横坐标之和.
(4)众数为最高矩形的底边中点的横坐标.
2.茎叶图的优点
茎叶图的优点是可以保留原始数据,而且可以随时记录,这给数据的记
坐标.
(2)在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,
由此可以估计中位数的值.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个
小矩形的面积与小矩形底边中点的横坐标的积之和.
2.平均数: x= x1 x2 x3 xn ;
n
方差:s2=
1 n
[(x1-
x
§10.2 统计及统计案例
知识清单
考点一 抽样方法 1.三种抽样方法的比较
2.分层抽样中公式的运用
样本容量 各层所抽取的个体数
抽样比=① 个体总量 = 各层个体数量
.
3.简单随机抽样 每次每个个体被抽到的概率都相等,都是N1 . 在抽样过程中,每个个体被抽到的概率都是n .
N
4.系统抽样的步骤
当
n(ad bc)2
,其中n=a+b+c+d为
(a b)(c d )(a c)(b d )
样本容量.
3.独立性检验
利用独立性假设、随机变量K2来确定是否有一定把握认为“两个分类
变量有关系”的方法称为两个分类变量的独立性检验.
两个分类变量X和Y是否有关系的判断标准:
统计学研究表明:当K2≤3.841时,认为X与Y无关;
(3)若x1,x2,…,xn的方差为s2,那么ax1+b,ax2+b,…,axn+b的方差为a2s2.