当前位置:文档之家› 数学选修23第三章统计案例教案

数学选修23第三章统计案例教案

第三章 统计案例§3.1 独立性检验(1)1. 某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病.问题:根据这些数据能否断定“患呼吸道疾病与吸烟有关”?为了研究这个问题,(1)引导学生将上述数据用下表来表示:一.建构数学 1.独立性检验:(1)假设0H :患病与吸烟没有关系.若将表中“观测值”用字母表示,则得下表:如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据(观测值)不能否定假设0H .否则,应认为假设0H 不能接受,即可作出与假设0H 相反的结论. (2)卡方统计量:为了消除样本对上式的影响,通常用卡方统计量(χ22()-=∑观测值预期值预期值)来进行估计.卡方χ2统计量公式:χ2()()()()()2n ad bc a b c d a c b d -=++++(其中n a b c d =+++)由此若0H 成立,即患病与吸烟没有关系,则χ2的值应该很小.把37,183,21,274a b c d ====代入计算得χ211.8634=,统计学中有明确的结论,在0H 成立的情况下,随机事件“26.635χ≥”发生的概率约为0.01,即2( 6.635)0.01P χ≥≈,也就是说,在0H 成立的情况下,对统计量χ2进行多次观测,观测值超过6.635的频率约为0.01.由此,我们有99%的把握认为0H 不成立,即有99%的把握认为“患病与吸烟有关系”.象以上这种用2χ统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验.2.独立性检验的一般步骤:一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值:类A 和类B (如吸烟与不吸烟),Ⅱ也有两类取值:类1和类2(如患呼吸道疾病与不患呼吸道疾病),得到如下表所示:推断“Ⅰ和Ⅱ有关系”的步骤为:第一步,提出假设0H :两个分类变量Ⅰ和Ⅱ没有关系; 第二步,根据2×2列联表和公式计算χ2统计量; 第三步,查对课本中临界值表,作出判断. 3.独立性检验与反证法:反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立;独立性检验(假设检验)原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立. 四.数学运用 1.例题:例1.在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:该种血清能否起到预防感冒的作用?分析:在使用该种血清的人中,有48.4%500=的人患过感冒;在没有使用该种血清的人中,有28456.8%500=的人患过感冒,使用过血清的人与没有使用过血清的人的患病率相差较大.从直观上来看,使用过血清的人与没有使用过血清的人的患感冒的可能性存在差异.解:提出假设0H :感冒与是否使用该种血清没有关系.由列联表中的数据,求得221000(258284242216)7.075474526500500χ⨯⨯-⨯=≈⨯⨯⨯∵当0H 成立时,26.635χ≥的概率约为0.01,∴我们有99%的把握认为:该种血清能起到预防感冒的作用.例2.为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?分析:在口服的病人中,有59%98≈的人有效;在注射的病人中,有67%95≈的人有效.从直观上来看,口服与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢?下面用独立性检验的方法加以说明.解:提出假设0H :药的效果与给药方式没有关系.由列联表中的数据,求得22193(58314064) 1.3896 2.072122719895χ⨯⨯-⨯=≈<⨯⨯⨯当0H 成立时,21.3896χ≥的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设0H ,即不能作出药的效果与给药方式有关的结论. 说明:如果观测值22.706χ≤,那么就认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“0H 成立”,即Ⅰ与Ⅱ没有关系.§3.1 独立性检验(2)二.数学运用 1.练习题:1.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。

女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动。

(1)根据以上数据建立一个2× 2列联表; (2)判断性别与休闲方式是否有关系。

例2.气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?例3.下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?§3.2 回归分析(1)一.建构数学1.线性回归模型的定义:我们将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型.说明:(1)产生随机误差的主要原因有:①所用的确定性函数不恰当引起的误差;②忽略了某些因素的影响; ③存在观测误差. (2)对于线性回归模型,我们应该考虑下面两个问题: ①模型是否合理;②在模型合理的情况下,如何估计a ,b ? 2.探求线性回归系数的最佳估计值: 设有n对观测数据(,)i i x y (1,2,3,,)i n =L ,根据线性回归模型,对于每一个ix ,对应的随机误差项()i i i y a bx ε=-+,我们希望总误差越小越好,即要使21nii ε=∑越小越好.所以,只要求出使21(,)()ni i i Q y x αββα==--∑取得最小值时的α,β值作为a ,b 的估计值,记为$a,b $. 注:这里的iε就是拟合直线上的点(),i i x a bx +到点(),i i i P x y 的距离.用什么方法求$a,b $? 线性回归方程的方法:最小二乘法.利用最小二乘法可以得到$a,b $的计算公式为 $1122211()()()()nni i i ii i n ni ii i x x y y x y nx yb x x xn x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑$$,其中11nii x x n ==∑,11ni i y y n ==∑由此得到的直线$$y a bx =+$就称为这n 对数据的回归直线,此直线方程即为线性回归方程.其中$a ,b $分别为a ,b 的估计值,$a 称为回归截距,b $称为回归系数,$y 称为回归值.3. 线性回归方程$$y abx =+$中$a ,b $的意义是:以$a 为基数,x 每增加1个单位,y 相应地平均增加b$个单位; 4. 化归思想(转化思想)(了解)在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.下面列举出一些常见的曲线方程,并给出相应的化为线性回归方程的换元公式. (1)b y a x =+,令'y y =,1'x x=,则有''y a bx =+. (2)b y ax =,令'ln y y =,'ln x x =,'ln a a =,则有'''y a bx =+. (3)bx y ae =,令'ln y y =,'x x =,'ln a a =,则有'''y a bx =+.(4)b xy ae=,令'ln y y =,1'x x=,'ln a a =,则有'''y a bx =+. (5)ln y a b x =+,令'y y =,'ln x x =,则有''y a bx =+.二.数学运用 1.例题:例1.下表给出了我国从1949年至1999年人口数据资料,试根据表中数据估计我国2004年的人口数.年份 1949 1954 1959 1964 1969 1974 1979 1984 1989 1994 1999 人口数/百万542 603 672 705 807 909 975 1035 1107 1177 1246解:为了简化数据,先将年份减去1949,并将所得值用x 表示,对应人口数用y 表示,得到下面的数据表:x5 10 15 20 25 30 35 40 45 50 y542 603 672 705 807 909 975 1035 1107 1177 1246作出11个点(),x y 构成的散点图,由图可知,这些点在一条直线附近,可以用线性回归模型y a bx ε=++来表示它们之间的关系.根据公式(1)可得$14.453,527.591.ba ⎧≈⎪⎨≈⎪⎩$ 这里的$,a b$分别为,a b 的估 计值,因此线性回归方程 为$527.59114.453y x =+ 由于2004年对应的55x =,代入线性回归方程$527.59114.453y x =+可得$1322.506y =(百万),即2004年的人口总数估计为13.23亿.§3.2 回归分析(2)1.相关系数的计算公式:对于x ,y 随机取到的n 对数据(,)i i x y (1,2,3,,)i n =L ,样本相关系数r 的计算公式为()()nniii ix x y y x y nx yr ---==∑∑.2.相关系数r 的性质: (1)||1r ≤;(2)||r 越接近与1,x ,y 的线性相关程度越强; (3)||r 越接近与0,x ,y 的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 3. 作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系.说明:1.对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%.2.这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.3.这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.4.对于上节课的例1,可按下面的过程进行检验: (1)作统计假设0H :x 与y 不具有线性相关关系;(2)由检验水平0.05与29n -=在附录2中查得0.050.602r =;(3)根据公式()2得相关系数0.998r =;(4)因为0.9980.602r =>,即0.05r r >,所以有95﹪的把握认为x 与y 之间具有线性相关关系,线性回归方程为$527.59114.453y x =+是有意义的.。

相关主题