关于高中数学教材中卡方检验公式的解释统计案例教学中如何让思路来得自然一些
王文彬
(江西省抚州市第一中学 344000)
2统计案例的教学内容主要有三项:线性回归、线性相关与独立性检验(检验).笔者在,教学中发现(所使用的教材是北师大版《高中数学选修教材2-3》),回归方程、相关系数公
2式与检验公式得出的思路在某些地方显得不自然,有突兀之感(人教版教材的这些内容与,
北师大版相近).如何让这些知识来得更自然一些,值得我们作进一步的探讨.
1.线性回归方程
为了说明问题,不妨将教材(指北师大版教材,下同)有关内容摘录如下: 设有个样本点,并设其线性回归方程为.这个(,),(,),(,)xyxyxy?nnyabx,,1122nn
点与回归直线的“距离”平方和为
n2 ? Qabyabx(,)(),,,,ii,1i
引入以下记号
nnn22,,,不难知道,
lxx,,()lxxyy,,,()()lyy,,(),,,xxixyiiyyi,,1,1i1iinnnn
,,从而 ()0xxxnx,,,,()0yyyny,,,,,,,,iiii,,11,,11iiii
n2,, ? Qabyyyabxbxx(,)()()(),,,,,,,,,,ii,,,1i22llxyxy2,, ? ()(),,,,,,,,?lnyabxlbyyxx,,llxxxx
lxy显然当且时,取最小值. 0b,,Qab(,)yabx,,,()0lxx
由此可得出的计算公式,由此可求出线性回归方程. ab,
在这里,教材通过求的最小值而得出的值,总体思路是比较自然的,但为
Qab(,)ab,
什么要将?改写成?,其中的原因却不易说清.为此我们可作如下改进:
22对于含有两个变量的函数,应通过配方将其化成形如“(常
数)”Qab(,)( )( )C,,的式子,这样,只要令两个括号都为零即可求出的最小值以及的值. Qab(,)ab,
n2222事实上, Qabyabxaybxyabx(,)(+222),,,,,,iiiiii,1i
nnnnn2222 ,,,,,
ynabxaybxyabx+222,,,,,iiiiii,,,,,11111iiiiinnnn222(常数) ,,,,,,naabxaybxbxyC222,,,,1iiiii,,,,1111iiiinn222,,,,,,
nanabxnaybxbxyC222,,1iii,,11ii
nn222 ,,,,,,naabxaybxbxyC(22)2,,1iii,,11ii
1
nn222,, naaybxbxbxyC2()2,,,,,,,,1iii,,,,11iinn22222,,naaybxybxnybxbxbxyC2()()()2,,,,,,,,,,,,1iii,,,,11ii
nn22222,,(常数)
naybxbxnxbxynxyC()()2(),,,,,,,,,,2iii,,,,11ii2n,,
xynxy),,iin,,22222,i1,,(常数) ,,naybxxnxbC()(),,,,,,,,i3n,,22,,,i1xnx,,i,,,i1,,
n22显然,如果有(可用数学归纳法证明),令两个中括号都为零即可得出xnx,,0,i,1i
的计算公式了. ab,
在高中数学教材必修3(北师大版)中介绍了一种方法:先将视为关于的一元二aQab(,)
bb次函数,看为何值时取最小值,再将视为关于的一元二次函数,看为何值时aQab(,)
取最小值,从而得出有关的计算公式.然而二元函数可以这样求其最小值这在中学阶段ab,
是缺乏理论依据的,因此不能从根本上为学生所接受.
2.线性相关系数
个数据,不论它们的线性相关程度如何,是否具有线性相关性,显然,对于任意给定的n
我们都可以用上述方法求得相应的线性回归方程.为使所建立的回归方程有意义,我们有必要在求出回归方程之前先对变量之间的线性相关程度作出一个判断.首先需要构造一个能合理度量线性相关程度的模型或公式,其次需要知道按所构造的公式计算出来的值多大时,相关程度才比较高.对于前者,教材利用?式得到
22llxyxyQabll(,)(1),,,, minyyyylllxxxxyy
2lxy2r,,101r,1r如令,因Qab(,)0,,故,而且当接近时,上式接近,minllxxyy
这表明相关程度越高,反之越低.故将作为度量两个变量之间的相关程度是合理的,称之r
为相关系数.
可以看到,在已有?的前提下,这样得出相关系数公式,思路是比较自然的.问题在于我们对?的来源心存疑问,故按这个思路心中总有一个解不开的疙瘩.其实稍作变化即可有效克服这一点:
由于,故 aybx,,
nn22
Qabyabxyybxbx(,)()(),,,,,,,,,iiii,,11iinnnn2222,, ,,,,()()yybxx,,,,,,,bxxbxxyyyy()2()()(),,,,iiiiii,,,,,,1111iiii
nnn22再令,,,则上式就可变为
lxx,,()lxxyy,,,()()lyy,,(),,,xxixyiiyyi,,1,1i1ii2Qablblbl(,)2,,, ? xxxyyy
其最小值为
2
22244lllll,xxyyxyxyxy. Qabll(,)(1),,,,,minyyyy4llllxxxxxxyy
n
xynxy,),iillxyxyi,1从?式知,当时,取最小值.容易验证,即这里
b,,b,Qab(,)n2ll2xxxxxnx,,ii,1
b得到的有关的计算公式与前面所得公式是一致的,而且显得更为简洁.
实践证明,这时引进记号不仅显得自然,而且能够使学生产生一种简单性的lll,,xxxyyy
美感.
至于第二个问题,即的值到底多大时,两个变量才具有线性相关性,教材没有作任何r
2介绍,笔者认为应像教材介绍“检验”那样,给出一个具体的判定标准为好. ,
23.检验 ,
如何让学生理解假设检验的基本思想,与教材相比,笔者认为以下方案更为有利.
首先通过实例(用教材所举的例子)让学生明白吸烟对患肺癌有影响,然后给出
一般性问题:
问题:为了调查吸烟与患肺癌是否有联系,经随机调查得到如下数据(单位:人): 变量? 合计 B(患肺癌) (未患肺癌) B
A abab, (吸烟) 变量? A cdcd, (不吸烟)
abcd,,, ac,合计 bd,记为 n
怎样利用这些样本数据,来分析“吸烟对患肺癌有影响”,下面我们采用类似
于反证法的思想方法来进行推理.
假设“吸烟对肺癌没有影响”(即变量?和?是独立的),也即吸烟患肺癌的人数
与不吸
ac,PB(),烟患肺癌的人数相差不多.由上表知,患肺癌的频率,未患肺癌的频
率为n
bd,PB(),,因此,在假设下可推得: n
ac,,ab,aab,,,()在个吸烟的人中,患肺癌的频数为,未患肺癌的频数为n bd,,bab,,,(). n
ac,,cd,ccd,,,()在个不吸烟的人中,患肺癌的频数为,未患肺癌的频数为
n
bd,,dcd,,,(). n
,,,,把样本值abcd,,,称为实际频数,把在假设下推得的频数称为与abcd,,,
对abcd,,,,应的理论频数.
,,,,如果假设成立,则理论频数abcd,,,与实际频数的差异不会很大.如果发生
差abcd,,,
异很大的情况,我们就有理由怀疑并推翻假设,从而得出“吸烟对患肺癌有影响”的结论.
3
于是我们需要解决两个问题:一是如何刻划理论频数与实际频数之间的差异;二是差异多大时才能肯定或否定假设.
对于第一个问题,为了度量实际频数与理论频数偏离的程度,最简单的办法就是求出实际频数与理论频数的差,由于这些差会彼此抵消,因此可考虑如下办法:
42. M,()实际频数,理论频数,k,1
显然的值越大,实际频数与理论频数相差越大,反之越小.但利用上式度量实
际频数M
5055005与理论频数偏离程度尚有不足.例如,某一组实际频数为,理论频数为,相差,
2655005另一组实际频数为,理论频数为,相差也是.前者是相对于理论频数相差,后21
5者则是相对于理论频数21相差,显然这两组实际频数与理论频数的偏离程度是不一样的.
2为了弥补这一不足,可考虑将各差平方和除以相应的理论频数后再相加,并
设为,即 ,
24(实际频数,理论频数)2 ,,,理论频数k,1
由此可得
22222()()()()aabbccdd,,,,nadbc(),2,. ,,,,,?,()()()()abcdacbd,,,,abcd
2至于第二个问题,的值多大才能怀疑并推翻假设,可按教材给出的标准向学
生介绍. ,
4。