论述题:1. 解释假设检验的基本思想方法及可能会犯的两类错误及在实际应用中如何控制可能犯两类错误的概率。
2.试述均匀试验设计的特点,对均匀试验设计和正交试验设计两种方法进行比较,指出各自的优缺点。
3.试述费歇判别的基本思想方法及主要步骤。
4.试述多元线性回归解决实际问题的基本思想方法及主要步骤。
6.解释正交试验设计的特点及理论依据。
7.试论述一元线性回归的基本思想及主要方法步骤。
一、(任选两题,每题10分,共20分)1.解释假设检验的基本思想方法及可能会犯的两类错误及在实际应用中如何控制可能犯两类错误的概率。
2.解释正交试验设计的特点及理论依据。
3.试述一元线性回归的基本思想及主要方法步骤。
答案:1.假设原理运用了小概率原理,在原假设0H 正确的前提下,根据样本观察值和运用统计方法检验由此将导致什么结果,如果导致小概率事件在依次试验中发生了,则认为原假设可能不正确,从而拒绝原假设;反之,如果未导致小概率事件发生,则没有理由拒绝原假设。
第一类错误:弃真错误即0H 为真时,作出拒绝0H 的判断;第二类错误:纳伪错误即0H 不真时,作出接受0H 的判断。
通常限制犯第一类错误的概率α,增大样本容量使犯第二类错误的概率β尽可能地小。
为了简化检验过程,更多的应用是只控制犯第一类错误的概率α,而不考虑犯第二类错误的概率。
2. 正交试验设计是研究多因素多水平的又一种设计方法,它有多、快、好、省的特点。
“多”是指可以考虑多因素、多指标;“快”是指试验次数少、周期短、见效快;“好”是指可以很快找到优秀方案和可能最优方案;“省”是指省时间、省耗费、省资金、省劳力等。
正交性原理是正交实验设计的理论依据,它主要表现在均衡分散性和整齐可比性两个方面。
均衡分散性是指正交表安排的实验方案均衡地分散在配合完全的水平组合的方案之中。
整齐可比性是指对于每列因素,在各个水平导致的结果之和中,其它因素的各个水平出现的次数是相同的。
3.一元线性回归是研究两个变量之间的相关关系,且两个变量有着密切的关系,它们的这种相关关系不能用完全确切的函数形式表示,但在平均意义下有一定的定量关系表达式。
1)先进行相关性分析,看两个变量间是否有线性关系,确定回归方程中的因变量与自变量,对线性模型进行假设;2)从样本数据出发对线性回归方程进行参数估计,确定回归方程;3)对回归方程进行各种统计检验:回归方程的拟合优度检验、回归方程的显著性检验、回归系数的显著性检验、残差正态检验。
4)利用回归方程进行解释或预测现象。
1.在某新产品开发试验中需要考虑四个因素A 、B 、C 、D 对产品质量的影响。
根据专业知识和实践经验知道,A 与C 之间存在着交互作用,D 与A 、B 及C 之间的交互作用可以忽略不计。
(1)假设每个因子只取两个水平,试选择适当的正交表安排该实验; (2)指出第2号及第5号试验的实验条件。
解: (1)根据题意,A 与B 、B 与C 之间的交互作用还不能肯定,需要通过试验考察。
这样,需要考察的因子及交互作用为A ,B ,C ,D ,A ×B ,A ×C ,B ×C 。
因此可以选用78(2)L 正交表。
表头设计列入表1-1。
(2)第2号试验的试验条件为1122A B C D ,第5号试验的试验条件为2112A B C D 。
2.设'1(0,1,1)X =,'2(2,0,1)X =,'3(1,2,4)X =,为来自总体X 的一个样本,求X 的协方差矩阵∑、相关矩阵R 的矩估计。
解:333'''123111111111(,,)((021),(102),(114))(1,1,2)333333i i i i i i X x x x =====++++++=∑∑∑µ'311 1011()()( 0(1,0,1)1(1,1,1)1(0,1,2))312112i i i X X X X =-⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪∑=--=--+---+ ⎪ ⎪ ⎪- ⎪ ⎪ ⎪--⎝⎭⎝⎭⎝⎭∑1 102101 111000113(0001 1 1012) 12221011 1 10243 0 32⎛⎫-⎪--⎛⎫⎛⎫⎛⎫ ⎪ ⎪ ⎪ ⎪⎪=+-+=-⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪-⎪⎝⎭⎝⎭⎝⎭ ⎪ ⎪⎝⎭µ1 1-021- 1201R ⎛⎫ ⎪ = ⎪ ⎪ ⎪⎝⎭(1)操作工之间的差异是否显著; (2)机器之间的差异是否显著; (3)交互影响是否显著(0.05α=)。
解:由题意知3,4,2k r n ===,又由题目给出数据可得:123134,129,150T T T ===g g g g g g ,1234103,104,102,104T T T T ====g g g g g g g g ,413T =g g g ,ij T g 见上表中两数之和。
2222111413718981.9583342krnijli j l T S y krn ====-=-=⨯⨯∑∑∑g g g总22221114135709730.083342342k A i i T S T rn krn ==-=⨯-=⨯⨯⨯∑g g g g g2222111413426450.458332342r B j j T S T kn krn ==-=⨯-=⨯⨯⨯∑g g g g g22222211114131434530.08330.458334.91672342k r ABij A B i j T S T S S n krn ===---=⨯---=⨯⨯∑∑g g g g22222=-81.958330.08330.458334.916716.5A B AB S S S S S --=---=误总将计算的有关结果列入方差分析表(表3-1)中。
对于给定水平0.05α=,由{}0.05P F λ>=分别查(附表5)得123.89, 3.49λλ==,3 3.00λ=,由表3-1可知:(1)操作工之间的差异显著。
(2)机器之间的差异不显著。
(3)操作工与机器交互影响显著。
4.下面是来自两个正态总体11(,1)N πμ:、222(,2)N πμ:的样本值12::3ππ⎧⎪⎨⎪-++⎩ 试分别用贝叶斯判别法(取1221,,(1|2)(2|1)33q q C C ===)和距离(采用马氏距离)判别法判别样品12x =及21.1x =所属的类i π。
若出现不一致结果,请提出你的判别建议。
解: 依题意,对于1π,10EX μ==,对于2π,23EX μ==。
(1)贝叶斯判别法:21(20)221(2)0.054p ---=== 211(23)222(2)p ---===0.242 21211(1.10)20021(1.1)p ---===0.218 23611(1.13)20022(1.1)p ---===0.066 112221(2)0.0540.036(2)0.2420.08133p q p q =⨯=<=⨯=112221(1.1)0.2180.145(1.1)0.0660.02233p q p q =⨯=>=⨯=所以,12x =属于2π,2 1.1x =属于1π。
(2)距离判别法:11(2)(2,)2d d π===221(2)(2,)2d d π===显然12(2,)(2,)d d ππ>,故12x =属于2π。
11(1.1)(1.1,) 1.1d d π===22(1.1)(1.1,)0.95d d π===显然12(1.1,)(1.1,)d d ππ>,故2 1.1x =属于2π。
(3)结果不一致分析。
5.已知四个样品分别为''''(2,5),(2,3),(4,3),(6,2),试用重心法和离差平方和法进行聚类分析。
若分成两类,请您提出您的分类建议。
解: (1)重心法:首先将四个样品分别看做一类,计算距离矩阵2(0)D 。
由2(0)D 可以看出,2G 和3G 之间距离最短,因此可以合并为一个新类{}523,G G G =,然后计算1G 、4G 、5G 之间的距离,得相应的2(1)D 如下由2(1)D 可以看出,1G 和5G 之间距离最短,因此可以合并为一个新类{}615,G G G =,然后计算4G 、6G 之间的距离,得相应的2(2)D 如下最后将4G 与6G 合为一类{}71234,,,G G G G G =。
上述聚类过程用聚类图表示为图5-1。
(2)离差平方和法:由(1)中已计算的重心法的距离平方及22()p q pq pq p qn n D D C n n =+计算距离矩阵2(0)D 。
由2(0)D 可以看出,2G 和3G 之间距离最短,因此可以合并为一个新类{}523,G G G =,然后计算1G 、4G 、5G 之间的距离,得相应的2(1)D 如下由2(1)D 可以看出,1G 和5G 之间距离最短,因此可以合并为一个新类{}615,G G G =,然后计算4G 、6G 之间的距离,得相应的2(2)D 如下最后将4G 与6G 合为一类{}71234,,,G G G G G =。
上述聚类过程用聚类图表示为图5-2。
(2)检验所见方程是否有意义(0.05α=);(3)预测当拉伸倍数x=6时,强度y 的置信度为95%的置信区间。
解:(1)由于n =12,64.8 5.412x ==,57.54.791712y ==2121222211()12428.1812(5.4)78.26xx i i i i l x x x x ===-=-=-⨯=∑∑121211()()1237812 5.4 4.791767.4978xy i i i i i i l x x y y x y x y ===--=-=-⨯⨯=∑∑于是得67.49780.862578.26xy xx l b l ===$ 4.79170.8625 5.40.1342a y bx =-=-⨯=$$故所求回归方程为0.13420.8625y x =+$(2)22121222211()12335.6312(4.7917)60.1053yy i ii i S l y y y y ====-=-=-⨯=∑∑总20.862567.497858.2169xy S bl ==⨯=回$222 1.8884S S S =-=总回残由{}0.05P F λ>=,查(1,10)F 分布表(附表5)得 4.96λ=,而22308.2869 4.96/(122)S F S ==>-回残所以回归方程有意义。
(3)6x =时,y 的估计值为0.13420.86256 5.3092y =+⨯=$又0.4346S ==,由{}0.05/20.025P T λ>==,查(10)t 分布表(附表3)得 2.2281λ=,故得y 的置信度为95%的预测区间为00(y y λλ-+$$00(0.13420.8625 2.22810.13420.8625 2.2281x x =+-⨯++⨯从而得6x =时,y 的置信度为95%的预测区间为(4.2992,6.3192)1.某厂有三条生产线,从三条生产线生产的纤维中分别抽取了一些样品,纤维强度数据三条生产线可以看做三个水平,即3k =,以(1,2,3)i r i =表分别示各水平所做的重复试验次数,即1235,4,6r r r ===,由上表计算得123103.5,34.5,25.2,43.8T T T T ====g g g g g222211113103.5721.217.06546ir kiji j T S y r r r ===-=-=++++∑∑g g总22222221113T 34.525.243.8103.5 2.4546546ki i iT Sr r r r ==-=++-=++++∑g gg 组间222=7.06 2.4=4.66S S S =--误总组间22123 2.4/(1)2 3.09014.66/()12S k F S r r r k -===++-组间误对于给定α,由{}P F λα>=查(2,12)F 表可得λ=,则F λ,所以三条生产线上的纤维强度差异。