2007年人大统计学专业课初试题参考解答一、(1)①需假定总体是正态总体。
②不能用数据证明。
数据至多只能检验该数据的分布是否接近正态分布,而不能从理论上证明或肯定它一定就来自正态分布总体,即正态性检验不能提供不拒绝正态性原假设的结论。
③不是。
该区间是确定的区间,要么覆盖真实总体均值,要么不覆盖,没有概率可言。
它是置信度为95%的随机置信区间的一个样本实现,后者才是以95%的概率覆盖真实总体均值。
(2)①需假定:总体服从正态分布;总体方差未知;样本量较小(一般 30)。
②不能。
“接受零假设”的说法是不妥的,否则就得负责任的给出犯第二类错误的概率,而该检验的备选假设是“总体均值>4.8克”,据此是无法算出此概率的。
所以只能说,在显著水平为0.05时利用该数据进行检验不足以拒绝零假设,不拒绝不等同于接受。
二、(1)不是。
因为只有员工看到并愿意答复电子邮件时才有机会进入样本,所以每个员工入样的概率并不一样,这其实是一种非概率抽样。
(2)①不对。
不说实话只是产生响应误差的原因之一,而被调查者与调查者两方面的因素,都有可能导致响应误差。
调查者不当的引导或者问卷设计不科学或者被调查者知识的局限性,都可能使被调查者对要回答的问题的理解产生偏差,这时候即使他(她)说了“实话”,也会产生响应误差,因为这不是我们想要的“实话”。
另外,拒绝回答也是一种重要原因。
②随机误差是不可以避免的,因为它是由抽样的随机性造成的,是客观的。
(3)整体来说是不独立的。
因为同一个网络公司员工加班时间一般是不独立的,而不同网络公司员工加班时间一般是独立的。
三、(1)令自驾车上班人数比例为π,由于不能轻易否定原结论,则检验假设为:01:30%:30%H H ππ≥⎧⎨<⎩ (2)①令样本量为n ,其中驾车上班人数为X ,假定X 服从二项分布(,0.3)B n ,X 的样本值为0x ,则00{}{0}{1}{}p P X x P X P X P X x =≤==+=++=L 值②检验统计量0~(0,1)H Z N =。
假定:大样本(5, 5X n X >->);每人驾车上班与否相互独立且服从同参数0-1分布。
(3)统计上显著并不意味着实际上显著,要具体问题具体分析。
比如,某箱牛奶经统计检验,含三聚氰胺的概率显著低于5%,但人们未必敢要这箱牛奶;统计上0.1与0.01有显著差异的时候,实际中未必有多大意义。
不过统计显著与实际显著很多时候是一致的。
四、不负责。
一个负责任的调查报告应该给出较详尽的内容,主要如下: ①主题; ②调查时间与地点; ③调查主题、客体、对象; ④数据搜集方法、抽样框、抽样单元、样本量、抽样方法、估计方法; ⑤结论描述; ⑥精度、质量评估; ⑦责任; ⑧参考文献。
五、①无道理。
如果进行第二次主成分分析,那么它处理的变量是第一次主成分分析得到的互不相关的主成分,这样得到的“新”的主成分其实跟第一次得到的主成分是完全一样的,这可以通过矩阵运算进行验证,所以做的是无用功。
②变量之间相关系数多数较小(一般指<0.3)的数据不宜进行主成分分析。
③不总是适用。
要具体问题具体分析,不能拘泥于某些固有的准则,有时候还要根据问题的实际意义或专业理论知识来分析。
六、①不一定。
只有当所有对因变量产生影响的自变量都考虑进来了而且不存在自相关、异方差等情况时,ε才是随机误差。
②不需要。
如果要研究最小二乘估计量性质的话,就得假定ε满足Guass-Markov 条件;若还要进行回归系数区间估计和有关假设检验,则要进一步假定2~(0,)n N I εσ。
七、(1)需要选择度量样品或指标相似性的统计量,通常是距离(欧式距离、马氏距离等)或相似系数(夹角余弦、相关系数等)。
然后还要定义样品间、类与类间的距离或相似系数。
(2)①计算n 个样品两两间的距离;②构造n 个类,每个类只包含1个样品; ③合并距离最近的两类为1新类; ④计算新类与其它类之间的距离;⑤判断类的个数是否为1,是则进入第⑥步,否则返回第③步; ⑥画谱系聚类图;⑦决定分类个数和各类成员。
(3)①把样品粗略分成K 类;②以上述K 类的均值为种子,按照到它们距离的远近把所有点分成新的K 类;③反复进行第②步,直至收敛,得到最终的K 类。
八、(1)可能是前进法或逐步回归法。
由表可知,选元进行了两步,第一步选了自变量Beginning Salary ,第二步增加了另一自变量Employment Category 。
前进法显然解释得通。
至于逐步回归法,因为只进行了两步,而它的第二步不考虑剔除,故可以得到与前进法完全一样的结果。
(2).Sig 就是通常所说的p 值,其计算公式为0.{}Sig P F F =≥这里的F 是原假设成立时服从F 分布的检验统计量,0F 是F 的样本值,即表中的1622.118和997.312。
.Sig 的意义就是,原假设为真时,F 统计量取其样本实现值以及更极端值的概率,是检验的真实显著性水平。
(3)假定:①2~(0,)n N I εσ;②原假设012:0H ββ==成立。
证明:可知/ ()/(1)SSR pF SSR SSE SSE n p =--指回归平方和,指残差平方和。
由数理统计知识,在假定①成立时,有22/~(1)SSE n p σχ--在假定①②成立时,有22/~()SSR p σχ且SSE 与SSR 是相互独立的,故/~(,1)/(1)SSR pF F p n p SSE n p =----证毕。
2006年人大统计专业课初试题及答案试题一、(20分)某银行为缩短到银行办理业务等待的时间,准备采用两种排队方式进行试验:一种是所有顾客都进入一个等待队列;另一种是顾客在三个业务窗口处列队三排等待。
为比较那种排列方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:分钟)如下:5.56.6 6.7 6.87.1 7.3 7.4 7.8 7.8 (1)画出第二种排队方式等待时间的茎叶图;(2)比较两种排队方式等待时间的离散程度;(3)如果让你选择一种排队方式,你会选择哪一种?试说明理由。
二、(20分)某企业生产的袋装食品采用自动打包机包装,每袋标准重量为100克。
现从某天生产的一批产品中按重量重复抽样方式随机抽取50包进行检查,测得每包重量(单位:克)如下:已知食品包重量服从正态分布,要求:(1)确定该种食品平均重量95%的置信区间;(2)如果厂家认为每袋食品重量不低于100克,请写出检验的原假设和备择假设;(3)利用P值进行检验和利用统计量进行检验有什么不同?(z0.05=1.645,z0.025=1.96,t0.05=1.69,t0.025=2.03)三、(20分)一家汽车制造商准备购进一批轮胎,考虑的因素主要有轮胎供应商牌和耐磨程度。
为了对耐磨程度进行测试,分别在低速(40公里/小时),中速(80公里/小时),高速(120公里/小时)下进行测试。
根据对5家供应商抽取的轮胎随机样本对轮胎在行驶1000公里后磨损程度进行试验,在显著水平α=0.01下得到的有关结果如下:差异源SS df MS F P-value F crit行列误差总计1.553.480.145.17428140.391.740.0221.7297.680.0002360.0000027.018.65(1)不同的车速对磨损程度是否有显著影响?(2)不同供应商的轮胎之间磨损程度是否显著差异?(3)在上面的分析中,你都做了哪些假设?四、(15分)说明什么条件下适合采取简单随机抽样?五、(25分)说明回归模型的假设以及当这些假设不成立时的应对方法。
六、(20分)解释因子模型X=AF+ε的意义并写出模型的假设。
七、(15分)以下是从《中国统计年鉴-2005》摘引的资料,要求:单位:元/人(1)根据国民经济收入分配核算原理,说明居民人均收入低于人均GDP水平的原因;(2)计算各指标的动态变动率(不考虑价格变化),对其结果予以简要分析。
八、(15分)下表是中国全部国有及规模以上非国有供企业统计的主要指标,要求:(1)设计并计算反映企业经济效益的指标;(2)对经济效益指标的动态变化状况做简要分析。
2006年人大统计学专业课初试题参考解答一、(1)图略。
(2)第二种排队方式平均等待时间9221111(5.5 6.67.8)7.07.299i i x x x ===+++=<=∑L其中1x 为第一种排队方式平均等待时间。
第二种排队方式的方差922222222122111()[(5.57)(6.67)(7.87)]91910.51 1.97 3.88i i s x x s ==-=-+-++---=<==∑L其中21s 为第一种排队方式的方差。
可知第二种排队方式比第一种排队方式离散程度小。
(3)我会选择第二种排队方式。
以为它的平均等待时间较短,等待时间也较稳定。
二、(1)样本量为50,可认为是大样本,由中心极限定理知~(0,1)x N &其中x 为样本均值,μ为总体均值,ˆσ为样本标准差。
由0.025}0.95P z <=得到95%的置信区间0.0250.025ˆˆ(//x z x z σσ-+ 代入样本数据计算得5111(9729931013410371054)1015050i i i x M f ===⨯+⨯+⨯+⨯+⨯≈∑ˆ 1.67σ=== 所求置信区间为(101 1.96 1.67/ 1.96 1.67/-⨯+⨯即(100.54,101.46)(2)由表可知样品中超过100g 的食品包数占大多数,厂家的观点似乎有一定的可信度,故令检验假设为01:100:100H gH g ≥⎧⎨<⎩每袋食品重量每袋食品重量 (3)P 值是当原假设为真时,得到所观测结果或更极端结果的概率,是检验的真实显著性水平,可利用P 值直接决策或将P 值与显著性水平α进行比较,不需要查表,具有可比性;统计量检验是先确定一个显著性水平α从而获得一个否定域,进行决策的界限清晰但面临的风险是笼统的,确定临界值要查表,检验统计量一般与自由度有关因而可比性较差。
三、(1)这是无交互作用双因素方差分析问题,由行、列自由度可知行因素是供应商,列因素是车速。
列的F 检验值97.68>F 临界值8.65,P 值0.000002<<显著性水平α=0.01,故拒绝原假设,即认为车速对磨损程度有显著影响。
(2)同(1)之理,可知不同供应商的轮胎之间的磨损程度有显著差异。
(3)假设:①车速与供应商对轮胎的磨损程度无交互作用;②车速与供应商不同水平组合形成的总体都是正态总体; ③上述总体方差都相同; ④各观测数据相互独立;⑤行因素原假设015: ()i H μμμ==L 是总体均值,下同; ⑥列因素原假设0123:=H μμμ=。