区间估计参数说明1、从变量窗口中认识各个变量的含义2、在已编辑好的数据中按Analyze――Descriptive Statistics――Explore,在弹出的窗口中,左边的上部是各个变量名,右边分为三个部分,第一个是因变量窗口,即Dependent框。
第二个是分组变量窗口,即Factor。
比如我们将班上的学生体重做分析,即体重为因变量窗口,性别为分组变量窗口。
第三个为选择标识变量,当我们要寻找奇异值,即数值相对较大或者较小的值时,需要对数据标上标签,通常为序号。
则要使用该变量值标识各观测值。
3、左边的下部,是Display栏,它分为三个选项:both:输出图形以及描述统计量,此为系统默认。
Statistics:只输出描述统计量。
Plots:只输出图形。
左边的下部也有三个选项,首先看Statistics,弹出的对话框有四个复选框,第一个为Descriptives,选中它即要求输出基本描述统计量。
选择此项将输出平均数、中位数、众数、标准误、方差、极值、峰度、偏度等等。
在Confidence intervals for mean均值的置信区间。
在参数中键入不同的置信区间,可以得到不同的区间范围。
常用的有90%、95%、99%。
M-estimators为集中趋势的最大似然比的稳健估计,此项不要求掌握。
Outliers 要求输出五个最大、最小值。
Percentiles 要求输出百分位数。
其次是Plots框,它分为三个部分,第一个为Boxplot 选择框,它要求作出各组因变量的并列箱图。
第一项是:因变量按因素水平分组,各组因变量生成并列箱图,可以比较不同水平上的分布情况;第二项是:所有因变量生成一个并列箱图,可在同一水平上比较各因变量值的分布。
第二个部分是Descriptive,包括茎叶图和直方图两种,我们选择直方图。
下面的Normality plots with tests复选项,输出正态概率与离散正态概率图。
Spread vs level with levene test 栏是方差齐次检验结果,不要求掌握。
Option按钮,展开后有三个选项,分别表示在分析过程中,剔除带有缺失值的观测量(Exclude cases listwies)在分析中剔除中,不仅剔除缺失值还剔除那些与缺失值有成对关系的观测值(Exclude case pairwise)。
分组变量中的缺失值将被单独分为一组。
输出频数表时也包括缺失值组,但将标定出分组变量的缺失值(Report values)。
Levene检验:检验两个样本的数据是否具有相等方差时,虽然可以采用多种检测方法,但是多数都是基于数据必须服从正态分布这一假设,否则就失去数据检验的意义。
Levene检验则较少依赖于正态性的假设,因而,它是等方差性检验的特别有效的方法。
Spread-level(幅度-水平)检验:幅度-水平图,是指框图的高度与各变量的水平或均值之间的关系。
正态性检验:1、图示法:偏态图:可以描绘这些点偏离直线的实际偏差,这种偏离直线的偏差则构成了偏态图。
如果样本来自正态总体,这些点应该分布在一条过原点的水平线上,且没有任何模式;如果有一个明显的模式,则意味着总体并非正态分布。
正态概率图:对于正态概率图,每个观察值与其来自正态分布中的期望值组成数据点,这些数据点多数应落在一条直线上。
2、显著性水平检验法:Shapiro-wilks检验:当均值与方差均未知而必须从数据中估计时使用。
Lilliefors正态检验法:当显著性水平significance<0.05时,固然可以拒绝正态假设。
但是,当样本规模比较大时,任何拟合度的检验,几乎都认为有理由拒绝原假设。
因此难以找到一个服从正态分布的数据。
所以,对于大规模的样本数据,不仅要考察观察值的显著性水平,而且还必须考察其对正态分布的实际偏离程度。
平稳估计量如果我们对数据来源的总体做出某个假定,则将会求出更好的分布位置的估计量,这种估计量称为平稳(或稳健)估计量。
二、修正均值:1、修正均值由于均值受极值影响很大,因此,可以通过去掉一些远离主体数据的极值,进而获得一个分布位置的简单而平稳的估计量。
修正均值的优点:与中位数法一样,此法生成的统计量也不受极值的影响。
与中位数不同的是:它并非仅仅基于位于中央的单一值(奇数)或两个数值(偶数),而是基于位于中央的多个数值。
中位数可作为一个50%的修正平均值。
高于或低于中位数的各占半数的数据将被忽略。
总之,调整后的均值比中位数可更好的描述数据。
M估计修正平均值,是把个案分为两组,一组用来计算均值,另一组则作为比较,然后观测两组频次,并分别赋予其权重1和0,最后计算其加权平均数。
另一种折中的方法,是把极值包括在计算之内,而赋予一个权重较小的。
这种方法可以借助M估计或采用广义极大似然度估计。
所有常用的M估计在赋予权重的时候,观察值离分布中心越远,权重就越小,反之亦然。
常见的M估计有4种:Huber的M估计量、Hampel的M估计量、Tukey的M估计量、Andrew的M估计量。
区间估计作业1Lisa Rae Bock在1994年开办了一家Bock投资服务公司(Bock Investment Services,BIS),旨在给南加利福尼亚货币市场提供咨询服务和指导。
为了给其目前的客户提供更好的服务并吸引新客户,她每周做一次简讯。
为了更好地反映每周对基金管理者电话调查的结果,Lisa正在考虑向简讯中增加一项内容。
为了对提供这种服务的可能性进行调查,以便确定在简讯中包含哪些信息,Lisa选取了45种货币市场基金组成一个简单随机样本,部分数据如下表所示,它们报告了基金的资产、最近7天和最近30天的获益率。
在给基金管理者打电话以获取更多的信息之前,Lisa决定先对已搜集的数据做一些初步分析。
表:Bock投资服务公司问题中所用的数据货币市场基金资产(百万美元)过去7日的获益率(%)过去30日的获益率(%)AmcoreAlger Arch MM/Trust BT Instit Treas Benchmark DirBradfordCapital cash Cash Mgt TrustComposite Cowen StandbyCorlandDeclarationDreyfusElfunFFB Cash Federated Master Fidelity CashFlex-fundFortis Franklin Money Freedom cash Galaxy Money Government Cash Hanover Cash Heritage Cash Infinity/Alpha John Hancock Landmark FundsLiquid cash Mardet Watch Merrill LynchMoney103.9156.7496.5197.82755.4707.61.72707.8122.8694.7217.338.44832.881.7506.2738.713272.8172.8105.6996.81079.0801.4409.4794.31008.353.6226.4481.3388.910.627005.6113.44.104.794.174.374.543.884.294.144.034.253.572.674.014.514.174.414.514.603.873.974.074.113.834.324.083.993.934.284.614.134.244.224.084.734.134.324.473.834.224.043.914.193.512.613.894.414.114.344.424.483.853.924.013.963.824.234.003.913.874.264.644.054.184.20NCC Funds Nationwide Overland Pierpont Money Portico Money Prudential MoneyMart Reserve Primary Schwab Money Smith Barney CashStagecoach Strong Money Transamerica Cash United Cash Woodword Money517.3 291.5 1991.7 161.6 6835.1 1408.0 10531.0 2947.6 1502.2 470.2 175.5 323.7 1330.0 4.22 4.26 4.50 4.28 4.20 3.91 4.16 4.16 4.18 4.37 4.20 3.96 4.24 4.14 4.17 4.40 4.20 4.16 3.86 4.07 4.12 4.13 4.29 4.19 3.89 4.21资料来源:Barron’s ,October 3,19941. 用适当的描述统计量汇总货币市场基金的资产和获益率数据。
2. 求货币市场基金总体的资产均值、最近7天的获益率和最近30天的获益率的95%置信区间估计。
并对该区间估计做出管理上的解释。
3. 从Lisa 该如何在其每周的简讯中使用这些信息的角度上看,你的统计结果能说明什么?4. 为了向客户提供最有用的信息,你建议Lisa 还需要搜集一些其它什么信息? 区间估计作业2谢尔工业公司拟采用一项计算机辅助程序来培训公司的维修支援掌握及其维修的操作,以减少培训工人所需要的时间。
为了评价这种培训方法,生产经理需要对这种程序所需要的平均根据上述资料建立置信度为95%的总体均值的区间估计。
(假定培训时间总体服从正态分布)。
区间估计作业3斯泰特怀特保险公司每年都需对人寿保险单进行审查,现公司抽取36个寿保人作为一个简单随即样本,得到关于、投保人年龄、保费数量、保险单的现金值、残废补偿选择等项目的资料。
为了便于研究,某位经理要求了解寿险投保人总体平均年龄的90%的区间估计。
区间估计作业4为估计两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排12名工人,每个工人组装一件产品所需的时间(分钟)下如表。
假定两种方法组装产品的时间服从正态分布,且方差相等。
试以95%的置信水平建立两种方法组装产品所需平均时间差值的置区间估计作业5沿用前例。
假定第一种方法随机安排12名工人,第二种方法随机安排名工人,即n1=12,n2=8,所得的有关数据如表。
假定两种方法组装产品的时间服从正态分布,且方差不相等。
以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间。