当前位置:文档之家› 商务统计

商务统计

1.数据与统计资料个体/变量/观测值(同一个体包含各变量的度量值集合)与个体个数相同名义尺度/顺序尺度(通过一定方式可转化为名义尺度,但后者不能转化为前者)/间隔尺度具有顺序尺度的性质并可以转化为顺序尺度。

间隔尺度没有绝对零值。

间隔尺度一定是数值型的/比率尺度(Ratio Scale)-数据具有间隔尺度的所有性质,并且两个数值之比是有意义的尺度。

比率尺度具有绝对零值,比率尺度一定是数值型的。

如:价格本益比(price earnings ratio)等等。

品质型数据和数量型数据,前者只能用于描述统计,后者更高级。

品质数据和数量数据间重要的区别是,普通的算术运算只有对数量数据才有意义。

截面数据(cross-section data)、时间序列数据(time series)和面板数据(panel data)一手数据。

二手数据、数据收集误差:抽样误差(无法完全消除但不影响推断结果性质)与非抽样误差描述统计:表格图形数值等统计推断:总体/样本/普查/抽样调查/统计推断/常用统计软件:Excel、SPSS(Statistical Product and Service Solutions)。

2~3.描述统计学表格法和图形法////数值方法品质型数据汇总:频数分布,相对频数=每一组的频数/N;N为观测值的个数,乘以100则是百分数频数分布。

(条形图/饼形图)数量型数据汇总:类似,组数/组宽/组限/组中值近似组宽=(最大值-最小值)/ 组数,然后取整。

Eg:频数分布–审计时间/天频数 //总计组的相对频数=组频数/n,乘100为百分数频数。

打点图,直方图,累计分布,累计曲线。

交叉分组表和散点图和趋势线交叉分组表除了可以提供频数分布表的信息之外,其价值主要体现在它提供了变量间相关关系的深刻含义。

把表中的项目转换成行百分比或列百分比可以提供有关变量间关系的其他内部关系。

交叉分组列表广泛用于调查两个变量间的关系。

在实践中,许多统计调查的最终报告包括有大量交叉分组列表。

在两个变量都是品质变量或两个变量都是数量变量时,也可以构筑交叉分组列表。

但是依据从综合的交叉分组表中得出的结论可能与依据未综合数据得出的结论截然相反,这种现象称为辛普森悖论。

其应用:在利用综合数据的交叉分组表得到关于两个变量相关性的任何结论之前,应该查看是否存在能影响结论的隐藏变量。

•注意由隐藏变量所引起的每个分组的大小和比例的显著差异,存在辛普森悖论的数据,要更深入分析数据,不要轻易下结论掌握频数分布和累积频数分布的计算懂得直方图、交叉分组表的制作留意辛普森悖论导致的推论误导数值方法:(如果数值量度是由来自总体中的数据计算得到的,则称为总体参数)•离散型概率函数的必要条件:f(xi)≥0 和Σf(xi)=1•均匀离散型概率分布:f(x) = 1 /n离散型随机变量的数学期望:E(x)= Σxi*f(xi)•离散型随机变量的方差:Var(x)=Σ(x i-E(x))2*f(xi)二项分布的均值和方差。

Np npq连续型概率分布,均匀概率分布/ (a+b)/2 (b-a)2/12正态分布:查表什么的!图形的意义!二项分布的正态近似,在试验数大于20,np≥5和n(1-p)≥5情况下,正态概率分布给出一易于使用的二项概率近似。

也就是说均值和方差相对于试验次数来说并不是很小的情况下。

?泊松分布给出了每一间隔中发生次数,的适当描述,则指数分布给出两次发生之间间隔长度的描述。

取一个独立样本,无放回取多个独立样本,有放回求均值,方差的公式,交叉分组表的制作,查表,p值等在点估计中,我们用样本数据计算一个样本统计量的值作为总体参数的估计。

利用点估计的术语,我们令作为总体均值的点估计量,以s作为总体标准差的点估计量,以样本比率p作为总体比率的点估计量。

•比如:为了估计EAI管理人员年薪的总体均值和总体标准差,用其中30名管理人员的样本来估计:注意抽样分布与样本分布的差别:前者是指理论上导出的统计量的概率分布;后者指在一个特定的样本中实际观测到的个体值的直方图,也称样本直方图。

均值是一种特殊的数学期望,样本均值的数学期望是总体均值。

均值的标准差我们一般称为均值的标准误差(standard error of mean)。

•一般地,标准误差是指点估计的标准差;而标准差(standard deviation)是一个样本中各个观测值的标准偏离程度。

•样本均值的抽样分布形态:总体分布为正态分布,则样本均值的抽样分布在任何样本容量下都是正态分布;总体分布不是正态分布时,运用中心极限定理,当样本容量很大时,样本均值的抽样分布近似正态分布,容量越大越接近正态分布。

•当我们知道了三个要素:抽样分布的期望值(均值)、抽样分布的标准误差、抽样分布的形态,我们就可以抽样分布来提供该样本统计量与相应总体参数实际值之间差异的概率信息。

中心极限定理:从总体中抽取样本容量为n的简单随机样本,当样本容量很大时,样本均值的抽样分布可用正态概率分布近似。

样本比率值的抽样分布形态:由于n是常数,比率x/n与x有相同的二项概率,所以的抽样分布也是一个离散型概率分布,并且取值x/n的概率与x的概率相同,因此比率的抽样分布可用正态分布来近似。

比较二项概率分布的数学期望与方差:可用比率的抽样分布来提供样本比率与总体比率差异程度的概率信息。

区间估计=点估计±边际误差总体均值的区间估计:大样本的情形抽样误差的概率解释:利用标准正态概率分布表,我们发现任何正态分布随机变量95%的值在均值附近±1.96个标准差之内。

解释精度:样本均值的值的抽样误差小于等于Zα/2σx的概率为1-α。

由于样本均值以95%的可能在此区域中,称此区间为置信区间。

由于样本均值所构造的置信区间中95%的可能性包括总体均值在内,我们称此置信区间的置信水平为95%。

•置信区间的估计由两部分组成:点估计和描述估计精度的±值。

我们称该±值为边际误差。

区间估计例子•Statewide寿险投保人组成的简单随机样本选取3 6名投保人组成的简单随机样本的年龄数据,年龄的样本均值=39.5岁是总体年龄均值的点估计。

数据的样本标准差s=7.77。

在90%置信水平下,z=1.645,由总体均值的区间估计σ未知的公式, 我们得到:于是,边际误差为2.13,总体均值的9 0%置信区间估计为(37. 37,41.63)。

因此,管理者可以90%地确信Statewide寿险投保人年龄的总体均值介于37.37到41.63岁之间(39.5 ±2.13)总体均值的区间估计:小样本的情形在小样本(n<30)的情形下,均值的抽样分布依赖于总体的概率分布。

如果总体是正态概率分布,则所介绍的方法可以用于建立总体均值的置信区间。

如果关于总体的正态概率分布的假设不合理,则唯一的方法是增加样本容量到n≥30,然后利用所给出的关于大样本情形的程序进行区间估计。

大样本(n≥30)一般用正态分布Z值方法,小样本(n<30)可考虑用t-分布t值代替。

当n比较大的时候(如n>100), 两种方法的区间估计差别不大。

基于t分布求置信区间•如果总体是正态概率分布,则不管样本容量如何,均值的抽样分布都是正态的。

这时,如果总体标准差已知,则即使是在小样本的情形下,也可以用计算总体均值的区间估计。

但是,如果总体的标准差未知,则用样本标准差s估计,并基于称为t分布的概率分布求适当的置信区间。

假设检验备选假设应该按照实际世界所代表的可能方向来确定,即它通常是被认为可能比零假设更符合数据所代表的现实。

检验结果显著(significant)意味着有理由拒绝零假设。

因此,假设检验也被称为显著性检验数据的代表是作为其函数的统计量;它在检验中被称为检验统计量(teststatistic)。

根据零假设(不是备选假设!),可得到该检验统计量的分布;再看这个统计量的数据实现值(realization)属不属于小概率事件。

也就是说把数据代入检验统计量,看其值是否落入零假设下的小概率范畴;如果的确是小概率事件,那么就有可能拒绝零假设,或者说“该检验显著”否则说“没有足够证据拒绝零假设”,或者“该检验不显著。

”在零假设下,检验统计量在其分布下的概率称为p-值(p-value)。

如果得到很小的p-值,就意味着在零假设下小概率事件发生了。

有三种假设检验类型:下侧检验、上侧检验和双侧检验,其形式分别是:等号部分总是在原假设中第一类错误,第二类错误!!值得注意的是,假设检验的结果无非有两种:一是拒绝H0,那么我们就有1-α的把握说接受Ha,我们可以通过控制α的大小来改变接受备择假设的把握.另一种是不能拒绝H0 ,此时我们不能说接受H0,因为我们还有犯纳伪错误(第二类错误)的可能,而且我们不知道纳伪错误的大小。

“不能接受H0,”总体均值的单边检验:大样本的情形•问题描述:联邦贸易委员会(FTC)定期设计调查对制造商的产品说明进行检验。

例如,大瓶Hilltop咖啡的标签上标明其容量至少为3磅。

假定我们想通过假设检验对此项说明进行检验。

如果咖啡罐头总体中每听的平均重量为3磅或3磅以上,那Hilltop关于其产品的说明是正确的,如果咖啡罐头总体中每听重量的均值少于3磅,那么Hilltop关于其产品的说明是不正确的。

假定选取3 6听罐头组成一个随机样本。

•建立假设: H0: μ0 ≥3; Ha: μ0 < 3(这是单边检验)•判断依据:如果这36听罐头的重量的样本均值小于3磅,则样本结果对原假设H0 :X ≥3提出了怀疑。

那么,当样本均值比3磅少多少的时候,FTC才决定控告该公司违背了标签的说明呢?设定显著性水平α•在假设检验的方法中,要求我们事先指定第一类错误的最大允许概率值,这一概率最大允许值即为该检验的显著性水平,以α表示,代表当原假设为真时,发生第一类错误的概率。

•管理者必须事先指定这一显著性水平。

如果发生第一类错误的成本很高,则应当选择较小的值做为显著性水平(如α=0.01)。

如果发生第一类错误的成本不高,则可以适当选择较大的值为显著性水平(如α=0.05)。

总体均值的检验:σ已知•单侧检验检验的思路是:首先假定原假设以等号为真,则抽样分布的均值即为零假设值;然后根据σ已知的条件可以确定抽样分布的标准误差;这样,就确定了样本均值抽样分布的正态形式,Z分数方法来作比较检验。

检验的统计量为: 这正是转化为标准正态分布的z分数总体均值的检验:σ未知•在大样本的情形下,如果σ未知,则在计算检验统计量z时以s代替。

检验的判断方法检验的判断方法有两种:P-值方法:如果p-值<α,则拒绝H0临界值方法:拒绝域的边界所对应的z值称作临界值。

相关主题