当前位置:文档之家› 14级上海建桥学院期末统计学复习资料

14级上海建桥学院期末统计学复习资料

第1章(考填空)1.统计学(statistics)是收集、处理、分析、解释数据并从数据中得出结论的科学。

2.数据分析所用的方法可分为描述统计方法和推断统计方法。

描述统计(descriptive statistics)(图表描述)研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。

推断统计(inferential statistics)(参数6.顺序数据(rank data)是只能归于某一有序类别的非数字型数据7.数值型数据(metric data)是按数字尺度测量的观察值8.分类数据和顺序数据可统称为定性数据或品质数据(qualitative data);数值型数据可称为定量数据或数量数据(quantitative data)。

9.按统计数据的收集方法,可以分为观测数据(observational data)和实验数据(experimental data)。

10.按时间状况,将统计数据分为截面数据和时间序列数据。

11.截面数据是在相同或近似相同的时间点上收集的数据。

12.时间序列数据是在不同时间收集到的数据13.总体是包含所研究的全部个体(数据)的集合,它通常由所研究的一些个体组成。

14.总体分为有限总体和无限总体15.样本是从总体中抽取的一部分元素的集合16.参数是用来描述总体特征的概括性数字度量17.统计量是用来描述样本特征的概括性数字度量18.样本平均数: x 总体平均数:µ 样本标准差:s 总体标准差:σ样本比例:p 总体比例:π19.变量:分类变量、顺序变量、数值型变量(离散型变量、连续型变量)20.变量:经验变量和理论变量第2章1.数据来源:间接来源和直接来源2.收集二手资料须注意什么内容:(1)资料是谁搜集的? (2)为什么目的而搜集?(3)数据是怎样搜集的?:也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。

5.简单随机抽样就是从包括总体N个单位的抽样框中随机地、一个个地抽取n 个单位作为样本,每个单位的入样概率是相等的。

6.分层抽样是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。

7.将总体中若干个单位合并为组,这样的组成为群。

抽样时直接抽取群,然后对中选群中的所有单位全部实施调查,这样的抽样方法称为整群抽样。

8.将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位,这种抽样方法称为系统抽样。

9.采用类似整群抽样的方法,首先抽取群,但并不调查群内的所有单位,而是再进一步抽样,从选中的群中抽取出若干个单位进行调查。

10.非概率抽样(操作简单、时效快、成本低、对技术要求不是很高):(1)方便抽样(2)判断抽样 (3)自愿样本(4)滚雪球抽样(5)配额抽样11.概率抽样与非概率抽样的比较:非概率抽样不是依据随机原则抽选样本,样本统计量的分布不是确切的,因而无法使用样本的结果对总体相应的参数进行推断。

概率抽样是依据随机原则抽选样本,这是样本统计量的理论分布是存在的12.13.实验组是指随机抽选的实验对象的子集,而在对照组中,每个单位不接收实验组成员所接受的某种特别的处理。

14.抽样误差是由抽样的随机性引起的样本结果与总体真值之间的误差15.非抽样误差是相对抽样误差而言的,是指除抽样误差之外的,由其他原因引起的样本观察结果与总体真值之间的差异。

16.概率抽样不可避免,非概率抽样可以避免。

填写齐全等6.数据排序(升序和降序、寻找数据的基本特征)7.对于分类数据,如果是字母型数据,排序则有升序、降序之分,单习惯上升序用的更多(排序可借助计算机完成)如果是汉字型数据,按汉字的首位拼音字母排列,也可按姓氏笔画排序,多用降序8.对于数值型数据,排序只有两种,即递增和递减9.数据透视表按分析要求进行汇总和作图,即按需要汇总10.分类数据的整理与图示频数与频数分布:频数是落在某一特定类别或组中的数据个数11.由两个或两个以上变量交叉分类的频数分布表也称为列联表。

二维的列联表(两个变量交叉分类)也称交叉表12.比例也称构成比,它是一个样本(或总体)中各个部分的数据与全部数据之比,通常用于反映样本(或总体)的构成或结构。

13.比率是样本(或总体)中不同类别数据之间的比值14.分类数据的图示:条形图、帕累托图、饼图、环形图15.饼图对于研究结构性问题十分有用16.每个样本用一个环来表示,样本中的每一部分数据用环中的一段表示。

因此环形图可显示多个样本各部分所占的相应比例,从而有利于对构成的比较研究。

用于展示分类数据和顺序数据。

、17.累积频率是将各有序类别或组的频数逐级累加起来得到的频数18.累积频率或累积百分比是将各个有序类别或组的百分比逐级累加起来,它也有向上累积和向下累积两种方法19.数据分组的主要目的是观察数据的分布特征20.单变量值分组和组距分两种。

单变量值分组是把没一个变量值作为一组21.组距是一个组的上限与下限的差22.组中值是每一组中下限值与上限值中间的值组中值=(下限值+上限值)/223.直方图与条形图不同。

(1)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与其宽度均有意义。

(2)由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。

(3)条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。

24.与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息。

25.箱线图是由一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成的26.27.时间序列数据:线图28.多变量数据的图示:(1)散点图(2)气泡图(3)雷达图29.表头一般应包括表号、总标题和表中数据的单位等内容。

总标题应简明确切的概括出统计表的内容,一般需要说明统计数据的时间(When)、地点(Where)以及何种数据(What),即标题内容应满足3W要求。

第4章1.集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。

低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,不成立。

2.众数可以有0个、1个、多个3.中位数位置=(n+1)/24.6.7.几何平均数主要用于计算现象的平均增长率8.9.11.组数据的最大值与最小值之差称为极差12.13.14.15.变量值与其平均数的离差除以标准差后的值称为标准分数,也称标准化值或z分数。

16.标准分数具有平均数为0、标准差为1的特性17.经验法则:当一组数据对称分布时,经验法则表明:约有68%的数据在平均数±1个标准差的范围之内约有95%的数据在平均数±2个标准差的范围之内约有99%的数据在平均数±3个标准差的范围之内18.在±3个标准差之外的数据,在统计上称为离群点19.至少有(1-1/k²)的数据落在±k个标准差之内。

20.离散系数主要是用于比较不同样本数据的离散程度。

离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。

21.如果一组数据的分布是对称的,则偏态系数等于022.若偏态系数大于1或小于-1,称为高度偏态分布23.当K>0时为尖峰分布;当K<0时为扁平分布24.25.4.5简述众数、中位数和平均数的特点和应用场合。

众数是一组数据分布的峰值,不受极端值的影响。

其缺点是具有不唯一性,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。

众数只有在数据量较多时才有意义,当数据量较少时,不易使用众数。

众数主要适合作为分类数据的集中趋势测度值。

中位数是一组数据中间位置上的代表值,不受数据极端值影响。

当一组数据的分布偏斜程度较大时,使用中位数也许是一个好的选择。

中位数主要适合作为顺序数据的集中趋势测度值。

平均是是针对数值型数据计算的,而且利用了全部数据信息,它是实际应用最广泛的集中趋势测度值。

当数据呈对称分布或接近对称分布时,3个代表值相等或接近相等,这时则应选择平均数作为集中趋势的代表值。

但平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。

因此,当数据为偏态分布,特别是偏斜程度较大时,可以考虑选择中位数或众数,这时它们的代表性比平均数好。

26.4.7标准分数有哪些用途?标准分数给出了一组数据中各数值的相对位置标准分数具有平均数为0、标准差为1的特性27.4.8为什么要计算离散系数?离散系数主要是用于比较不同样本数据的离散程度。

离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。

第5章1.在同一组条件下,对某事物或现象所进行的观察或实验叫做试验,把观察或试验的结果叫做事件。

2.3.(1)对任一随机事件A,有0≦P(A)≦1 非负性(2)必然事件的概率为1,而不可能事件的概率为0,即P(Ω)=1P(Φ)=0(3)若A与B互斥,则P(A∪B)=P(A)+P(B) 可列可加性4.5.6.(考简答题)7.互斥事件一定是相互依赖(不独立)的,但相互依赖的事件不一定是互斥的。

不互斥事件可能是独立的,也可能是不独立的。

8.5.2独立性与互斥性有什么关系?互斥事件一定是相互依赖(不独立)的,但相互依赖的事件不一定是互斥的。

不互斥事件可能是独立的,也可能是不独立的。

9.5.2某市有50%的住户订日报,有65%的住户订晚报,有85%的住户至少订两种报纸中的一种,求同时订这两种报纸的住户的百分比。

10.5.3设A与B是两个随机事件,已知A与B至少有一个发生的概率是1/3,A 发生B不发生的概率是1/9,求B发生的概率。

11.5.4设A与B是两个随机事件,已知P(A)=P(B)=1/3,P(A|B)=1/6,求P(⎺A|⎺B)。

12.5.5有甲、乙两批种子,发芽率分别是0.8和0.7.在两批种子中各随机取一粒,试求:(1)两粒都发芽的概率(2)至少有一粒发芽的概率(3)恰有一粒发芽的概率13.5.6某厂产品的合格率为96%,合格品中一级品率为75%,,从产品中任取一件为一级品的概率是多少?14.5.7某种品牌的电视机用到5000小时未坏的概率为3/4,用到10000小时未坏的概率为1/2.现在有一台这种品牌的电视机已经用了5000小时未坏,它能用到10000小时的概率是多少?P(A)=P(t<5000)=3/4P(B)=P(t<10000)=1/2显然,A包含B,因此,P(A∩B)=P(B)已经用了5000小时未坏,它能用到10000小时的概率是P(B∣A)=P(A∩B)/P(A)=(1/2)/(3/4)=2/315.5.16一本书排版后一校时出现错误处数X服从正态分布N(200,400),试求:(1)出现错误处数不超过230的概率(2)出现错误处数在190~210之间的概率(1)z=(230-200)/20=1.5,P(z≤1.5)=Φ(1.5)=0.9332∴出现错误数不超过230的概率为93.32%。

相关主题