当前位置:文档之家› 统计学复习资料

统计学复习资料

第1章统计学与统计数据一.统计工作流程:①统计设计(主要内容是指标设计),②统计调查(获得原始数据),③统计整理(主要内容是统计分组),④统计分析(主要内容是统计分析报告)。

统计学:定义:统计学是收集、整理、分析和解释统计数据的方法论和科学。

分类:①描述统计学②推断统计学③理论统计学④应用统计学二.总体:研究对象的全体(“对象”通常指特征指标),记为X。

样本:从总体X中随机抽取n个个体(X1,X2,…,Xn), n 为样本容量.关系:样本就是由总体中抽出部分个体组成的集合,构成样本的个体的数目称为样本容量,也就是样本大小。

三.1.参数:总体的某种特征值。

如总体平均数,总体方差。

2.统计量:样本(X1 , X2 , … , Xn)的不含任何未知参数的函数g(X1 , X2 , … , Xn).如样本平均数,样本标准差。

四.标志定义用来说明总体中各个个体普遍具有的属性或特征。

分类:品质标志,数量标志指标定义:是反映总体数量特征的概念及其数值。

分类:数量指标,质量指标。

五.统计数据的类型:1.依据计量尺度划分:分类数据,顺序数据,数值型数据。

2.依据收集方法划分:观察数据,实验数据。

3.依据对象与时间划分:截面数据,时间序列数据。

第2章统计数据的收集整理与显示一、统计数据的收集1、常用的统计调查方法①普查:是专门组织的一般用来调查属于一定时点上社会经济现象数量的全面调查。

优点:全面、系统。

缺点:只限于有限总体、工作量大、时间性强。

②重点调查:只在对象中选择一部分重点单位(比较重大)进行调查以了解总体情况的一种非全面调查。

优点:省时、省力、不带主观性。

③典型调查:在对研究对象进行全面分析的基础上,有意识地选择部分有代表性单位(人为选择的典型单位)进行调查。

优点:调查范围小、省时省力、具体深入。

缺点:具有主观性。

④抽样调查:是从调查对象中随机抽取一部分单位作为样本进行调查的一种非全面调查优点:经济灵活、时效性强、适应面广和准确性高⑤统计报表:是按照国家有关法规的规定,自上而下地逐级提供统计数据的一种调查方式。

特点:是由政府部门组织、采用统一的表格、自上而下布置、自下而上报告。

统计报表是经常性的全面调查。

2、问卷的基本结构:问卷是调查者根据调查目的和要求所设计的,一般由开头部分、甄别部分、主体部分和背景部分组成。

3、设立问卷问题的注意事项:①提问的内容尽可能短。

②问题设计的用词要准确,用语要含义明确。

4、问卷设计的基本原则①主题鲜明目的明确,重点突出,没有可有可无的问题。

②结构合理,先封闭后开放,先易后难。

封闭性问题:事先设计好答案。

开放性问题:自由回答。

③适当控制回答时间(尽量不超过30分钟)④便于计算机处理易于编码、录入、汇总和数据出表5、统计数据的误差来源:登记性误差和代表性误差。

二、统计数据的整理1、统计数据整理的中心任务:分组和编制频数分布表。

2、统计数据分组:①按品质标志分组品质型数据:主要是做分类整理。

②按数量标志分组数值型数据:主要是按照数值进行分组。

3、品质标志的分组方法:按品质标志分组就是按事物的品质特征进行分组。

由于品质数据是用文字来表现的,每种表现即为一种类别,因此对品质型数据主要是做分类整理。

4、单项式分组条件:只适于离散变量且变量值较少的情况等距式分组条件:适用于变量值的变动比较均匀5、等距分组的步骤和组中值的计算公式等距分组的基本步骤:①数据排序②分组数目的确定,使每组所包含的数据个数,平均不少于4个或5个,或采用斯特吉斯经验公式,即k=1+3.322lgN(k为组数;N为总体中的个体数。

)③组距的确定,即组距=(最大值-最小值)÷组数。

★④组限的确定,(1)第一组的下限应略低于最小变量值,最后一组的上限应高于最大变量值。

(2)对于离散型变量,相邻组的上下限可以不重叠;如:2-4,5-6,7-8,对于连续型变量,相邻两组的上下限应重叠,用“上限不在内”原则解决不重问题(左闭右开)如:[2,4)[4,6)[6,8)(3)开口组:当变量值变动范围较大时,最小组为“……以下”,或最大组为“……以上”。

如:2以下,[2,4),[4,6),[6,8),8以上组中值的确定:组中值=(上限+下限)÷2开口组的组中值=下限+邻组组距/2(缺上限)=上限-邻组组距/2(缺下限)6.频数=分布在各组内的数据个数. 频率=各组频数/全部频数之和频数分布表:将频数分布用表格的形式表现出来。

频数分布:①品质频数分布:按品质标志分组。

②变量频数分布:按数量标志分组(a单项式频数分布:每一组只有一个值。

b组距式频数分布:按组距式分组)累计频数:频数逐级累加。

累计频率或百分比:频率逐级累加。

累计频数(率)方法:向上累加:变量值从小到大;向下累加:变量值从大到小。

三、统计表与统计图1、统计表的一般结构:统计表的结构一般由表头、行标题、列标题、数字资料组成。

2、从内容上看,统计表的构成:包括主词和宾词两个部分。

主词就是统计表要说明的总体及其各组成部分,宾词是用来说明总统的各种统计指标。

3、统计表的设计原则:(1) 表头设计要明确地表达其内容。

(2) 左右两边通常不封口,列标题之间通常用竖线分开,而行标题之间通常不用横线分开。

(3) 应注明数字资料的计量单位。

(4) 数字应对准位数。

4、常用的统计图有哪些:条形图,饼形图,直方图(单式直方图、复式直方图),线形图第3章统计数据的特征描述§3.1 集中趋势的描述:平均数/众数/中位数/分位数/各测定指标之间的关系§3.2 离散程度的描述:极差和四分位差/方差和标准差/变异系数和异众比率1.算术平均数1) 简单算术平均数:全部数据的算术平均适用条件:未经分组整理的原始数据资料。

公式=2) 加权算术平均数:各组标志值与各组频数相乘的总和除以各组频数之和。

适用:已经分组整理并编制出频数分布的数据资料。

公式=2.调和平均数1)简单调和平均数(算数平均数的变形):各观测值倒数的算术平均数的倒数适用:未分组资料且各标志值对应的标志总量相等公式=2) 加权调和平均数P64适用条件:分组资料且各标志值对应的标志总量不等公式=二、众数(未分组)适用条件:分类数据、顺序数据以及数值型数据。

三、中位数(未分组)适用条件:顺序数据和数值型数据四、分位数(未分组)P71,72五、极差和四分位差(未分组)1、极差R:一组数据的最大值与最小值之差。

未分组或单项式分组数据: R=max(xi)-min(xi) 优点:计算简便缺点:易受极端值的影响2、四分位差: 注:反映中间50%数据的离散程度,不受极端值影响六、方差和标准差(未分组)七、变异系数和异众比率(未分组)P791、变异系数:是一组数据的标准差与其相应的平均数之比,是测度数据离散程度的相对指标。

系数越大,离散程度越大。

公式=2、异众比率:是一组数据的非众数的频数与全部数据个数的比率,是测度数据离散程度的相对指标。

越接近0,众数的代表性越好;越接近1,代表性越差。

公式=八、偏度和峰度1.偏度:一组数据分布的偏斜方向和程度2.峰度:一组数据分布的陡缓程度,它是与标准正态分布相比较而言的。

一、两类判断错误的定义和关系1. 第Ⅰ类错误(弃真错误):原假设为真时拒绝原假设,第Ⅰ类错误的概率记为α,被称为显著性水平2.第Ⅱ类错误(取伪错误):原假设为假时未拒绝原假设,第Ⅱ类错误的概率记为β关系:α和β的关系就像翘翘板,α小β就大,α大β就小,不能同时减少两类错误二、P值和显著性水平α的含义1.显著性水平α是一个概率值,是人们事先指定的犯第I类错误的概率的最大允许值2.P值:检验统计量的p值为t统计值“外侧”概率的2倍。

即检验统计量的p值=2p(T>t),称检验统计量的p值为统计值的显著性概率。

三、根据实际建立假设(单边、双边)P143 P146五、如何用P值进行决策利用P 值进行决策1)双侧检验:若p 值≥α, 不能拒绝Ho;若p 值< α, 拒绝Ho 。

2)单侧检验:若p/2 值>α, 不能拒绝Ho ;若p /2值< α, 拒绝Ho。

六、均值的t检验(包括单样本、独立样本、配对样本)、方差的检验的条件和步骤,(重点会用SPSS软件处理并熟悉输出结果解读)一、SPSS的中文全称:社会科学统计程序二、SPSS数据编辑窗口左下角两个视区:左下方是窗口切换标签区,包含Data View和Variable View 两个标签。

Data View指数据视区,显示具体的数据内容,可以输入编辑数据;Variable View指变量视区,显示数据文件中变量的定义,包括变量的名称、类型、宽度、小数点位数等。

三、定义变量包括: Name变量名称,Type变量类型,Width数据或字符串的宽度,Decimals小数位数,Label变量标签,Values变量值标签,Missing缺失值,Columns显示数据的宽度,Align字符排列方向,Measure数据测量类型。

四、分类整理(功能选项及输出表解读)P102data→aggregate→将分类变量选到break variable→汇总变量选到summaries of variable→name&label→重命名continue→aggregate data→function选需要的汇总统计量continue五、频数分析(功能选项及输出表解读)P110①analyze→descriptive statistics→frequencies②左侧变量选到右侧的variable③display frequency tables④statistics→frequencies:statistics 在对话框可进行输出基本描述统计量的设置。

六、计算基本描述统计量(功能选项及输出表解读)P108①analyze→descriptive statistics→descriptives②从左侧选变量到右侧variable列表③如需标准化变量,save standardized values as variables复选框→OK④options→弹出descriptives:options,制定计算统计量八、假设检验(单样本、独立样本、配对样本三种,功能选项及输出表解读)。

相关主题