当前位置:文档之家› 统计学(复习)

统计学(复习)

第1章统计和统计数据1统计学的定义:是收集、处理、分析、解释数据并从数据中得出结论的科学描述统计与推断统计的含义、内容、目的。

描述统计: 是研究数据收集,处理和描述的统计学方法.其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合,概括与分析,得出所关心的数据特征.推断统计: 是研究如何利用样本数据来推断总体特征的统计学方法,内容包括两大类:参数估计: 是利用样本信息推断所关心的总体特征.假设体验:是利用样本信息判断对总体的某个假设是否成立.2、变量与数据:不同数据类型的含义,会判断已有数据的类型.变量:它们的特点是从一次观察到下一次观察会出现不同结果.Ex: 企业销售额, 上涨股票的家数, 生活费支出,投掷一枚骰子观察其出现的点数数据: 把观察到的结果记录下来.总体:包含所研究的全部个体(数据)的集合样本: 从总体中抽取的一部分元素的集合样本量: 构成样本的元素的数目定量变量或数值变量:定量变量的观察结果称为定量数据或数值型数据.可以用阿拉伯数据来记录其观察结果 .如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”定性变量:分类变量和顺序变量统称为定性变量分类变量:表现为不同的类别.如“性别”、“企业所属的行业”、“学生所在的学院”等.分类变量的观察结果就是分类数据顺序变量或有序分类变量:具有一定顺序的类别变量. 如考试成绩按等级,一个人对事物的态度.顺序变量的观察结果就是顺序数据或有序分类数据离散型变量: 只能取有限个值得随机变量连续型变量:可以取一个或多个区间中任何值得随机变量3、获得数据的概率抽样方法有哪些?根据一个已知的概率来抽取样本单位,也称随机抽样-简单随机抽样:从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中. 抽取元素的具体方法有重复抽样是抽取一个个体记录下数据后,再把这个个体放回到原来的总体中参加下一次抽选。

不重复抽样抽中的个体不再放回,再从所剩下的个体中抽取第二个元素,直到抽取n 个个为止。

- 分层抽样或分类抽样:它是在抽样之前先将总体的元素划分为若干层(类),然后从各个层中抽取一定数量的元素组成一个样本。

-系统抽样或等距抽样:它是想将总体个元素按某个顺序排列,并按某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,直至抽取n 个元素组成一个样本。

-整群抽样:是先将总体划分成若干群,然后以群作为抽样单元从中抽取部分群组成一个样本,再对抽中的每个群中包含的所有元素进行观察。

第二章.用图表展示数据频数: 落在各类别中的数据个数比例:某一类别数据个数占全部数据个数的比值百分比:将对比的基数作为100而计算的比值比率: 不同类别数值个数的比值频数分布表:频数分布表中落在某一特定类别数据.频数分布包含了很多有用的信息,通过它可以观察不同类型数据的分布状况.什么是条形图:是用宽度相同的条形来表示数据多少的图形用于观察不同类别数据的多少或分布状况.帕累托图: 是按各类别数据出现的频数多少排序后绘制的条形图饼图:是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分道德数据占全部数据的比例,对于研究结构性问题十分有用.环形图: 只能显示一个样本各部分所占的比例数据分组:是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别.1. 下限(lower limit) :一个组的最小值2. 上限(upper limit) :一个组的最大值3. 组距(class width) :上限与下限之差4. 组中值(class midpoint) :下限与上限之间的中点值组中值=下限值+上限值/2直方图与条形图的区别。

1.条形图中的每一矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距2.由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列3.条形图主要用于展示定性数据,而直方图则主要用于展示定量数据茎叶图: 是反映原始数据分布的图形.它由茎和叶两部分构成,其图形是由数据组成的.通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如:分布是否对称,数据是否集中,是否有离群点.等等箱线图:是由一组数据的最大值,最小值,中位数,两个四分位数.这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较.雷达图: 是显示多个变量的常用图示方法.1.从一个点出发,用每一条射线代表一个变量,多个变量的数据点连接成线,即围成一个区域,多个样本围成多个区域,就是雷达图2.可用于研究多个样本在多个变量上的相似程度3.当多个变量的取值相差较大或量纲不同时,可进行变换处理后再做图。

第三章. 用统计量描述数据1、水平的度量描述数据水平的统计两主要有: 平均数,中位数,分位数以及众数等.平均数。

平均数的计算:1.也称为均值,常用的统计量之一2.消除了观测值的随机波动3.易受极端值的影响4.根据总体数据计算的,称为平均数,记为μ;根据样本数据计算的,称为样本平均数,记为⎺x中位数: 是一组数据排序后处于中间位置上数值,用M e 表示.四分位数:也称四分位点,它是一组数据排序后处于25%和75%位置上的值众数、中位数和平均数的关系*2、差异的度量极差:1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布5.计算公式为:R = max(x i) - min(x i)四分位差1.也称为内距或四分间距2.上四分位数与下四分位数之差:Q d=Q U–Q L3.反映了中间50%数据的离散程度4.不受极端值的影响5.用于衡量中位数的代表性样本方差和标准差(会计算)1.数据离散程度的最常用测度值2.反映各变量值与均值的平均差异3.根据总体数据计算的,称为总体方差(标准差),记为σ2(σ);根据样本数据计算的,称为样本方差(标准差),记为s2(s)4.样本方差假设是一个样本,则样本方差的计算公式为:其中是样本均值。

例如,一样本取值为3,4,4,5,4,则样本均值=,样本方差=。

样本方差是常用的统计量之一,是描述一组数据变异程度或分散程度大小的指标。

样本标准差S称为样本标准差。

如在上例中,S=0.7071。

称(S/ X)×100%为样本变异系数。

由于S与X都是从同一个样本资料中求得,两者的单位相同,故变异系数为一纯数。

当两种样本资料所用的单位不同时,只要计算出变异系数,就可以比较它们的变异程度。

标准分数: 可以计算一组数据中每个数值的标准分数,以测度每个数值在该组数据中的相对位置,并可以用它来判断一组数据是否有离群点离散系数(变异系数)是一组数据的标准差与其相应的平均数据之比,它消除了数据绝对值大小和计量单位对标准差大小的影响.分布形状的度量偏态:是指数据分布的不对称性。

侧度数据分布不对称性的统计量称为(偏态系数)峰态:是指数据分布峰值的高低。

测度峰态的统计量是(峰态系数)弄清偏态系数的取值含义,会判断左偏、右偏和对称情形*弄清峰态系数的取值含义,会判断尖峰、扁平和正常情形*第四章.概率分布概率:概率是对事件发生的可能性大小的度量随机变量:是用数值来描述特定试验一切可能出现的结果,它的取值事先不能确定,具有随机性连续性随机变量:只能取一个或多个区间中任何值得随机变量离散型随机变量:只能取有限个值得随机变量随机变量的概括性度量:期望值和方差的计算:描述随机变量集中程度的统计量称为(期望值)离散型概率分布:是用表格的形式表现出来,就是离散型随机变量的概率分布二项分布: 二项分布是建立在伯努利试验基础上的。

N重伯努利1.贝努里试验满足下列条件⏹一次试验只有两个可能结果,即“成功”和“失败”●“成功”是指我们感兴趣的某种特征⏹一次试验“成功”的概率为p ,失败的概率为q =1- p,且概率p对每次试验都是相同的⏹试验是相互独立的,并可以重复进行n次⏹在n次试验中,“成功”的次数对应一个离散型随机变量X泊松分布:1.1837年法国数学家泊松(D.Poisson,1781—1840)首次提出2.用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布3.泊松分布的例子⏹一定时间段内,某航空公司接到的订票电话数⏹一定时间内,到车站等候公共汽车的人数⏹一定路段内,路面出现大损坏的次数⏹一定时间段内,放射性物质放射的粒子数⏹一匹布上发现的疵点个数⏹一定页数的书刊上出现的错别字个数超几何分布的应用背景1.采用不重复抽样,各次试验并不独立,成功的概率也互不相等2.总体元素的数目N很小,或样本容量n相对于N来说较大时,样本中“成功”的次数则服从超几何概率分布3.概率分布函数为连续型概率分布:正态分布:1.由C.F.高斯(Carl Friedrich Gauss,1777—1855)作为描述误差相对频数分布的模型而提出2.描述连续型随机变量的最重要的分布3.许多现象都可以由正态分布来描述4.可用于近似离散型随机变量的分布⏹例如:二项分布5.经典统计推断的基础标准正态分布1.随机变量具有均值为0,标准差为1的正态分布2.任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布3.标准正态分布的概率密度函数4. 标准正态分布的分布函数数据的正态性评估:Q-Q 图和P-P 图的应用1. 对数据画出频数分布的直方图或茎叶图⏹ 若数据近似服从正态分布,则图形的形状与上面给出的正态曲线应该相似3. 绘制正态概率图。

有时也称为分位数—分位数图或称Q -Q 图或称为P-P 图⏹ 用于考察观测数据是否符合某一理论分布,如正态分布、指数分布、t 分布等等⏹ P-P 图是根据观测数据的累积概率与理论分布(如正态分布)的累积概率的符合程度绘制的⏹ Q-Q 图则是根据观测值的实际分位数与理论分布(如正态分布)的分位数绘制的4. 使用非参数检验中的Kolmogorov-Smirnov 检验(K-S 检验)由正态分布导出的几个重要分布:χ2分布、t 分布、F 分布的特点χ2分布:1. 由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K ·Pearson) 分别于1875年和1900年推导出来2. 设 ,则3. 令 ,则 y 服从自由度为1的χ2分布,即4. 对于n 个正态随机变量y 1 ,y 2 ,y n ,则随机变量5. 称为具有n 个自由度的χ2分布,记为 性质和特点 1. 分布的变量值始终为正2. 分布的形状取决于其自由度n 的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称3. 期望为:E (χ2)=n ,方差为:D (χ2)=2n (n 为自由度)4. 可加性:若U 和V 为两个独立的χ2分布随机变量,U ~χ2(n 1),V ~χ2(n 2),则U +V 这一随机变量服从自由度为n 1+n 2的χ2分布t 分布:1. 提出者是William Gosset ,也被称为学生分布(student ’s t)2. t 分布是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。

相关主题