当前位置:文档之家› 贾俊平 统计学 总结

贾俊平 统计学 总结

第一章导论
概念:
统计学:收集、处理、分析、解释数据井从数据中得出结论的科学。

统计的分类:
描述统计:研究的是数据收集,处理,汇总,图表描述,文字概括与分析等统计方法。

推断统计:是研究如何利用样木数据进行推断总体特征。

数据:
1.分类数据:对事物进行分类的结果数据,表现为类别,用文字来表述。

例如,人口按性别分为男、女两类
2.顺序数据对事物类别顺序的测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等
3.数值型数据对事物的精确测度,结果表现为具体的数值。

例如:身高为175cm,190cm,200cm 参数:描述总体特征。

有总体均值(μ)、标准差()总体比例(T)
统计量:描述样本特征,样本标准差(s),样木比例(p)
第二章 数据的搜集
1. 数据来源包括直接来源(一手数据)和间接来源(二手数据)
2. 抽样方式包括概率抽样与非概率抽样
3. 概率抽样:也称随机抽样。

按一定的概率以随机原则抽取样本,抽取样本时使每个单位都
有一定的机会被抽中。

4.
5.抽样误差:是由抽样的随机性引起的样本结果与总体真值之间的误差。

抽样误差并不是针对某个样本的检测结果与总体真是结果的差异而言,抽样误差描述
的是所有样本可能的结果与总体真值之间的平均差异。

统计数据的分类
按计量层次
分类的
数据
顺序的数据
数值型数
据 按时间状况
截 面 的 数 据
时序的数据
按收集方法 观察的数
据 实验的数

6.抽样误差的大小与样本量的大小和总体的变异程度有关。

第三章数据的图表展示
计算机实训内容,
要求:
1.数据筛选,自动筛选
2.高级筛选,
3.数据排序
4.分类汇总-利用数据透视表
5.对比条形图
6.环形图
7.累计频数图
8.散点图
9.雷达图
等等
频数分布图两种方法:工具-数据分析-直方图数值型和顺序数据
数据-数据透视表数据透视表
第四章数据的概括性度量
集中趋势:
算数平均数:
几何平均数:指n个观察值连乘积的n次方根,计算平均发展速度时复利下的平均年利率,最常用的一种计算公式为,几何平均数≤算术平均数。

中位数:有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。

(平均家庭收入)(记忆的重要性)
离散程度:
异众比率:异众比率指的是总体中非众数次数与总体全部次数之比。

(了解)四分位差:(了解)
方差:var
标准差:STDEV
平均差:
相对位置的度量:
标准分数:
离散系数:
形状:
偏态:SK>0,正值,正偏或者右偏,,小数集中
SK<0,负值,负偏或者左偏,,大数集中。

绝对值0, 0.5, 1三个界线。

峰态:K>0,尖峰,数据分布集中,
K<0,扁平,数据分布分散。

第五章 概率与概率分布
1.概率的分类:1.概率的古典定义,概率的统计定义,概率的主观定义。

2.期望值:在离散型随机变量X 的一切可能取值的完备组中,各可能取值x i 与其取相对应的概率p i 乘积之和,描述离散型随机变量取值的集中程度,记作E(X),或者μ,其实为加权平均数。

3. 二项分布的数学期望为 E ( X ) = np 方差为
D ( X ) = npq
标准差?
区别二项分布的概率值与期望值。

4. 当二项分布中n 很大,p 很小时,二项分布就变成为Poisson 分布 计算机计算
二项分布计算时候, 已知:1,目标概率 2,实验次数 3,成功次数 公式:失败的次数
成功的次数
成功的次数
实验的次数目标概率)
((目标概率)
-1C 二项分布换泊松分布,已知:1,入=np=1*2 2,成功的次数 (揉合在一起,因为都是那种目标概率小、实验次数多的实验) 入=数学期望值E (X )=方差D(X)=np P119例子,P121例子 5. 正态分布
主要特点:钟型,离μ近的概率大,离μ远的概率小。

标准差小,集中;标准差大,分散。

正态曲线的最高点在均值μ,它也是分布的中位数和众数。

正态分布是一个分布族,每一特定正态分布通过均值μ和标准差σ来区分。

曲线f(x)相对于均值μ对称,尾端向两个方向无限延伸,且理论上永远不会
与横轴相交
正态曲线下的总面积等于1。

计算机计算:已知:1,正态分布(的形状)(μ与σ), 2.临界值(右端值,即默认计算的是改值以左部分的面积)
6.标准正态分布:期望值μ=0,(即曲线图象对称轴为Y轴),
标准差σ=1条件下的正态分布,
记为N(0,1)。

(N是正态英文的首字母)
计算:由于形状已知(N(0,1)),所以只需要知道临界值(右端值)
7.此段内容只供理解,不是知识。

概率函数:横轴表示“统计对象”,纵轴表示”概率”。

故称概率函数。

概率密度函数:将直方图组距缩小到很密的程度,故称概率密度函数。

分布函数:分布函数F(x)在x处的函数值就表示X落在区间(-∞,x]上的概率。

(把概率函数的面积转换成分布函数的纵轴值)
所以:找一个的具体值的概率应该在密度函数上的值,范围区间(-∞,x]是在分布函数上的值,一个范围区间(X1~X2)是分布函数上X2的值-X1的值
8. 正态分布的3σ原则:只要是正态分布,不论标准与否,(可以反过来理解)
数值分布在(μ-σ,μ+σ)中的概率为0.6826
数值分布在(μ-2σ,μ+2σ)中的概率为0.9544
数值分布在(μ-3σ,μ+3σ)中的概率为0.9974
可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)]区间内,超出这个范围的可能性仅占不到0.0026
9.正态分布表
10.其他公式:
11.正态分布的标准化公式:Z=(X-μ)/σ~N(0,1) (EXCEL实例)
第六章统计量及抽样分布
中心极限定理:设从均值为μ、方差为σ^2(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。

(那么标准差呢?)
理解:m为总体个数,n为抽样时每个样本的个数,可以抽出n
C个样本,这些样本符合正
m
态分布。

第七章:参数估计
1.参数估计:根据统计量计算推断出总体低的参数,包括点估计和区间估计
2.点估计:点估计
3.区间估计:条件 1.均值 2.标准差 3.置信水平(区间应包括几个标准差)
置信水平越大,区间应该越长;置信水平越小,区间可以越短。

主要在求上下限(因为均值已知,知道上下限即可知道区间)
4.
第八章假设检验
1.已知均值,标准差,上下限,求置信水平(与几个标准差相关)。

相关主题