当前位置:文档之家› 统计学第六版 人大版 复习笔记

统计学第六版 人大版 复习笔记

一、统计学原理期末考试试题类型及结构1、单项选择题:30分。

考核对基本概念的理解和计算方法的应用。

2、判断题:10分。

考核对基本理论、基本概念的记忆和理解。

3、简答题:30分。

考核对基本概念、基本理论、基本方法的理解和掌握情况。

4、计算题:30分。

考核对基本计算方法的理解、掌握程度及综合应用能力。

二、期末考试形式及答题时限期末考试形式为闭卷笔试;答题时限为90分钟;可以携带计算器。

三、各章复习内容期末复习资料:教材、学习指导书习题、作业第一章统计总论1.理解统计学的含义答:收集、处理、分析、解释数据并从数据中得出结论的科学(收集数据:取得数据;处理数据:整理与图表展示;分析数据:利用统计方法分析数据;数据解释:结果的说明;得到结论:从数据分析中得出客观结论)第二章数据的搜集1.数据的来源答:(1)数据的间接来源:系统外部的数据(统计部门和政府部门公布的有关资料,如各类统计年鉴、各类经济信息中心、信息咨询机构、专业调查机构等提供的数据、各类专业期刊、报纸、书籍所提供的资料、各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料、从互联网或图书馆查阅到的相关资料)系统内部的数据(业务资料,如与业务经营活动有关的各种单据,记录、经营活动过程中的各种统计报表、各种财务,会计核算和分析资料等)(2)数据的直接来源(原始数据)调查数据实验数据2.收集数据的基本方法:调查的数据(自填式、面访式、电话式);实验的数据3.抽样误差:由于抽样的随机性所带来的误差;所有样本可能的结果与总体真值之间的平均性差异;影响抽样误差的大小的因素(样本量的大小、总体的变异性)重点:数据来源、数据搜集方法、抽样误差第三章数据的图表展示重点:熟悉条形图、直方图、饼图、环形图、箱线图、线图等1.对分类数据和顺序数据主要是作分类整理;对数值型数据则主要是作分组整理2.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据3.分类数据的图示—条形图:用宽度相同的条形的高度或长短来表示各类别数据的图形;有单式条形图、复式条形图等形式;主要用于反映分类数据的频数分布,绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图4.分类数据的图示—帕累托图:按各类别数据出现的频数多少排序后绘制的柱形图;主要用于展示分类数据的分布5.分类数据的图示—饼图:也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形;主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题;绘制圆形图时,样本或总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,按各部分数据百分比乘以360度确定。

6.环形图:中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示;与饼图类似,但又有区别(饼图只能显示一个总体各部分所占的比例;环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环);用于结构比较研究;用于展示分类和顺序数据7.数值型数据A组距分组:将变量值的一个区间作为一组;适合于连续变量;适合于变量值较多的情况;需要遵循“不重不漏”的原则;可采用等距分组,也可采用不等距分组B直方图:用于展示分组数据分布的一种图形;用矩形的宽度和高度来表示频数分布(本质上是用矩形的面积来表示频数分布);在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。

C直方图与条形图的区别:条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义;直方图的各矩形通常是连续排列,条形图则是分开排列;条形图主要用于展示分类数据,直方图则主要用于展示数值型数据。

D未分组数据—茎叶图:用于显示未分组的原始数据的分布;由“茎”和“叶”两部分构成,其图形是由数字组成的;以该组数据的高位数值作树茎,低位数字作树叶;树叶上只保留最后一位数字;茎叶图类似于横置的直方图,但又有区别(直方图可观察一组数据的分布状况,但没有给出具体的数值、茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息、直方图适用于大批量数据,茎叶图适用于小批量数据)E未分组数据—箱线图:用于显示未分组的原始数据的分布;由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成;绘制方法(首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接)F时间序列数据—线图:表示时间序列数据趋势的图形;时间一般绘在横轴,数据绘在纵轴;图形的长宽比例大致为10 : 7第四章数据的概括性度量(计算章节)重点:众数、中位数、分位数、平均数、方差(计算);自由度、偏态、峰态等1.离中趋势:数据分布的另一个重要特征;反映各变量值远离其中心值的程度(离散程度);从另一个侧面说明了集中趋势测度值的代表程度;不同类型的数据有不同的离散程度测度值。

2.自由度:自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差;从字面涵义来看,自由度是指一组数据中可以自由取值的个数;当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值;按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k3.偏态:统计学家Pearson于1895年首次提出;数据分布偏斜程度的测度;偏态系数=0为对称分布、偏态系数> 0为右偏分布、偏态系数< 0为左偏分布、偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低。

4.峰态:统计学家Pearson于1905年首次提出;数据分布扁平程度的测度;峰态系数=0扁平峰度适中、峰态系数<0为扁平分布、峰态系数>0为尖峰分布。

第 五 章 概率与概率分布重点:概率的性质、 概率的加法法则、 条件概率与独立事件、期望、方差、正态分布加法公式P ( A ∪B ) = P ( A ) + P ( B ) - P ( A ∩B )乘积公式:P(AB)=P(B)P(A|B),或P(AB)=P(A)P(B|A)独立公式:P(AB)=P(A)·P(B)(1)概率的性质1. 非负性a) 对任意事件A ,有 0 ≤ P (A ) ≤ 12. 规范性a) 必然事件的概率为1;不可能事件的概率为0。

即P ( Ω ) = 1; P ( Φ ) = 03. 可加性a) 若A 与B 互斥,则P ( A ∪B ) = P ( A ) + P ( B )b) 推广到多个两两互斥事件A 1,A 2,…,A n ,有 P ( A 1∪A 2 ∪… ∪A n ) = P ( A 1 ) + P (A 2 )+ …+ P (A n )(2)条件概率:在事件B 已经发生的条件下,求事件A 发生的概率,称这种概率为事件B 发生条件下事件A 发生的条件概率,记为 P(A|B) =P(AB)P(B)(3) 事件的独立性:一个事件的发生与否并不影响另一个事件发生的概率,则称两个事件独立;若事件A 与B 独立,则P (B |A )=P (B ), P (A |B )=P (A ) ;此时概率的乘法公式可简化为 P (AB )=P (A )·P (B ) 推广到n 个独立事件,有 P (A 1 A 2 …A n )=P (A 1)P (A 2) … P (A n ) 数据分布特征集中趋势众数中位数平均数离散程度异众比率四分位差极差平均差方差或标准差离散系数分布形状偏态系数峰态系数(4)离散型随机变量的数学期望:在离散型随机变量X的一切可能取值的完备组中,各可能取值xi与其取相对应的概率pi乘积之和;描述离散型随机变量取值的集中程度;计算公式为(5)离散型随机变量的方差:随机变量X的每一个取值与期望值的离差平方和的数学期望,记为D(X);描述离散型随机变量取值的分散程度;计算公式为(6)正态分布函数的性质:概率密度函数在x的上方,即f(x)>0;正态曲线的最高点在均值μ,它也是分布的中位数和众数;正态分布是一个分布族,每一特定正态分布通过均值μ和标准差σ来区分。

μ决定了图形的中心位置, σ决定曲线的平缓程度,即宽度;曲线f(x)相对于均值μ对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交;正态曲线下的总面积等于1;随机变量的概率由曲线下的面积给出(描述连续型随机变量的最重要的分布)第六章统计量及其抽样分布重点:统计量,χ2分布,t分布,F分布1.统计量:设X1,X2,…,X n是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,…,X n),不依赖于任何未知参数,则称函数T(X1,X2,…,X n)是一个统计量(样本均值、样本比例、样本方差等都是统计量)统计量是样本的一个函数;统计量是统计推断的基础2.χ2分布:由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson) 分别于1875年和1900年推导出来;分布的变量值始终为正;分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称;期望为:E(χ2)=n,方差为:D(χ2)=2n(n为自由度)3.t 分布:高塞特(W.S.Gosset)于1908年在一篇以“Student”(学生)为笔名的论文中首次提出;t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散;一个特定的分布依赖于称之为自由度的参数。

随着自由度的增大,分布也逐渐趋于正态分布。

4.F分布:由统计学家费希尔(R.A.Fisher) 提出的,以其姓氏的第一个字母来命名。

5.中心极限定理:从均值为μ,方差为σ2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。

第七章参数估计重点:置信区间1.置信水平:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平;表示为 (1 - a) %(a为是总体参数未在区间内的比例)常用的置信水平值有 99%, 95%, 90%(相应的 a为0.01,0.05,0.10)2.置信区间:由样本统计量所构造的总体参数的估计区间称为置信区间;统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间;用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个;总体参数以一定的概率落在这一区间的表述是错误的3.常用置信水平Z a/2值置信水平 A a/2 Z a/290%0.1 0.05 1.64595%0.05 0.025 1.9699%0.01 0.005 2.58第八章假设检验重点:原假设、备择假设、假设检验的流程、均值检验等1.原假设:待检验的假设,又称“0假设”;研究者想收集证据予以反对的假设;总是有等号 =,£或³表示为 H0(H0:m = 某一数值;指定为 = 号,即£或³;例如, H0:m = 3190(克))2.备择假设:与原假设对立的假设,也称“研究假设”;研究者想收集证据予以支持的假设总是有不等号:¹,<或> 表示为 H1 H1:m <某一数值,或m >某一数值例如, H1:m < 3910(克),或m >3910(克)。

相关主题