社会统计学复习整理一、变量的测量层次二、判断变量层次的技巧1.首先所有的变量都是定类变量。
2.其次看变量的取值能否比较大小,不能这个变量只能是定类变量。
3.最后如果这个变量能够比较大小,那么就看变量取值加减乘除是否有意义,如果有意义就是定距变量,如果没有意义就只能是定序变量。
三、变量层次的比较定类变量、定序变量和定比变量的数层次是从低到高排列的,高层次的变量同时具有低层次变量的功能。
四、相关分析方法第二节简化一个变项的分布一、定类变量1.统计表:用表格的形式来表示变量频次(或频率)分布的一种工具。
2.统计表必备的容:(1)表号、标题(2)标识行:变量名、对应数据说明(频次、频率)(3)主题行:变量取值的统计数据(4)表尾:如果是引用必须说明资料来源二、定序变量1.适合定序变量的简化资料的方法(1)累加次数:把次数逐渐相加起来,分为向上累加次数(cf↑)和向下累加次数(cf↓)。
(2)累加频率:把各级的百分率逐渐相加。
也分为向下累加百分率和向下累加百分率。
2.cf↑的计算方法就是按照变量取值的等级从低往高逐层相加。
3.cf↓计算方法就是按照变量取值的等级从高往低逐层相加。
➢cf↑表示低于某个等级的频数有多少➢cf↓表示高于某个等级的频数有多少三、定距变量1.定距变量的简化工具是:分组、直方图和折线图。
2.连续型定距变量的分组统计(1)组数:分组的数量,一般5到7组合适,分为等距分组和非等距分组。
(2)组限:包括上限(up)和下限(low)(3)标识下限和标识上限,例500—699(4)真实下限:标识下限—0.5;真实上限:标识上限+0.5.(5)组距:真实上限与真实下限之差。
(6)组中值:真实上限与真实下限的平均值。
第三节集中趋势测量法1.集中趋势:用一个典型的变量值或特征值来代表全体变量的问题,用这个数值来代表变项的资料分布,以反映资料的集结情况。
2.集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的数值。
一、定类变量1.众值(Mode)Mo:用具有频数最多的变量的取值来表示变量的集中值。
2.众值的特征:(1):众值理论上可以用于定类、定序和定距三个层次的变量来描述集中趋势,但是由于众指不精确,一般只用于定类层次的变量。
(2):众值最好找,是最容易求出的值,但它精确度也是最差的。
二、定序变量1.中位值(Md)。
2.分组数据求中位值公式:Md=L+(n/2- cf↑/n)(U-L)L:中位值的真实下界值U:中位值的真实上界值n:中位值组的频数cf↑:低于中位值所在组的累加(向上)频次N:调查总数Md位值:N/2二、定距变量1.均值(Mean):将变量的各个数值相加起来,除以总个数,求取一个平均值的数值,一般用¯x来表示。
2.均值的特征:仅适合定距层次的变量●它最灵敏,预测的精确度最高●对资料所提供的信息运用得最充分3.均值的求法(一)原始数据求均值:X=∑X1/N(X表示变量x的均值;∑X1表示变量观察值的总和。
)(二)根据频次分布求均值:¯x=(¯x表示变量X的均值;表示变量的每一个取值和该变量频数相乘的和;表示把变量的每个取值下的频次都加起来,即调查总数N)(三) 分组数据求均值:¯x=(n1表示每组次数,b表示每组的组中值,表示个案数目)第四节离散趋势测量法●离散趋势测量法:是求出一个值来表示个案与个案之间的差异情况。
●离散趋势或离散特征可以告诉我们估计值误差的大小。
一、定类变量(异众比率V)V就是非众值的次数与全部个案数目的比率。
V=(N-全部个案数目;/___ V值越小,众值代表性越好。
二、定序变量1.极差(R)—观察的最大值与最小值之差。
2.四分互差:将数值排序,分为四个等分,第一个四分位置的值与第三个四分位置的值的差异。
四分位差Q=Q75-Q25(一)未分组数据:2 2 3 4 6 9 10 10 11 13 15Md的位置=N+1/2=11+1/2=6Q25的位置=N+1/4=11+1/4=3(第三位数)Q75的位置=(N+1)=(11+1)=9(第九位数)所以,四分位差Q= Q75-Q25=11-3=8(二)分组数据1.中位值公式=Md=L+(-cf↑)/n(U-L)2.Q25=L+(-cf↑)/n(U-L)L:四分之一位值组的真实下界值U:四分之一位值组的真实上界值n:四分之一位值组的频数cf↑:低于四分之一位值组的向上累加频次N:调查总数Q25位置=N/4;3.Q75=L+(- cf↑)/n(U-L)L:四分之三位值组的真实下界值U:四分之三位值组的真实上界值n:四分之三位值组的频数cf↑:低于四分之三位值组的向上累加频次N:调查总数Q75位置=3N/4;三、定距变量(一)标准差σ与方差σ²σ=(δ即对均值的偏差平方均值的平方根)σ²=(二)根据未分组的频次分布求方差σ=N-调查总数;Xi-表示变量的每个取值;ni-表示每个取值的频次(三)分组数据求方差——用组中值代替bi代替xi代入公式中σ=第三章概率一、概率1.不可能事件的概率:P(O)=02.必然事件的概率:P(S)=13.随机事件的概率:0≦P(E)≦1二、两个重要概念1.普查:对统计总体的全部单位进行调查以搜集资料统计资料的工作。
2.抽查:按照某种方法以总体中抽取一部分样本进行调查,以搜集统计资料的工作。
三、频率分布于概率分布的关系1.频率分布是实验值,是可以变化的,称之为统计分布或经验分布。
2.概率分布是理论值,是唯一的,称之为理论分布。
3.当观测次数很大时,随机变量取值的频率接近于其概率,这时随机变量的统计分布与理论分布将大致相符。
四、总体均值和方差1.总体均值(E):随机变量各取值分别乘取值的概率的总和。
E(ξ)=µ=∑PiXi2.总体方差(D):就是随机变量偏离总体均值的程度。
D=S²=E(X²)-[E(x)]²3.总体均值和样本均值的区别:●总体均值是对研究对象进行普查后得出的均值。
●样本均值是对从总体中抽取的样本数据计算出来的均值。
4.总体方差与样本方差的区别:●总体方差是对研究对象进行普查后,利用数据算出来的方差。
●样本方差是根据从总体中抽取出的样本的调查总数据,计算出来的方差。
5.总体均值方差和样本均值方差表示法1.总体均值E=µ,总体方差D=σ²,总体标准差=σ2.样本均值=¯x,样本方差=s²,样本标准差=S6.结论1.通过普查,可以得出概率、总体均值E(µ)、总体方差D(σ²),这些值我们称为参数值。
2.通过抽查,可以得出频率、样本均值¯x、样本方差s²,这些值我们称为统计值。
3.当样本为大样本(N≧30),频率≈概率、样本均值≈总体均值、样本方差≈总体方差。
4.当样本数无穷接近总体数的时候,频率=概率、样本均值=总体均值、样本方差=总体方差。
5.统计学的任务就是如何利用统计值来推论参数值(统计推论),实现我们的研究目的。
第四章常见统计分布第一节二点分布一、二点分布(0-1分布):就是变量的取值只有两类的分布。
如:性别。
二、二分变量的分布律:随机变量如果满足二点分布,则其概率分布为——P(ξ=0)=q;P(ξ=1)=P;P+q=1第二节二项分布一、二项分布:在相同条件下进行n次独立试验,每次试验只有两种可能的结果,事件A出现的概率P(A)=P,事件A不出现的概率P(A)=1-p=q.第三节正态分布一、什么是正态分布?中心极限定理:对于任何变量,不管其原有分布如何,如果把它们n个加在一起,当n大于一定数之后(n>30),那么其和的分布必然接近正态分布。
二、正态分布密度曲线的特点1.一个高峰2.一个对称轴——X=µ3.一个渐近线——X轴4.正态分布曲线是单峰值对称的,因此这种分布的变量,其众值、中位值和均值是重叠的。
5.正态分布下的面积为1.三、正态曲线的参数意义1.正态分布的两个参数是µ(总体均值)和σ(总体方差)。
2.两个参数对曲线形状的影响:(1)φ(X)在x=μ处达到峰值,以直线x=μ为对称轴。
在σ一定的情况下,若μ增大,图形右移;若μ减小,则左移,但形状不变。
(2)当μ值一定时,值越小,则对应的图形越尖越瘦。
第四节标准正态分布标准正态分布:标准正态分布就是通过公式把一般正态分布转化而来,这样把不同的正态分布都统一为(0,1)的正态分布,然后再通过查表求出两点之间的概率。
公式:Ζ=1.标准正态分布的μ=0,σ=1,其图形以Ζ=0为对称轴。
2.标准正态分布记作X~N(0,1),一般正态分布记作X~N(μ~σ²)3.标准正态分布的图形唯一的,其值可以通过查表(附表4)求得。
(只有标准正态分布才能查表,如果是一般正态分布则先用公式转化为标准正态分布)4.正态分布N(μ~σ²)和标准正态分布N(0,1)面积之间的对应关系:当X=μ+σ时,Ζ==1当X=μ-σ时,Ζ==-1第五节常用统计分布一、X²分布(卡方分布)设变量ξ1、ξ2,、、、、、、ξk相互独立,且都服从N(0,1),则X²=(ξ1)²+(ξ2)²+…+(ξk)²称为自由度为K的X²分布。
记作:ξ~X²(k)二、t分布设随机变量ξ和η独立,且ξ~N(0,1),η~X²(k),则随机变量t (t=)服从自由度为k的t分布,记作t~t(k)。
三、F分布设随机变量ξ和η独立,且ξ~X²(k1)η~X²(k2),则随机变量F (F=) 服从自由度(k1,k2)的分布记作F~F(k1,k2)。
第五章参数估计一、关于抽样的一些概念1.总体:构成总体的所有元素的集合,元素则是构成总体的最基本的单位。
2.样本:从总体中按一定方式抽取出来的一部分元素的集合。
3.抽样:从总体中,按一定的方式选择或抽取样本的过程。
4.抽样单位:一次直接抽样所使用的基本单位。
二、统计推论1.统计推论:根据局部资料(样本资料)对总体进行推断的过程。
2.样本资料的特点:(1)样本资料来源于总体,因此局部资料的特性在某种程度上能反映总体的特征。
(2)由于抽样的随机性,则抽样的结果有可能不等于总体的结果。
(3)当样本达到一定规模的时候(大样本),呈现规律性。
3.统计值:从样本中计算出来的数值。
4.参数值:总体的数值。
5.统计推论的容分为两个部分:(1)通过样本的统计值对总体的未知参数进行估计,称为参数估计。
(2)通过样本对总体的某种假设进行检验,称为假设检验。
三、抽样分布1.样本均值 的分布:我们按照简单随机抽样的方法,从总体中抽取样本,因为每一个个体被抽中的机会具有随机性,所以每一次抽出的样本其均值都不同,那么在同一个总体中,抽取n 次就有n 个样本均值( ),而样本均值 的分布就是这n n x xx ,,,21 x x个样本均值的分布。