●统计学:收集、处理、分析、解释数据并从中得出结论的科学。
研究对象:客观现象总体的数量特征和数量关系,及通过数量方面反映的客观现象发展变化规律性。
统计工作:关于数据采集、整理、分析、发布、使用全过程的活动总称。
统计工作过程:统计设计,统计数据收集,统计整理,统计分析,统计发布,统计资料的整理,开发与应用。
●统计分析方法:描述统计,推断统计。
描述统计:研究如何取得反映客观现象的数据,通过图表形式对收集的数据进行加工处理和显示,综合、概括与分析得出反映客观现象的规律性数量特征。
推断统计:在对样本数据进行描述的基础上,利用一定方法根据样本数据估计活对端总体的数量特征(部分→总体)。
●数据类型:⑴定型(品质)数据:分类数据(eg购买商品支付方式,职业)、顺序数据(eg评价教育质量);定量:数值型数据(eg收入,年龄)⑵观测数据(eg电视收视率)、实验数据。
都在没有对事物进行人为控制的条件下得到的⑶时间序列数据(又称动态数据,在不同时间或时点收集的数据)(eg就业人数逐年变化情况)、截面数据(又称静态数据,在相同时间下收集的数据,反映不同空间或主体在同一时间下的数量特征)、面板数据(时间序列和截面数据的综合,有空间时间两个维度,综合反映不同时间空间的数据分布情况)。
●总体N:根据一定目的确定的所要研究事物的全体。
个体:组成总体的各单位。
样本:总体部分单位组成的集合。
样本单位必须取自同一总体。
样本个数多少和样本量与抽样方法有关。
样本抽取必排除主观因素影响,确保样本客观性代表性。
样本容量n:样本所包含的元素。
总体参数:描述总体特征的概括性数字度量。
总体均值μ总体方差σ方,总体标准差σ总体比例π。
参数对应总体。
统计量:描述样本特征的概括性数字度量。
样本均值x拔,样本方差s2样本标准差s样本比例p。
统计量对应样本。
变量:说明总体或样本数量特征的属性。
分类:⑴分类、顺序、数值型变量⑵连续型、离散型变量。
方便抽样:根据调查方便性,以无目标、随意的方式自行确定调查单位。
志愿者抽样:被调查者自愿参加冰箱调查者提供有关信息。
滚雪球抽样:先对随机选择的一些被调查者实施访问,然后请他们推荐具有研究目标总体特征的调查单位。
配额抽样:根据一定标准对总体分层分类后,从各层各类中主管选取一定比例调查单位。
判断抽样:根据经验判断了解的基本情况有目的地选择单位。
统计指标:说明现象总体数量特征的属性。
统计指标体系:若干相互联系的统计指标构成的有机整体。
●统计调查方式:⑴普查:为某特定目专门组织的一次性全面调查。
特点:一次性,周期性;规定统一标准调查时间;数据规范化程度较高;适用范围较窄⑵统计报表⑶抽样调查:从总体中随机抽取部分个体作为样本进行调查。
特点:经济性,时效性强,适应面广,准确性高。
●调查方案设计:明确调查目的,确定调查对象和单位,确定调查项目,确定调查时间和方法,调查工作的组织实施。
调查问卷设计:引言,被调查者基本情况,问题和答案,结语。
问题:⑴开放式问题:优:被调查者有机会进行自我表达或详细描述。
缺:开放式要求更高,被调查者须在没有选项帮助情况下确定问题意图;调查机构数据录入较困难;费用更高⑵封闭式:优:答案已设计好,被调查者只需简单地选择合适选项,不需用自己语言陈述答案,回答问题更快更容易;被调查者更可能按设计者希望的意图回答;数据更易分析;编码和数据录入更容易,花费更省;若一问题被用于多项调查,相同回答选项有助于对结果进行比较。
●数据误差分类:抽样、非抽样误差。
●数据预处理:⑴数据审核:检查数据错误。
审核准确性:逻辑检查,计算检查⑵数据筛选⑶数据排序。
●统计表:构成:表头,行标题列标题,数字资料,表外附加。
注意:总标题简明扼要;上下两端端线粗线绘制,其他线细线,左右两端开口式不划线;数字资料应有计量单位;“合计”置于最后一列;没有数字的单元格用“—”表示;填好的统计表无空白单元格。
●异众比率Vr:非众数组频数占总频数的比率。
衡量众数对一组数据代表性程度大小。
Vr=(Σfi-fm)/ Σfi=1-fm/Σfi●频数:落在某一类别或组中的数据个数。
频率:各类别频数与总频数之比。
累积频数:各类别或组的频数逐级累加得到的频数。
帕累托图:把各类别数据的频数由大到小排序并计算累积频率绘制条线图。
●极差R:一组数据最大值最小值之差。
R=max(xi)-min(xi)●四分位差Qd:上四分位数与下四分位数之差,亦称内距、四分间距。
反映中间50%数据离散程度。
衡量中位数代表性。
Qd=Q U-Q L●抽样分布:样本统计量的概率分布。
设总体变量X,X1到XN;样本变量x,x1到xn:⑴数学期望:E(x拔)=E[(x1+…+xn)/n]=1/n[E(x1)+…+E(xn)],重复抽样x1到xn相互独立,且都是从X1到XN抽取的,每单位机会相等,概率均为1/N所以E(x1)=…=E(xn)=Σ(上n下i=1)XiPi =μ,E(x拔)=1/n[E(x1)+…+E(xn)]= 1/n(nμ)=μ⑵方差:σ2(x 拔)=σ2[(x1+…+xn) /n]=σ2/n方(x1+…+xn)=1/n2[σ2(x1)+…+σ2(xn)]重复抽样x1到xn相互独立,且都是从X1到XN抽取的,所以xi 与总体同分布σ2(x1)=…=σ2(xn)=σ2,σ方(x拔)= 1/n方(σ2+σ2+…+σ2)=σ2/n,σ2(x拔)=σ/根n。
●大样本:⑴大样本且σ已知:任何服从正态分布的随机变量95%值在“均值±1.96个标准差”之内。
Z=(x拔-μ)/σx拔~N(0,1),P(|z|≤Zα/2)=1-α,P(|x拔-μ|/σx拔≤Zα/2)=1-α,P(|x拔-μ|≤Zα/2σx拔)=1-α,x拔- Zα/2σx拔≤μ≤x拔+ Zα/2σx拔,边际误差Zα/2*σ/根n=E。
σ越大,可靠性越低,区间越窄。
⑵σ未知:σx拔=s/根n。
●假设:检验为目的对单或多个总体分布或分布中所含参数具体数值所作的陈述。
总体参数:总体均值、比例、方差。
假设检验:对总体参数提出某种假设,利用样本信息判断该假设是否成立的方法。
采用逻辑上反证法,统计学上小概率原则。
假设检验—古典方法:⑴提出假设:原假设(待检验的假设,又称零假设)、备择假设(与原假设对立的假设,又称研究假设)。
备择假设常是研究者搜集证据予以支持的假设,原假设常是研究者搜集证据予以反对的假设⑵确定检验统计量及其分布⑶确定显著性水平及拒绝域:原假设为真时拒绝原假设所犯错位称为I类错误,又叫弃真错误;原假设为假时喂拒绝原假设,II类错误,取伪错误;原假设被拒绝时才可能犯I 错误,未被拒绝时犯II错误。
⑷构选取决规则:①双侧检验:|检验统计量|>|检验临界值|拒绝H0,否则不拒绝②左侧检验:统计量<临界值,拒绝H0,否则不拒绝③右侧检验:检验统计量>临界值,拒绝H0,否则不拒绝⑸计算检验统计量值作出决策(不能拒绝)。
●总体均值检验:⑴大样本:根据抽样分布理论,x拔~N(μ,σ2/n),将x标准化得到检验统计量z,z服从标准正态分布。
总体方差σ2已知z =(x拔-μ0)/(σ/根n),σ2未知z=(x拔-μ0)/(s/ 根n)⑵小样本:总体方差σ2已知,=大样本;σ2未知,样本方差s2代替总体方差σ2,统计量不服从标准正态分布,服从自由度n-1的t分布,tc表示有样本数据计算检验统计量具体数值t=(x拔-μ0)/(s/根n)~t(n-1)。
总体比例检验:检验统计量z=(p-π0)/根π0(1-π0)/n结~N(0,1)。
双侧检验:H0:π=π0 ,H1:π≠π0,|z|>za/2;左侧检验:H0:π≥π0 ,H1:π<π0,z<za;右侧检验:H0:π≤π0 ,H1:π>π0,z>za。
●散点图:水平轴代表自变量x纵轴代表因变量y, (xi,yi)表示点,n 组数据在坐标系中形成的n个点为散点,坐标及散点构成的二维数据图。
正线性相关,负线性相关,非线性相关,不相关。
●相关系数r:根据总体全部数据计算的为总体相关系数ρ。
根据样本数据计算的为样本相关系数。
r=s上方下xy/SxSy=Σ(x-x拔)(y-y拔)/根Σ(x-x拔)方 结 根Σ(y-y拔)方 结=(nΣxy-ΣxΣy)/根[nΣx2-(Σx)2][ nΣy2-(Σy)2]结。
度量两个变量线性关系强度的统计量;是随机变量;绝对值小于1。
相关系数显著性检验:步骤⑴提出假设:H0:ρ=0,H1:ρ≠0 ⑵计算检验统计量t值:t=r根(n-2)/(1-r2)结~t(n-2) ⑶作出判断:根据显著性水平α自由度df=n-2查出t-检验临界值tα/2(n-2),t绝对值>临界值绝对值,拒绝原假设,表明总体两变量间存在显著线性关系。
●一元线性回归模型:⑴回归分析中,被解释变量为因变量y。
y=β0+β1x+ε。
假定1:误差项期望值为0,E(ε)=0,E(β0)= β0,E(β1)= β1,E(y)= β0+β1x。
假2:对所有x误差项ε方差都相同,为常数σ2,即给定x,y方差σ2。
假3:误差项ε是一个服从正态分布随机变量,ε~N(0,σ2),且独立,所以对特定x所对应y和其他x所对应y不相关;对于任何一个给定的x,y都服从期望值β0+β1x方差σ2的正态分布⑵一元线性回归方程也称直线回归方程,形式为E(y)=β0+β1x,β0回归直线在y轴上的截距,x=0时期望值;β1直线斜率,表明自变量每变动一单位因变量平均变化量⑶样本回归直线(估计的回归方程):根据样本数据拟合的直线,yi约=β0约+β1约xi。
样本模型yi约=β0约+β1约xi+ei,ei残差,总体误差估计。
●最小二乘估计:用因变量观测值yi约 与估计值yi约 间的离差平方和最小方法估计β0约和β1约。
ei=yi-yi约,y约=β0约+β1约x。
Q=∑e 下i上2=∑(yi-yi约)2=∑(yi-β0约-β1约xi)2,将Q对β0约 和β1约求偏导数,并令其等于0,∑yi=nβ0约+β1约∑xi,∑xiyi=β0约∑xi +β1约∑xi2解得β1约=(n∑xiyi-∑xi∑yi)/[n∑xi2-(∑xi)2],β0约=y-β1约x。
●回归直线拟合优度:⑴判定系数:对估计回归方程拟合优度优劣的度量,又称可决系数。
因变量y取之不同,y取值的波动称为变差。
变差大小可用实际观测值y与其均值y只差y-y平均表示。
n次观测值总变差由变差平方和表示,称为误差SST。
SST=∑(yi-y平均)2,yi-y平均=( yi-y 约)+(yi约-y),∑(yi-y平均) 2=∑(yi-yi约)2+∑(yi约-y平均)2。
回归平方和SSR,和SSE:SST=SSR+SSE,1=SSR/SST+SSE/SSR,判定系数R2=SSR/SST=1-SSE/SST越大越好,R2取值 [0,1]。