当前位置:文档之家› 统计学原理 李洁明 第六章 抽样调查

统计学原理 李洁明 第六章 抽样调查


x1
1,2,4
x2
1,2,5
x3
3,4,5
x4
1,3,5
x5
2,3,5
x6
x7
x8
x9
x10
抽样方法和样本可能数目
抽样方法 样本数目与样本容量有关,也与抽样方法有关, 样本数目与样本容量有关,也与抽样方法有关,样本 容量既定,则样本数目取决于抽样的方法。 容量既定,则样本数目取决于抽样的方法。 重复抽样 抽样方式不同 不重复抽样 样本要求不同 考虑顺序抽样
▼全及总体特征的描述 描述总体的特征一般采用均值和标准差。 描述总体的特征一般采用均值和标准差。 全及总体是确定的,唯一的,因此全及指标也是确定的, ☆全及总体是确定的,唯一的,因此全及指标也是确定的, 唯一的。 唯一的。 变量总体: X = ∑X 变量总体: N
σ=
∑( X − X)
N
2
σ 2为总体方差
n N
不考虑顺序的不重复抽样
N(N − 1)⋯(N − n + 1) N! C = = n ! n (N − n)! !
n N
考虑顺序的重复抽样
n BN = N n
不考虑顺序的重复抽样
n n DN = CN +n−1
抽样调查的理论依据
大数定律:证明了抽样平均数(成数) 大数定律:证明了抽样平均数(成数)趋近于总体平均 成数)的趋势。 数(成数)的趋势。 1)独立同分布大数定律: 独立同分布大数定律: 2)贝努力大数定律: 贝努力大数定律: 中心极限定律: 中心极限定律:证明了多个随机变量和的分布趋近于正 态分布。抽样平均数就是一种随机变量。 态分布。抽样平均数就是一种随机变量。 1)独立同分布中心极限定律: 独立同分布中心极限定律: 拉普拉斯中心极限定律: 2)德莫佛—拉普拉斯中心极限定律: 德莫佛 拉普拉斯中心极限定律
n
x=
∑x
i =1
i
n ( xi − x)2 ∑
i =1 n
S=
n
S2称为样本方差
对于分组资料采用加权的计算公式。(见第三章) 对于分组资料采用加权的计算公式。(见第三章) 。(见第三章
属性总体: 属性总体:
n1 p= n S = p(1− p) =
pq
n0 q= n p + q =1
n1 具有某种属性 , n0 不具有某种属性
n N
▼抽样总体(样本)特征的描述 抽样总体(样本) 抽样总体(样本)特征也是通过均值和标准差来描述的。 抽样总体(样本)特征也是通过均值和标准差来描述的。 不是确定的、唯一的,因此抽样指标也不是确定的、 不是确定的、唯一的,因此抽样指标也不是确定的、唯 一的,是样本变量的函数,是随机变量。 一的,是样本变量的函数,是随机变量。 变量总体: 变量总体:
▼抽样的目的就是通过观察样本的特征来推断总体的特征, 抽样的目的就是通过观察样本的特征来推断总体的特征, 即用样本平均数用来推断总体平均数, 即用样本平均数用来推断总体平均数,而样本标准差作为总 体标准差估计值(当总体标准差未知) 体标准差估计值(当总体标准差未知)用来计算总体平均数 的估计区间(置信区间)。 的估计区间(置信区间)。
第三节
抽样平均误差
抽样误差的概念和理解 抽样误差: 抽样误差:来源于登记性误差和代表性误差 登记性误差 调查误差或工作误差,指在调查、编辑、编码、 调查误差或工作误差,指在调查、编辑、编码、汇 总过程中由于观察、测量、登记、 总过程中由于观察、测量、登记、计算上的差错或被调 查者提供虚假资料而引起的误差。 查者提供虚假资料而引起的误差。 这种误差的直接表现就是标志特征,从而使所计算的统计量 偏离其真实值。 偏离其真实值。 登记性误差存在于所有的统计调查中, 登记性误差存在于所有的统计调查中,而且调查的范 围越大、调查单位越多,产生误差的可能性越大。 围越大、调查单位越多,产生误差的可能性越大。 登记性误差与测量工具的精度、测量技术、 登记性误差与测量工具的精度、测量技术、调查人员 的责任心、被调查者的合作态度等密切相关。 的责任心、被调查者的合作态度等密切相关。
∆p → 属性总体抽样极限误差 σ →总体标准差
x
→变量总体抽样极限误差
基本概念
全及总体:所要认识对象的全体。 全及总体:所要认识对象的全体。 变量总体:数量标志; 变量总体:数量标志; 一般以N表示全及总体的单位总数, X 一般以N表示全及总体的单位总数, 表示全及 σ 总体的平均数, 表示全及总体的标准差。 总体的平均数, 表示全及总体的标准差。 属性总体:品质标志; 属性总体:品质标志; 具有某种属性的单位占总体单位总数的比重, 具有某种属性的单位占总体单位总数的比重,称为 总体成数P 标准差也用σ表示。 总体成数P,标准差也用σ表示。
▼随机误差可以分为实际误差和抽样平均误差 实际误差:样本指标与总体指标之间的差别,无法计算。 实际误差:样本指标与总体指标之间的差别,无法计算。 抽样平均误差:所有样本平均指标的标准差。可以计算。 抽样平均误差:所有样本平均指标的标准差。可以计算。 登记性误差 抽样中的 总误差 代表性误差
偏差:系统性误差 偏差: 随机误差: 随机误差:偶然误差
抽样调查概述 基本概念及理论依据 抽样平均误差 抽样推断——均值的推断 抽样推断 均值的推断 抽样方案的设计 必要抽样单位数的确定
第一节 抽样调查概述
概念
广义:抽取部分单位观察,并根据观察结果推断总体。 广义:抽取部分单位观察,并根据观察结果推断总体。 非随机抽样: 非随机抽样: 通过主观判断, 通过主观判断,选取若干个有代表性的单位来推 断总体。 断总体。 随机抽样: 随机抽样: 保证总体中每个单位具有同等机会被抽中机会, 保证总体中每个单位具有同等机会被抽中机会, 抽取样本,并推断总体。 抽取样本,并推断总体。 狭义:按照随机原则抽取部分单位观察, 狭义:按照随机原则抽取部分单位观察,并运用数理统计 原理,由部分对总体做出数量上的推断分析。 原理,由部分对总体做出数量上的推断分析。 一般地,属于随机抽样。 一般地,属于随机抽样。
某全及总体由1 六个数字构成。 例 某全及总体由1、2、3、4、5六个数字构成。 全及总体: 全及总体:1、2、3、4、5。假设样本容量为3,则从 假设样本容量为3 全及总体中采用不考虑顺序不重复的简单随机抽样, 全及总体中采用不考虑顺序不重复的简单随机抽样,可以 抽取出10个抽样总体,这样就有10个样本平均数. 10个抽样总体 10个样本平均数 抽取出10个抽样总体,这样就有10个样本平均数. 1,2,3 1,3,4 1,4,5 2,3,4 2,4,5
n → 样本单位数(样本容量 样本单位数( ) x → 样本均值 p → 样本成数 S → 样本标准差
▼样本容量:一般样本容量大于30的称为大样本,小于30 样本容量:一般样本容量大于30的称为大样本,小于30 30的称为大样本 个单位数的称为小样本。 个单位数的称为小样本。 一般地,一个全及总体中,可以抽取多个抽样总体, 一般地,一个全及总体中,可以抽取多个抽样总体,即 抽样总体不是唯一的, 抽样总体不是唯一的,全部样本的可能数目与每个样本的 容量以及抽样方法有关。 容量以及抽样方法有关。 抽样比: 抽样比:
N1 属性总体: P = 属性总体: = 1− Q N σ = P(1− P) = PQ
N0 Q= N P +Q =1
N1 具有某种属性 , N0 不具有某种属性
抽样总体(样本):从全及总体随机抽取得部分单位的集合 抽样总体(样本):从全及总体随机抽取得部分单位的集合 ): 体。 一般地, 一般地, x → 样本变量
实际误差
抽样平均误差
▼抽样平均误差的影响因素 主要受到三个因素影响: 主要受到三个因素影响: 全及总体标志变动程度σ 总体标志值变动越大, 全及总体标志变动程度σ2。总体标志值变动越大, 抽样平均误差越大,反之则越小。 抽样平均误差越大,反之则越小。 抽样单位数(样本容量)的多少n 其他条件不变, 抽样单位数(样本容量)的多少n。其他条件不变, 抽取的单位数越多,抽样平均误差越小,反之越大。 抽取的单位数越多,抽样平均误差越小,反之越大。 抽样组织的方式和抽样组织形式。 抽样组织的方式和抽样组织形式。
第六章 抽样调查
问题: 问题: 1、某研究人员想要了解杭州在校大学生每周的自习时间, 、某研究人员想要了解杭州在校大学生每周的自习时间, 然而对于一个拥有几十万大学生的城市来说, 然而对于一个拥有几十万大学生的城市来说,他的调查经 费是远远不够的,那么这项调查还能进行吗?如果能进行, 费是远远不够的,那么这项调查还能进行吗?如果能进行, 他该怎么进行,并判断结论的可靠性呢? 他该怎么进行,并判断结论的可靠性呢? 2、某企业想调查消费者对它的产品的认知程度,如何进 、某企业想调查消费者对它的产品的认知程度, 行,并判断结论的可靠性呢? 并判断结论的可靠性呢?
特 点
只抽取部分单位; 只抽取部分单位; 用部分推断总体; 用部分推断总体; 抽样遵循随机原则; 抽样遵循随机原则; 会产生抽样误差,但误差可以计算和控制。 会产生抽样误差,但误差可以计算和控制。
统计误差
统计数字与实际数量之间的差别。 统计数字与实际数量之间的差别。 登记误差: 登记误差: 调查误差或工作误差,指在登记、 调查误差或工作误差,指在登记、汇总计算过程中 产生的误差。(可以避免的) 。(可以避免的 产生的误差。(可以避免的) 代表性误差: 代表性误差: 用部分去推断总体产生的误差。(一般不可避免) 。(一般不可避免 用部分去推断总体产生的误差。(一般不可避免)
不考虑顺序抽样 以上结合为四种抽样方法:考虑顺序的重复抽样、 以上结合为四种抽样方法:考虑顺序的重复抽样、考 虑顺序的不重复抽样、 虑顺序的不重复抽样、不考虑顺序的重复抽样和不考虑顺 序的不重复抽样。 序的不重复抽样。
不同抽样方法的样本可能数目 考虑顺序的不重复抽样
N! A = N(N − 1)⋯(N − n + 1) = (N − n)!
相关主题