统计学教学案例集统计学精品课建设小组2004年11月【案例一】全国电视观众抽样调查抽样方案一、调查目的、范围和对象1.1 调查目的准确猎取全国电视观众群体规模、构成以及分布情况;猎取这些观众的收视适应,对电视频道和栏目的选择倾向、收视人数、收视率与喜爱程度,为改进电视频道和栏目、开展电视观众行为研究提供新的依据。
1.2 调查范围全国31个省、自治区、直辖市(港澳台除外)中所有电视信号覆盖区域。
1.3 调查对象全国城乡家庭户中的13岁以上可视居民以及4-12岁的儿童。
包括有户籍的正式住户也包括所有临时的或其他的住户,只要已在本居(村)委会内居住满6个月或可能居住6个月以上,都包括在内。
不包括住在军营内的现役军人、集体户及无固定住宅的人口。
二、抽样方案设计的原则与特点2.1 设计原则抽样设计按照科学、效率、便利的原则。
首先,作为一项全国性抽样调查,整体方案必须是严格的概率抽样,要求样本对全国及某些指定的都市或地区有代表性。
其次,抽样方案必须保证有较高的效率,即在相同样本量的条件下,方案设计应使调查精度尽可能高,也即目标量可能的抽样误差尽可能小。
第三,方案必须有较强的可操作性,不仅便于具体抽样的实施,也要求便于后期的数据处理。
2.2 需要考虑的具体问题、专门要求及相应的处理方法2.2.1 城乡区分都市与农村的电视观众的收视适应与爱好有专门大的区不。
理所因此地应分不研究,以便于对比。
最方便的处理是将他们作为两个研究域进行独立抽样,但代价是,如此做的样本点数量较大,调查的地域较为分散,相应的费用也就较高。
另一种处理方式是在第一阶抽样中不考虑区分城乡,统一抽取抽样单元(例如区、县),在其后的抽样中再区分城、乡。
如此做的优点是样本点相对集中,但数据处理较为复杂。
综合考虑各种因素,本方案采纳第二种处理方式。
在样本区、县中,以居委会的数据代表都市;以村委会的数据代表农村。
2.2.2 抽样方案的类型与抽样单元的确定全国性抽样必须采纳多阶抽样,而多阶抽样中设计的关键是各阶抽样单元的选择,其中尤以第一阶抽样单元最为重要。
本项调查除个不直辖市及都市外,不要求对省、自治区进行推断,从而可不考虑样本对省的代表性。
在这种情况下,选择区、县作为初级抽样单元最为适宜。
因为全国区、县的总数量专门大,区、县样本量也会比较大,因而第一阶的抽样误差比较小。
另外对区、县的分层也可分得更为精细。
本抽样方案采纳分层五阶抽样。
各阶抽样单元确定为:第一阶抽样:区(地级市以上都市的市辖区)、县(包括县级市等);第二阶抽样:街道、乡、镇;第三阶抽样:居委会、村委会;第四阶抽样:家庭户;第五阶抽样:个人。
为提高抽样效率,减少抽样误差, 在第一阶抽样中对区、县采纳按地域及类不分层。
在每一层内前三阶抽样均采纳按与人口成正比的不等概率系统抽样(PPS系统抽样),而第四阶抽样采纳等概率系统抽样,即等距抽样,第五阶抽样采纳简单随机抽样。
2.2.3 自我代表层的设立依照要求,本次调查需要对北京、上海两个直辖市以及广州、成都、长沙与西安四个省会都市进行独立分析,因而在处理上将这些都市(包括下辖的所有区、县)每个都作为单独的一层处理。
为方便起见,以下把如此的层称为自我代表层。
考虑到在如此处理后,全国其他区县在分层中的一些具体问题以及各地的专门情况,将天津市也作为自我代表层处理。
另外,鉴于西藏情况专门,所属区县与其它省(自治区)的差不专门大,因此也将它作为自我代表层处理。
如此自我代表层共有8个,包括以下都市与地区:北京市、天津市、上海市;广州市、成都市、长沙市、西安市;西藏自治区。
三、样本区、县的抽选方法3.1 全国区、县的调查总体依照2001年的全国行政区划资料,全国(港澳台除外)共有787个市辖区,此外有5个地级市(湖州、东莞、中山、三亚、嘉峪关)不设市辖区,若将它们每个都视同一个市辖区,则共有792个区;全国共有1674个县(包括自治县及旗、自治旗、特区与林区等)、400个县级市,县级行政单位的总数为2074个,这中间包括福建省的金门县,不能进行调查,因此除金门县以外的所有2865个区、县(792个区及2073个县)构成此次调查的调查总体。
3.2区、县分层为便于调查后的资料分类汇总及提高精度,应将全国区、县进行分层。
分层能够按多种标识进行,从理论而言,分层标识应选取与调查指标相关程度较高的那些变量。
在本次调查中也确实是应选取与观众收视行为、适应与爱好等紧密相关的变量。
关于这方面已有一些相应的研究结果,例如观众的年龄、性不、文化程度、职业、居住地的生活适应与气候等。
只是注意到我们不可能按观众的个体来分类,只能按观众居住的区、县来分类。
而关于区、县,许多表示人口特征(除人口总数)及经济文化进展指标(除所在省的人文进展指数及县的人均GPT)的资料都无法得到,通过多方研究,我们对区县的分层按以下两种标识进行。
(1)地域我国幅员宽敞,各地经济、社会、文化与气候的地域差异极大,而所有这些因素都与电视观众的收视行为紧密相关。
我们首先将所有县按所在省(自治区、直辖市)的地理位置分成3大层13个子层,[各省括号内的数字为它们的人文进展指数(Human Development Index,简称HDI),在全国的排位,参见附表]。
地域分层如表1:表1 全国区、县的地域分层需要讲明的是以上划分的层,还考虑了其他一些因素,各省按联合国制定的标准计算的人文进展指数仅是考虑因素之一。
例如,按人文进展指数,广西(第19位)实际上可划在第二大层(中部地区),但考虑到国家西部大开发的范围将广西划入西部地区,我们的划分与它一致,如此便于资料的汇总公布。
又如海南,依照人文进展指数(第13位)放在第一大层稍为牵强,然而依照它的地理位置以及它以旅游为主业,就观众行为而言,与广东、福建划在一子层内是合理的。
(2)区、县类不同一大层的各市辖区与所隶属的都市的规模、在都市中的地理位置(市区或郊区)和居民成分构成(非农业人口占总人口的比例)有较大差异,各县也因经济文化发达程度有较大差异。
我们将各大层中所有的区、县除已划为自我代表层的以外,(如下称抽样总体)分成以下5类,每类组成1个小层:一类区,二类区,县级市,一类县,二类县。
全国抽样总体中所有区县共分成11×5=55个小层。
其中区的划分标准为区中非农业人口占总人口的比例,比例高于标准的为一类区,比例低于标准的为二类区;县的划分标准为人均国内生产总值,高的为一类县,低的为二类县。
区县划分类不的标准在三大层中各不相同,具体标准如下:区类不的划分标准:东部地区与中部地区:非农人口在总人口中的比例大于或等于80%为一类区,小于80%为二类区;西部地区:非农人口在总人口中的比例大于或等于70%为一类区,小于70%为二类区。
县类不的划分标准:东部地区:人均GDP在5000元以上为一类县;5000元以下为二类县。
中部地区:人均GDP在4000元以上为一类县;4000元以下为二类县。
西部地区:人均GDP在3000元以上为一类县;3000元以下为二类县。
3.3自我代表层的区、县情况依照最新行政区划,自我代表层中的7个都市所辖的区、县构成情况如表1。
表2 自我代表都市的辖区、县构成西藏自治区包括1个地级市(拉萨市,下辖一个城关区)、一个县级市(日喀则市)及71个县。
3.4 抽样总体区县情况按 3.2划分标准,全国除自我代表层以外的抽样总体各小层的区、县数及人口在(抽样总体)总人口中的比例如表3与表4所示。
表3 抽样总体中各小层的区县数表 4 抽样总体各小层人口占总人口的比例(%)3.5 区、县的抽样方法及样本量抽样总体中各层(指小层,下同)内对区、县的抽样采纳按人口的PPS系统抽样,样本量一般为2;少数人口较多的小层样本量定为3。
样本量的具体分配见表5。
样本区、县总量为121个。
表5 各小层的区县样本量的分配四、抽样总体中样本区、县内的抽样方法4.1 样本区内的抽样每个一类样本区内采纳街道(镇)、居委会、家庭户及个人的4阶抽样;每个二类样本区内采纳街道(乡、镇)、居(村)委会、家庭户及个人的4阶抽样,样本量皆为90。
具体方法如下。
4.1.1 对街道(乡、镇)的抽样样本区内对街道(乡、镇)抽样采纳按人口的PPS系统抽样,每个样本区抽3个街道(乡、镇),其中一类区不抽乡。
4.1.2 对居委会的抽样样本街道、镇(乡)内对居(村)委会的抽样采纳按人口的PPS 系统抽样,每个样本街道、镇、乡各抽2个居(村)委会(其中一类区不抽村委会)。
为操作方便,那个地点的人口数也可用户数。
4.1.3 对家庭户的抽样样本居(村)委会内对家庭户的抽样采纳随机起点的等概率系统抽样,即等距抽样。
每个居(村)委会固定抽取15户。
在抽样时,必须首先清点居(村)委会管辖范围内的实际家庭户数,且规定排列的顺序。
4.1.4 样本户内具体调查对象的确定对每个被抽中的样本户,在13岁以上(含13岁)的成员中,完全随机地确定一名为具体调查对象。
为确保家庭成员中的每一个如此的成员都有相等的概率被抽中,采纳二维随机表来确定。
表 6 确定户内调查对象的二维随机表4.2 样本县(县级市)内的抽样每个样本县内采纳乡(镇)、村(居)委会、家庭户及个人的4阶抽样,样本量为60。
具体方法如下。
4.2.1 对乡、镇的抽样确定县城所在的镇(城关镇)为必调查镇,对其余乡(镇)采纳按人口的PPS系统抽样,再抽2个乡(镇),每个样本县共调查3个乡(镇)。
4.2.2 对村(居)委会的抽样在每个城关镇中用按人口PPS抽样抽取2个样本居(村)委会。
对其它两个样本乡、镇内,也用同样的方法抽2个村委会。
为操作方便,那个地点的人口数也可用户数。
4.2.3 对家庭户的抽样样本村(居)内对家庭户的抽样与样本居委会内对家庭户的抽样完全相同,仍采纳随机起点的等概率系统抽样,即等距抽样。
每个村(居)固定抽取10户。
4.2.4 具体调查对象的确定在样本户中确定具体对象的方法与4.1.4中情形完全相同,即用二维随机表来确定。
4.3 儿童样本的确定在城乡每个样本户中,除抽取一位13岁以上的观众作为调查对象外,假如还有4-12岁的儿童,则需要抽取1位进行儿童观众的调查。
假如符合年龄的条件多于1位,则仍按二维随机表的方法确定。
关于自我代表的7个都市中,为保证儿童的样本量,对每个样本户,调查所有满足年龄的儿童。
五、自我代表层中的抽样方法5.1 自我代表都市的抽样方法每个需要进行推断的都市皆作为自我代表层,在层内也进行分层抽样,层的划分标准与其它子层中的区、县标准差不多相同。
只只是不再对县分类,且将县级市(仅长沙市有一个)也作为一般县处理。
如此每个都市皆分为一类区、二类区及县三层。
考虑到上海市浦东新区的专门性(既包括完全都市化的市区,也包含相当广泛的农村),将该区作为自我代表层处理。