16 CHINA STATISTICS
市场调查中样本容量的确定
文/陈克明 宁震霖
在市场调研工作中,采用随机抽样进行资料采集时,需要预先确定样本量的大小。
我们知道,在系统误差确定的条件下,抽样调查的准确性取决于抽样误差,而抽样误差的大小又与样本容量有直接的关系,即样本容量越大,抽样误差就越小。
当然,这并不能说在抽样调查中样本容量越大就越好,因为样本容量越大,调查的费用就越高。
因此,决定样本容量大小的主要因素是特定的调研项目对抽样误差的要求和项目预算经费这两个方面。
在实际工作中,样本容量的确定实际上就是在抽样误差与经费预算之间求得最佳的平衡,即在可以接受的抽样误差的条件下使用最少的经费,当然,有时候则可能是在一定的经费额度条件下争取最小的抽样调查误差,而这个误差当然必须是可以接受的。
所以,在市场调研中,随机抽样调查样本容量的确定,通常都是先根据调查对抽样误差的要求来考虑。
根据抽样误差要求确定的样本容量
根据随机抽样的基本原理,样本容量可以通过抽样误差、极限误差及置信度等因素的分析来加以确定。
设在简单随机抽样(重复抽样)的条件下,置信度(t )与抽样误差(μ)及极限误差(Δ)的关系为t =Δ/μ,均值指标的抽样误差(μ)是由总体标准差(δ)和样本容量(n )决定的,即
显然,整理可得:
这就是说,只要我们能够确定总体标准差(δ)、置信度(t)和极限误差(Δ),样本容量即可确定。
第一,总体标准差的确定。
总体标准差虽然是客观存在的,但我们是无法直接得到准确的数据的,所以在抽样调查中只能使用近似值,通常有几种简便的处理办法。
1.试验性抽样调查。
在调研总体规模较大的情况下,可采用抽样调查方法估计δ。
即根据抽样调查所取得的样本标准差S的结果求得δ。
根据概率论和数理统计的有关知识可知:
而 (其中X i 是样本值,X -
是样本
均值,n 是样本容量,δ是δ的最大似然估计),所以有 。
在样本容量n 满足大样本(一般不少于30个)的情况下, ,即 。
也就是说,可以专门做一次n>30的抽样调查,用该样本资料可以计算得到样本标准差S,用样本标准差代替总体标准差。
2.利用历史资料或二手资料。
一般地,大多数企业过去都曾经做过相关的市场调查,或相关部门(企业内部或企业外部)存有相关的二手统计资料,可以利用这些资料来估计总体标准差δ。
3.估算。
根据概率论和数理统计的有关知识可知,在标准正态分布条件下,距离中心 的范围内分布了相当于总体的99.73%的变量,我们可将99.73%近似于总体的全部变量,即近似于100%。
据此,只要能找出总体中最大值X max 和最小值X mi x ,然后根据近似公式 ,求得总体标准差δ。
4.运用管理人员的经验判断。
在抽样调查实践中,如果要求不是非常严格,可以根据管理人员的有理有据的经验判断来估计总体标准差δ。
第二,极限误差或最大允许误差的确定。
它是抽样调查实施者愿意接受或可容忍的最大误差,极限误差是一个临界值,
即误差超过这个临界值在很大的可能性上会改变事物的性质,如我们确定月收入在1000-1500元的为中等收入,其平均收入
水平为1250元,如果极限误差超出±250,则可能发生本来实际上属于中等收入水平的被划归入高收入阶层或低收入阶层,从而导致得出完全不同的分析结论,导致错误。
极限误差的确定需要具体问题具体分析。
在抽样调查实践中,极限误差的确定可以根据经验和定性分析,先确定一个初始值,然后对这个初始值进行分析认定,如果太大就逐步加以缩小,如果太小就逐步扩大,放大该初始值,直到该值达到可能导致分析失误的临界状态,这个临界值就可以作为极限误差。
17
CHINA STATISTICS
第三,置信度t 值的确定。
它是以抽样误差表示的可接受的置信度,即总体均值包括在制定置信区间内的可靠性。
在市场调研实践中,一般可以先取t=2,即置信度水平为95.45%,这是一个把握程度比较高的估计,也就是对可接受的抽样误差的把握性很高。
多分析指标抽样调查的样本容量
以上介绍的根据抽样误差要求确定样本容量的方法,实际上只考虑了一个分析指标的资料收集的需要,但在实际市场调研工作中,一次调查所需要收集的资料是比较多的,很少只有一个分析指标的。
由于一次调查中涉及的资料较多,指标的形式多样,误差要求各不相同,就必然会出现对样本容量的要求不同。
从指标的形式上看,有的是均值指标,有的是成数指标;从指标的量纲单位上看,有实物量单位,有货币量单位或无量纲单位;从指标值的量级上看,有小量级的,如有小于1大于0的小数点级的,也有上千上万的大量级的;由于这些指标形式的差异,加上对抽样误差的要求不同,计算出来的样本容量的数值也必然是各不相同的,甚至完全可以毫不夸张地说,调查中有多少个调查指标就会有多少个相应的样本容量需要值。
显然,一次抽样调查只能有一个样本容量,因而必须从众多的样本容量需要值中选择确定一个。
在市场调研实践中,可以有两种处理方式:
第一,根据取大原则处理,即将抽样调查的样本容量确定为所有样本容量需要值中的最大值。
这种处理方式的基本理论依据是样本容量越大,抽样误差就越小,因而取最大值可以满足所有指标对抽样误差的要求。
但这样做有可能导致调查费用支出较大,因而这种处理方式适合于调查经费较为充足宽裕的项目。
第二,根据重要性原则处理,即将所有的调查指标按照其在本次调研中的重要作用进行排序(可以借助于AHP层次分析法软件),取排列前三位或前五位中的最大值。
这样做的好处是保证重要资料的精确度要求,如果非重要资料的样本容量要求高,没有必要为非重要资料增加费用支出,可以做到既从整体上保证资料的精确度需要,又节约了一定的经费。
这是一个灵活和妥协的处理方法。
调查成功率对样本容量确定的影响
以上讨论的样本容量实际上调查完成后必须得到的有效数据数,也就是说,如果调查完成后所得到的数据少于这个数量要求,用这些数据进行分析就无法满足对抽样误差的要求,也就是实际误差肯定大于调研者的期望误差。
在一般的抽样调查方法理论中,通常把样本容量看作就是实际调查单位数,这实际上以调查的成功率是百分之百为假设前提的,而在实际的市场调研工作中这是不可能的。
至少有三种情况使调查完成后得到的资料数据数少于预先确定的调查单位数,第一,找不到预先确定的调查对象而无法完成调查;第二,找到预先确定的调查对象,但因某种原因出现拒访现象(包括隐性拒访如敷衍对待、虚假回答等);第三,某些调查项目出现无回答现象。
而有些形式的调查这方面的问题则更加突出,如留置问卷、邮递问卷调查的回收率一般都是比较低的,缺答项常常比较多,数据
质量和有效性较低。
值得指出的是,随机抽样调查必须按照预先确定的样本名单进行资料的采集,当出现有效数据少于必要期望数时,一般不能进行补调查,因为这意味着进行了两次抽样,而这两次抽样的概率通常是不一样的,因而这显然违背随机原则,是不合适的。
所以,随机抽样调查方法在市场调研中的应用,样本容量实际上有两个具体的表现形式,即有效数据数和调查单位数。
鉴于市场调查的成功率不可能百分之百,为了保证足够的有效数据数,必须根据调查的成功率确定相应的调查单位数,即
调查单位数=有效数据数/调查成功率
不同的调查项目因为调研环境、调研方式方法、调查对象、调查内容、组织形式等方面的差异,其调查的成功率是不一样的,在确定样本容量时一般只能根据经验进行大致的估计。
样本容量的最终确定
上述对样本容量确定所做的分析,实际上只是遵循随机抽样调查方法的技术性要求,而市场调研是企业的一项商业性活动,不但需要经费支持,而且需要从经济效益上对经费使用进行精打细算,尽可能地节约开支,所以还必须根据企业用于市场调研的经费状况对样本容量进行必要的调整。
首先必须进行经费需求的测算,一个调研项目的经费包括不变费用和可变费用两部分,不变费用是指与样本容量无关的费用,如项目的前期费用、方案设计费、管理费等;可变费用是指与样本容量有关的费用,如问卷复印费、调查劳务费、交通费、资料处理费、礼品费等。
如果各项费用的测算都能做到十分精确的话,一个市场调研项目的费用总额就取决于样本容量的大小。
要使调研费用最低,在上述样本容量的确定过程中,必须使有效数据数达到最小,当然这种最少是指能满足调研精确度要求的最小有效数据数。
这是可以做到的,在上述第一部分的分析中,有效数据数是由总体标准差、极限误差和置信度这三个因素决定的,由于总体标准差是反映总体分布的测度指标,是客观存在的,我们不能随意加以改动;而极限误差和置信度则可以适当进行调整。
很显然,扩大极限误差和降低置信度要求,都可以达到减少有效数据数的目的。
一方面,如果经过分析后认定极限误差尚未达到最大临界值,可以考虑将其扩大,这意味着在一定程度上放宽对调查精确度的要求,但在没有超过最大临界值的情况下,这是允许和可以接受的;另一方面,适当降低置信度要求也是可能的,如将t 由2降低为1.65甚至于更低些,其置信水平为90%或略低于90%,这个把握程度也是相当可靠的,是完全可行的。
当然,这样处理风险是比较大的,所以,在经费允许的条件下,并不一定要把极限误差和置信度调整到极限状态,而应该留有一定的余地;另一方面,必须通过加强对调查过程的管理控制和提高调查技术水平来保证和提高调查成功率,因为高调查成功率意味着在不减少有效数据数的条件下可以减少调查单位数量,从而节约了调查费用。
(作者单位:福建省泉州市华侨大学商学院)。