抽样中如何确定样本规模
当我们在在制定抽样方案时,首先要确定样本规模,即确定调查样本中所包含的被调查者数量。每一种概率抽样的方法都有各自的确定样本规模的公式,但总的来说,样本的规模由下列因素决定:
一、对精确性的要求
由于抽样误差的不可消除,因此样本的统计值跟总体的参数值之间总是存在着误差。如果对误差的容忍度高、对精确性的要求低,那么样本规模可以小一些,反之,就要增加样本规模来降低抽样误差。我们经常用置信度(confidence level,也叫置信水平)来估计抽样误差。置信度体现的是研究者对某个推论的可信度和把握 度,当我们说“某个抽样结果的置信度为95%”时,也就是说,“我们有95%的把握认为”,或者“某个结果出现的可能性为95%”。为了提高置信度,我们就需要更多的研究样本,99%置信度之下所要求的研究样本就比95%置信度之下多得多。(如下表)
对置信度的要求越高,则样本规模越大。但是,抽样误差的大小不是与样本量成反比,而是与样本量的平方根成反比,因此当样本量增大到一定程度以后(如3000),再继续增加样本量,其精确度提高的程度越来越小,多花费的研究精力和时间就有点得不偿失。
二、总体的异质程度
如果一个总体里的每个个体都一模一样,那么只需要一个个体就能够推断总体了;如果每个个体都“非A即B”,那么只需要从A类型和B类型中各抽取一个个体就可以了。以此类推,如果总体的异质程度提高,说明总体的分布越分散,其波动性越大,同样规模的样本可能会“漏掉”某些类别和特征的个体,因此需要更多的样本量,这也是降低抽样误差的一种手段。
三、研究者的精力和经费
从精确度和总体的异质程度来考虑,样本规模越大则越有代表性,但是,一个研究所能支配的资源是有限的,很多时候,研究者也要受自己的经费、精力和时间限制,出于可行性考虑,需要缩小样本规模。如为了了解我国公民的基本状况,开展全国性人口普查很有必要,但这不是抽样调查,而是对总体的全面调查,耗时耗力,因此每隔几年,我国会进行1%的人口抽样调查,根据其结果推断全国公民总体。根据上表所示,当抽样误差为3%时,99%的置信度要求1849个样 本,而95%置信度只要求1067个样本;在95%置信度下,当抽样误差从2%降低到1%,降低了一个百分点时,样本规模从2401增加到9604,增加了近4倍,研究费用也增加了4倍。样本越多,意味着研究碰到的障碍和花费的精力越多,所以,研究者可以根据实际情况来降低或增加样本规模。
四、研究目的和研究方法
如果研究目的在于深入理解被研究对象,因而研究者选择了定性方法,那么就不需要大规模的样本。如果研究的目的在于推断总体,研究者选择了定量方法,那么一般而言都需要大规模样本。探索性研究使用小样本就能实现其研究目的,而描述性和解释性研究则往往需要更大规模的样本。
五、数据分析里所涉及的变量数目
一般来说,多变量数据分析比一元二元变量分析要求更大的样本规模。当涉及的分类和因素增加时,也要求样本规模扩大,比如研究设计里决定将总体按照受教育程度划分为小学以下、小学、初中或中专、高中、大专及以上五个组,那么每个组一般至少需要30个样本,共计150个样本;如果再加上地区变量,即还要考虑每个组的个体是来自东部、中部还是西部,那么按15个组、每组30个样本计算,则至少需要450个样本。所以,在其他条件相等的情况下,所分析的子群数目越多,则样本规模越大。
从以上的讨论可以看出,样本规模并不是由总体规模来决定的。当总体规模的增加达到一定程度时,样本规模的增加速度远远低于总体的增加速度,此时增加样本规模并不能有效地提高研究结果的精确性。所以,我们不能说“总体越大,样本规模越大”。