基于大样本数据的分层抽样设计研究-中国期刊网

首页 > 《中国经济评论》 > 2023年20期 > 基于大样本数据的分层抽样设计研究

（整期优先）网络出版时间：2023-12-28

作者: 魏彬王铮李晓波

经济管理 >政治经济学

打印

同系列资源

/ 2

基于大样本数据的分层抽样设计研究

魏彬王铮李晓波

山东泰安烟草有限公司，山东泰安擂鼓石大街256号，271000

摘要：采用简单的随机抽样方案分析以海量数据为特征的大样本，可能导致估计结果无法有效代表总体，因而产生估计偏差。本文基于样本分配方法如何选择、分层标准和界限如何明确及分层层数如何确定等问题，首先分析抽样理论在海量数据环境下的可靠性，然后比较海量数据环境下每种抽样方法的优缺点，最后重点介绍如何定义分层标记和边界，如何确定层数及如何选择抽样分布方法，了解如何将分层抽样应用于大型数据集，从而设计以大样本为背景的分层抽样设计方法，探讨分层抽样方法在海量数据分析中的主要特征。

关键词：分层抽样；大样本；海量数据

在以海量数据为特征的大样本情况下，一般的，采用简单的随机抽样方法，可能导致样本无法有效代表总体，因而对估计精度产生影响，同时鉴于大样本也存在难于调查、不够精细等缺陷。为了缓解上述问题，本文基于分层随机抽样等方法，即在大样本进行分层随机抽样，同时对分层抽样技术进行优化，以探讨分层抽样方法在海量数据分析中的主要特征。

无论是基于小样本进行分析，还是依托海量数据为基础的大样本，在进行分层随机抽样时，均会遇到如下三个方面的问题：第一，样本分配方法如何选择？第二，分层标准与界限如何明确？第三，层数如何确定？通过对上述三个问题的解决，才能形成一个高效的分层抽样，统计与估的效率才会提升。在接下来的论述中，本文以海量数据为背景的大样本进行分析，分别针对上述三个问题，讨论如何进行高效的分层抽样分析。

一、分层标志与界限的明确

为了确定分层标记，通常可以从不同类型的辅助信息（可以是定性信息，也可以是定量信息）中选择分层标记。

（一）分层界限的明确——基于定性信息

基于层内差异小、层间差异大的准则，采用定性辅助信息明确分层界限，是较为通用和简单的方式。理论上看，定性分层指标涵盖种族、性别等方面，这些指标可以直接予以分类。若定性辅助信息是类似行政分配这种具有层级关系的变量，在分类和识别时，就应当根据研究需要对这种层级关系进行深入区分。但是若在以大样本为特征的海量数据背景下，该定性分析方法也存在一定不足之处，例如在进行简单的人口抽样调查时，若按照人口能力、性别等定性等级进行划分，每一层次的样本容量还是较大的，那么在此基础上若要提高估计的有效性，需要在之前定性信息的基础上，进行二次、三次分层，来确定分层的层级或界限，直到达到适合的分层标准。但是，在正常决策过程中，很难找到合适的定性信息以对分层界限予以确定，为了对该问题进行解决，通过确定合适的定性辅助变量确定分层界限就显得至关重要。

对于总体的人群样本，假设对该样本进行H级别的划分，比如设置y_0⋯为人群样本中每个层级的限制，在该限制区间内，y_0和y_H是人群样本层级中的最小值与最大值，接下来，本文需要确定的是各个层级的界限，即y_1、y_2......（H-1），Zakula（2005）对此进行了细致分析，并做出研究假设如下：

以f（u）作为辅助变量y的密度函数，而且该密度函数是已知的，同时，令和表示第n层的均值和方差，相关表达式如下：

上式中，LWh是分层的层级，在本文的随机分层抽样模型下，样本总体的均值

（1）

（2）

L （3）

上式中，LWh是分层的层级，在本文的随机分层抽样模型下，样本总体的均值

（4）

在本文的分层抽样模型中，样本均值是总体均值的无偏估计两，因此，就是总体均值的无偏估计。联立上面的式子，方差为：

（5）

上式中，fh是相应的分层抽样之比，在以大样本为特征的海量数据背景下，可以令，因此可得下式：

（6）

到目前为止，在分层抽样设计中，针对最优分层极限值的设计，已经转化为使估计量方差最小的问题，根据尼曼分布的基本原理，最优分层极限值应当满足如下关系：

（7）

其中 h=1， ⋯， H-1。由于上述方程是非线性的，无法计算结果，因此在实际研究中通常使用Dalenius and Hodges（1959）提出的累积平方根方法进行分析，该平方根方法适用于研究变量未知的情况，并且可以使用所研究变量与辅助变量之间的相关性确定层次边界。

假设所研究的变量 y 和辅助变量 x 之间的关系满足以下关系：

（8）

其中是满足且的误差项，如果在h层中辅助变量x的方差为，的方差为，则将所研究的变量y与辅助变量x之间的关系简化为方程（1），得到满足边界的方程，使达到的最小值，如下所示：
（9）

其中 h=1，⋯，H-1，在所有分层中，若，上式可以简化为方程（7），从而可以得到辅助变量x的最优极限。在上述基础上，式

成立，其中是第h层中变量y和x的相关系数，因此，变量y和x的相关性越高，辅助变量用于确定最佳边界的精度就越高。

（二）分层界限的明确——基于定量信息

定义分层标记的另一种方法是通过量化信息进行。在以大样本为特征海量数据环境下，当需要从种群中提取的样本数据量巨大时，由于大数据的稀疏性，很难准确反映种群的特征。例如，通过分析全国烟草商订单数据得到客户的特征，每个班次的样本数量可以包含在相应区域层对应的2-5个关键词中，同时囿于样本层的方差较大，班次中的数据相对分散，为此从样本数据中寻找特征数据所需的工作量较为巨大。对于该问题，在分层抽样中确定边界的具体程序将做出如下改进。在此过程中，程序改进的原则是对于数据集中的区域，减少抽取量，同时增加数据分散区域的抽取量，从而确保样本整体的基本特征。

1.假设分层抽样业务数据为，并将该数据集划分为A层进行描述，为了分析给定区域中样本数据的集中趋势，将给定区域的均值定义为数据中心值，即