基于大样本数据的分层抽样设计研究

(整期优先)网络出版时间:2023-12-28
/ 2

基于大样本数据的分层抽样设计研究

魏彬  王铮  李晓波

山东泰安烟草有限公司,山东泰安擂鼓石大街256号,271000

摘要:采用简单的随机抽样方案分析以海量数据为特征的大样本,可能导致估计结果无法有效代表总体,因而产生估计偏差。本文基于样本分配方法如何选择、分层标准和界限如何明确及分层层数如何确定等问题,首先分析抽样理论在海量数据环境下的可靠性,然后比较海量数据环境下每种抽样方法的优缺点,最后重点介绍如何定义分层标记和边界,如何确定层数及如何选择抽样分布方法,了解如何将分层抽样应用于大型数据集,从而设计以大样本为背景的分层抽样设计方法,探讨分层抽样方法在海量数据分析中的主要特征。

关键词:分层抽样;大样本;海量数据

在以海量数据为特征的大样本情况下,一般的,采用简单的随机抽样方法,可能导致样本无法有效代表总体,因而对估计精度产生影响,同时鉴于大样本也存在难于调查、不够精细等缺陷。为了缓解上述问题,本文基于分层随机抽样等方法,即在大样本进行分层随机抽样,同时对分层抽样技术进行优化,以探讨分层抽样方法在海量数据分析中的主要特征。

无论是基于小样本进行分析,还是依托海量数据为基础的大样本,在进行分层随机抽样时,均会遇到如下三个方面的问题:第一,样本分配方法如何选择?第二,分层标准与界限如何明确?第三,层数如何确定?通过对上述三个问题的解决,才能形成一个高效的分层抽样,统计与估的效率才会提升。在接下来的论述中,本文以海量数据为背景的大样本进行分析,分别针对上述三个问题,讨论如何进行高效的分层抽样分析。

一、分层标志与界限的明确

为了确定分层标记,通常可以从不同类型的辅助信息(可以是定性信息,也可以是定量信息)中选择分层标记

(一)分层界限的明确——基于定性信息

基于层差异小、层间差异大的准则采用定性辅助信息明确分层界限,是较为通用和简单的方式。理论上看,定性分层指标涵盖种族、性别等方面这些指标可以直接予以分类若定性辅助信息是类似行政分配这种具有层级关系的变量,在分类和识别时,就应当根据研究需要对这种层级关系进行深入区分。但是若在以大样本为特征的海量数据背景下,该定性分析方法也存在一定不足之处,例如在进行简单的人口抽样调查时,若按照人口能力、性别等定性等级进行划分,每一层次的样本容量还是较大的,那么在此基础上若要提高估计的有效性,需要在之前定性信息的基础上,进行二次、三次分层,来确定分层的层级或界限,直到达到适合的分层标准。但是,在正常决策过程中,很难找到合适的定性信息以对分层界限予以确定,为了对该问题进行解决,通过确定合适的定性辅助变量确定分层界限就显得至关重要。

对于总体的人群样本,假设对该样本进行H级别的划分比如设置y_0为人群样本中每个层级的限制,在该限制区间内,y_0y_H人群样本层级中的最小值与最大值,接下来,本文需要确定的是各个层级的界限,即y_1y_2......H-1Zakula2005)对此进行了细致分析,并做出研究假设如下:

fu)作为辅助变量y的密度函数,而且该密度函数是已知的,同时,令表示第n层的均值和方差,相关表达式如下:

上式中,LWh是分层的层级,在本文的随机分层抽样模型下,样本总体的均值

    (1)

                2

 L  (3)

上式中,LWh是分层的层级,在本文的随机分层抽样模型下,样本总体的均值

                   (4)

在本文的分层抽样模型中,样本均值是总体均值的无偏估计两,因此,就是总体均值的无偏估计。联立上面的式子,方差为:

                                (5)

上式中,fh是相应的分层抽样之比,在以大样本为特征的海量数据背景下,可以令,因此可得下式:

                 (6)

到目前为止,在分层抽样设计中,针对最优分层极限值的设计,已经转化为使估计量方差最小的问题,根据尼曼分布的基本原理,最优分层极限值应当满足如下关系:

   (7)

其中 h=1, ⋯, H-1。由于上述方程是非线性的,无法计算结果,因此在实际研究中通常使用Dalenius and Hodges(1959)提出的累积平方根方法进行分析,该平方根方法适用于研究变量未知的情况,并且可以使用所研究变量与辅助变量之间的相关性确定层次边界。

假设所研究的变量 y 和辅助变量 x 之间的关系满足以下关系:

    (8)

其中是满足的误差项,如果在h层中辅助变量x的方差为 的方差为,则将所研究的变量y与辅助变量x之间的关系简化为方程(1),得到满足边界的方程, 使 达到的最小值,如下所示:
                      (9)

其中 h=1,⋯,H-1,在所有分层中,若,上式可以简化为方程(7),从而可以得到辅助变量x的最优极限。在上述基础上,式

成立,其中 是第h层中变量y和x的相关系数,因此,变量y和x的相关性越高,辅助变量用于确定最佳边界的精度就越高。

(二)分层界限的明确——基于定量信息

定义分层标记的另一种方法是通过量化信息进行。在以大样本为特征海量数据环境下,当需要从种群中提取的样本数据量巨大时,由于大数据的稀疏性,很难准确反映种群的特征。例如,通过分析全国烟草商订单数据得到客户的特征,每个班次的样本数量可以包含在相应区域层对应的2-5个关键词中,同时囿于样本层的方差较大,班次中的数据相对分散,为此从样本数据中寻找特征数据所需的工作量较为巨大。对于该问题,在分层抽样中确定边界的具体程序将做出如下改进。在此过程中,程序改进的原则是对于数据集中的区域,减少抽取量,同时增加数据分散区域的抽取量,从而确保样本整体的基本特征。

1.假设分层抽样业务数据为,并将该数据集划分为A层进行描述,为了分析给定区域中样本数据的集中趋势,将给定区域的均值定义为数据中心值,即

   (10)

设为中心,并将业务数据按相同顺序均等分配至各个区域,区域划分的次数为H,如图 3.2 所示,各区域的划分过程如下:

如果A. A=1,则将平均分配总业务数据

B.在A=2时,人口数据被分成相等的部分,分为第一部分和其他相等的部分。

C.在2

D.在4