大数据分析在众包任务定价优化中的应用

(整期优先)网络出版时间:2023-11-07
/ 2

大数据分析在众包任务定价优化中的应用

罗良夫

武汉晴川学院  湖北省武汉市  430074

摘要:众包是一种创新的商业模式,越来越多的企业采用这种模式提升工作效率以及缩减成本,众包任务定价是决定该商业模式是否成功的关键因素。本文通过分析众包任务的历史数据,分析数据间的规律,采用MLP多层感知器模型构建众包任务定价模型,为企业在定价时提供科学依据。

关键词:大数据分析;众包任务;定价优化

1.引言

近几年随着国内互联网技术的飞速发展,各行各业的都将业务形式从线下转到了线上,甚至产生了众包这种基于互联网的特有商业模式。众包任务指的是一个任务发布机构将原本由固定人员完成的任务,面向非单位的社会人员进行外包,充分利用社会资源、提高工作效率,比如美团、饿了吗与滴滴等许多大型互联网公司都采取这种任务发布方式。由于互联网技术不受时间与空间的限制,这种依托互联网的自助式任务发布平台,不仅可以快速的发布任务,还能提供各种信息搜索等服务,相较于传统的用工方式,能够较大的节约成本,提升了工作效率。

影响众包任务是否能够有效发布的因素有很多,其中任务价格确定的是否合理是其关键因素,过高的任务价格会导致任务发布方成本过高、任务收益较低,过低的任务价格会导致任务吸引力不,无人接受任务导致任务发布失败。由于众包任务一般具有任务数量众多,且众包对象是面向整个社会,任务接取人员数量庞大等特点,为了能够合理的确定众包任务的定价,大数据分析技术能够较好解决此类问题。

本文从分析影响众包任务定价的因素出发,根据大数据分析的工作流程,制定合理的数据分析指标,对数据源进行预处理,采用神经网络进行定价模型的构建,并定价模型进行评价,最终确定最优的众包任务定价方案。

2.众包任务定价模型

2.1众包任务定价的数学模型

    互联网众包平台保存了大量众包任务的历史数据,通过对数据中各字段的分析,确定哪些数据项与任务定价有关联关系,不同字段数据对定价的影响程度不同,需要调整合适的权值来与真实情况保持一致。众包任务定价模型的数学模型可以描述为:

其中,x为众包历史数据集合,y为预测的定价数据,为输入参数的权值,f( )为激活函数。

2.2MLP多层感知器模型

众包数据主要包括任务的地理、价格、发布时间等信息,各个数据项之间的线性关系较弱,所以采用非线性模型构建众包任务的定价模型。由于众包任务定价模型属于将多个输入集映射到单个数据集的情况,这里采用较为经典的Multilayer Perceptron模型对众包任务定价进行建模。

MLP多层感知机属于前馈型人工神经网络模型,适用于将输入的多个数据集映射到单一输出集上的情况。

 

 

 

 

 

 

   

 

 

图1 多层感知机结构图

多层感知机除了输入输出层,它中间可以有多个隐层,多层感知机中输入层与隐藏层、隐藏层与输出层之间是全连接的,且每个隐藏层的输出通过激活函数进行变换,多层感知机的层数和各隐藏层中隐藏单元个数都是超参数。

具体来说,给定一个小批量样本I ∈ R m × n ,其批量大小为m,输入个数为n,设当前隐藏层数量为1,其中隐藏单元个数为h,设隐藏层的输出为H,H ∈ Rm× h。隐藏层和输出层之间是全连接,设隐藏层的权重参数为h ∈ R n× h ,偏差参数为p h ∈ R 1 × h ,输出层的权重参数为o ∈ R h × q,偏差参数为p o ∈ R 1 × q,单隐藏层多层感知机的输出计算公式为:

  其中f表示激活函数。

在以上两个公式中在从输入到输出的线性变换基础上,多了一步隐藏层的变换,但是上式隐藏层的变换仍是一个线性变换,对输入进行多此的线性变换之后,所得结果仍然是线性变换的结果。

    为了使模型具有非线性,需要对模型作非线性处理,即在仿射变换后对每个隐藏层元素添加激活函数。 激活函数计算后的输出称为活性值,添加激活函数后的隐藏层变换公式如下:

   常用激活函数如下:

(1)ReLU函数

   ReLU函数的输出为输入值x与0之间的最大值,ReLU函数通过将活性值设为大于等于0,保证函数输出结果为非负值,ReLU函数公式如下:

(2)Sigmoid函数

Sigmoid函数将实数域输入变换为区间(0, 1)上的输出,适合用于进行归一化的操作的场合,Sigmoid函数公式如下:

(3)tanh函数

tanh函数称为双曲正切函数,其功能是将实数域输入变换成(-1,1)区间上的输出,tanh函数的公式如下:

3.众包任务的优化步骤

(1)指标分析与计算

   本文选取的某移动APP的众包任务数据,通过对数据源中各字段的分析得知,众包任务的定价与某个区域内任务数量、某个区域内任务接取者数量有关,还与任务的难度等级有关,根据数据源的特点,设计出如下指标:

1)指定区域内任务总数量

   计算以某个任务目的地为圆心,以指定距离为半径的圆形区域内的已发布任务总数量。

2)任务平均价格

   计算以某个任务目的地为圆心,以指定距离为半径的圆形区域内所有任务价格的平均值。

3)任务接取者总数量

   计算以某个任务目的地为圆心,以指定距离为半径的圆形区域内可接取任务人员的总数量。

4)任务难度等级

   计算以某个任务目的地为圆心,以指定距离为半径的圆形区域内已发布任务的难度等级平均值。

5)任务所处时间段

   计算当前任务所处的时间段属于高峰时间段还是低谷时间段,对于高峰时间段还需要区分属于早高峰时间段还是晚高峰时间段,对低谷时间段需要区分是白天时段还是夜晚时段。

(2)指标数据预处理

   由于众包任务数据中存在部分空值、部分数据值之间差异过大等问题,直接对指标数据进行分析会产生程序失败,或者分析结果不全面等问题,在对数据进行分析之前需要对其进行预处理,具体步骤如下:

1)空值处理

    本文采用Python语言作为数据分析语言,通过numpy包的save方法与load方法保存与读取指标数据,通过pandas包中数据框的fillna方法对指标数据进行空值填充。

2)相关性分析

为了提升数据分析的效率,对指标数据进行相关性分析,本文采用pandas包中数据框的corr方法计算指标数据的相关性大小。

3)标准化处理

为了避免定价模型在计算过程中数据间差异过大导致的结果失真的问题,对指标数据进行数据规范化操作,这里采用sklearn包中StandardScaler对象进行指标数据标准化处理。

4)主成分分析

对指标数据进行标准化处理之后,接着对指标数据作主成分分析,进一步缩减计算量,使用sklearn包中的PCA对象进行主成分计算。

5)众包任务定价模型的构建

众包任务的价格与指标之间的线性关系不强,本文采用非线性的多层感知器模型进行定价模型的构建,本文采用sklearn包中的MLPRegressor对象构建模型,通过fit方法将经过预处理的指标数据作为输入,将历史数据中的任务价格作为输出,对模型进行训练调整参数值。 

4.结束语

    众包是目前一种新型的商业模式,众包任务能够有效的提升工作效率、缩减成本,定价是众包任务要考虑的核心问题之一,本文通过分析众包任务历史数据的规律,采用非线性的MLP多层感知器模型建立众包任务定价模型,对于企业对众包任务进行合理定价提供了科学的依据。

参考文献

[1]林韦达,董红斌,赵炳旭.基于纳什竞价的空间众包任务定价算法[J].计算机科学,2023(07).

[2]顾永跟,于再溥,陶杰.基于众筹预售和众包生产的两阶段最优定价机制[J].计算机应用研究,2023(08):2423-2428.

[3]黄静静,陈荔,赵嫄.分享经济下考虑众包物流平台投资建设和竞争定价研究[J].上海理工大学学报,2022(03):299-307.

[4]陈咏晖,胡矗明.移动众包平台的任务定价模型优化策略研究[J].科技管理研究,2022(01):149-155.

[5]梁玉秀,吴丽花.基于政府政策规制的众包物流定价策略研究[J].运筹与管理,2023(01):206-212.