基于均值聚类的劳务众包定价模型

(整期优先)网络出版时间:2017-12-22
/ 2

基于均值聚类的劳务众包定价模型

郭子健1,2门晓君1,2丁尚尚1,3钟丽1,4

1.华北理工大学数学建模创新实验室河北省唐山市063210

2.华北理工大学理学院河北省唐山市063210

3.华北理工大学机械工程学院河北省唐山市063210

4.华北理工大学矿业工程学院河北省唐山市063210

摘要:在移动“互联网+”的时代,为了更加方便快捷的进行信息搜集和商业检查,一种自助式劳务众包平台服务模式“拍照赚钱”应运而生。

关键词:均值聚类算法;二分类Logistic回归模型;定价规律;劳务众包

引言

“众包”这一概念是由美国《连线》杂志的记者杰夫•豪在2006年6月提出的[1]。但其所描述的商业实践,却早已存在。互联网的出现导致大众沟通成本的大幅降低,是现代意义上的众包活动成为可能的直接原因。2013年,林素芬提出了众包的价格理论和悬赏金分配制度,并对其作出诠释,价格决定于需求和供给,当需求大于供给时,价格上涨;反之,价格下降。劳务众包平台的定价存在不确定性,不公平性,使得网络的众包平台发展受到阻碍,甚至会淹没在众多的app中。因此,对定价规律的研究存在重大意义,为未来的任务定价进行优化存在极大的帮助。

1模型的建立

1.1数据的预处理

首先对搜集的广东省的经纬度采用GPSspgxGeocoding工具得出相应的详细的地理位置,并对地理位置进行市级区域划分。对于任务分布情况的信息数据,剔除其中的异常数据。

对于会员信息的分布数据,由于任务的分布都在广东省内,非广东省会员去完成任务的可能性很小,所以将这些会员进行剔除后对任务完成情况的影响不大,且可忽略不计。将广东省进行市区划分,从划分结果来看,会员的信息分布相对集中,所以将广东省的部分离散会员的信息进行剔除。

将现有数据进行异常数据剔除后再利用matlab画出散点图,可以很直观明了的看出任务的分布区域、任务的执行情况以及会员位置的分布情况。从散点图中可以看出任务分布面太广,无法清晰明确地得出定价规律,因此采用K均值聚类进行分析,对数据集中的个体进行划分。

1.2K均值聚类模型

K均值聚类算法是一种自适应搜索算法,我们通过迭代不断调整聚类中心,最终将任务分布集中的个体划分为K类,使得所有个体到其所属类的类中心的欧氏距离之和最小。

K均值聚类的迭代过程可以描述为如下:

(1)按照最大化最小化原则,选定K个任务点作为K个子类划分的初始类中心。

(2)计算各任务点到类中心的欧氏距离,按照最近邻原则将其划分到各类中心表示的子类中,得到K个子类数据集。

(3)计算各个子类数据集中各点的平均值,把该平均值作为该子类新的类中心。

(4)计算所有数据点到其所属类的类中心的欧氏距离之和,判断类中心和的值是否发生改变。如果是,就转到(2);如果否,就转到(5)。

(5)终止迭代,算法结束。

2模型求解

2.1K均值聚类求解

对于任务完成情况的数据,首先通过随机选择数据的方式在任务完成数据中选出4个任务点作为初始聚类中心。

经过10次迭代,求取各个子类数据集中各点的平均值,得到最终的聚类中心的经纬度。

将运用K均值聚类得出的4类数据与任务完成情况中的其他经纬度进行两两距离求解,得出一组4*833的距离矩阵,取每行的最小值作为最终的距离,再对所得距离与定价之间的关系进行数据统计。

将求取得平均距离与任务定价利用matlab进行高斯拟合,其拟合程度为0.9294,因此拟合效果好,由拟合图可以看出,任务定价的规律与距离相关。

在距离为0.1144-0.12、0.1369-0.1495和0.1608-0.1717时,随着距离的增大任务定价急速升高,在距离为0.12-0.1369、0.1495-0.1608和0.1717-0.18时,随着距离的增大任务定价急速减小。

2.2基于二分类Logistic回归的决策模型求解

从相关数据可知,通过sig值可以知道如果将模型外的各个变量纳入模型,因为sig<0.05,则说明整个模型的拟合优度改变具有统计学意义。

对模型的全局检验,为极大似然比检验,共给出三个结果,同样Sig<0.05表明有统计学意义。

分类表展示了使用该回归方程对case进行分类,其准确度为64.2%。

最后是输出回归方程中的各变量的系数和对系数的检验额值,sig值表明该系数是否具有统计学意义。到此,回归方程就求出来了。

由回归方程可以看出,未完成任务的原因有两个,分别为任务定价和距离,其权重分别为0.106和1.837,其中距离占主要原因。由图2中的会员位置分布情况来看,在一定程度上影响任务执行情况。

3结论

本文以广东省的数据为例,综合分析劳务众包平台服务模式“拍照赚钱”的定价规律和部分任务未完成的原因。采用均值聚类算法得出聚类中心的数据,以求取每类数据中的相对距离,利用matlab将平均距离与任务定价进行高斯拟合得出定价规律:在距离为0.1144-0.12、0.1369-0.1495和0.1608-0.1717时,随着距离的增大任务定价急速升高,在距离为0.12-0.1369、0.1495-0.1608和0.1717-0.18时,随着距离的增大任务定价急速减小。对于部分任务未完成的原因,采用二分类Logistic回归模型,得出的回归方程中任务定价和距离的权重分别为0.106和1.837,因此距离占主要原因。本文结论可以对该平台优化任务定价存在助力,可以就距离因素来讲,将距离相近的任务打包给一个会员,由于距离相近,任务完成时间明显减少,对任务的定价可以相对减小。

参考文献

[1]林素芬,林峰.众包定义、模式研究发展及展望[J].科技管理研究,2015,35(04):212-217.

[2]林素芬.众包商业模式特殊性的理论诠释[J].长春大学学报,2013,23(05):544-546.

[3]王雪光,陈淑红.基于K均值聚类的成熟草莓图像分割算法[J].农机化研究,2013,26(1):51-52.