电力大数据的多数据流实时处理技术分析

(整期优先)网络出版时间:2021-05-07
/ 2

电力大数据的多数据流实时处理技术分析

周志翰

广东卓维网络有限公司 广东佛山 528200

摘要:随着电网终端采集装置的大范围安装与现场应用,越来越多的电网业务应用具备了数据实时采集的能力。为了充分发挥实时采集的电网数据价值,要求技术发展能够适应大规模电网数据流实时处理的新要求。然而,当前电力大数据的处理方式仍以传统的数据批处理为主,而大规模电网数据流在实时性、无序性、无限性、易失性、突发性等方面均呈现出了诸多新特征,使得基于“先存储后处理”设计理念的数据批量处理在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面面临着前所未有的新的挑战。类似于MapReduce的离线处理并不能很好地解决问题,而流计算可以很好地对大规模流动数据在不断变化的运动过程中实时地进行分析,捕捉到可能有用的信息。

关键词:电力大数据;多数据流;实时处理;技术分析;

引言

随着电网终端采集装置的大范围安装与现场应用,越来越多的电网业务应用具备了数据实时采集的能力。为了充分发挥实时采集的电网数据价值,要求技术发展能够适应大规模电网数据流实时处理的新要求。然而,当前电力大数据的处理方式仍以传统的数据批处理为主,而大规模电网数据流在实时性、无序性、无限性、易失性、突发性等方面均呈现出了诸多新特征,使得基于“先存储后处理”设计理念的数据批量处理在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面面临着前所未有的新的挑战。类似于 MapReduce 的离线处理并不能很好地解决问题,而流计算可以很好地对大规模流动数据在不断变化的运动过程中实时地进行分析,捕捉到可能有用的信息。

一、电力大数据流计算服务体系

电力大数据流计算服务体系是为了屏蔽分布式多数据流处理的底层技术细节,通过将高性能的数据流计算能力、具备高时效性的数据流在线分析能力、融合多类数据来源的关联分析能力、支撑流处理的资源管理及调配能力进行封装,根据应用请求和用户行为设计不同层面的流计算服务,构建面向电力运维管理人员、应用开发人员、数据分析人员、业务人员等不同用户的高层次概念模型。

1.1面向电力数据分析的分析服务

提供数据流分析算法、模型构建与评估、模型流程发布、模型流程管理等服务。分析算法包括单数据流的在线随机优化算法和多数据流的协同分析算法;模型构建是指训练并得到数据挖掘模型,模型评估帮助用户对数据挖掘模型的准确度进行分析,用户可基于模型评估结果进行参数优化配置;模型流程发布是指将数据挖掘模型流程进行发布,为电力业务应用系统提供流式数据实时处理功能;模型流程管理用于管理平台发布的数据挖掘模型流程服务包括的版本管理、停用预测等。

1.2面向电力应用开发人员的编程服务

面向电力应用开发人员提供分布式消息队列输入、流处理初始化、数据转换、计算任务分配及调度等编程接口。电力应用开发人员只需在相应的编程接口中编写相应的电力业务实时处理逻辑即可,并通过参数化设置,例如计算模式、监听源地址等,将编写的程序和配置发布到电力大数据实时流计算处理平台,实现计算任务部署应用。

1.3面向电力运维管理人员的监控服务

电力大数据实时流计算处理平台提供统一实时监管服务,可定期将计算任务的数据规模、处理进度、资源占用等信息反馈给分级资源管理器,再由分级资源管理器将监控状态信息实时反馈至中心资源管理器,并以图、表等可视化的方式向电力运维管理人员展现流式计算任务各层级处理状态。

二、电力大数据流计算技术框架

结合相应的大数据体系,采用较为先进的技术进行整体框架的搭建,形成较为可靠的运算、采集平台,其核心的功能在于即时采集、数据计算以及有效存储等。

2.1数据即时采集

数据的采集是电力大数据分析计算的基础前提,能够有效的实现实时采集将对未来的数据处理、模型建立打下良好的基础,但是就数据采集与数据处理之间并不一定能够达到同步的效果,那将造成一定的误差,为此需要设立一定的数据缓存来进行方便数据的处理,缓存区一般采用内存缓存与文件缓存两种方式,可以极大的提高数据处理的高效性与安全性。

2.2数据实时计算

基于电力大数据实时流计算处理平台,采用滑动窗口的方式进行多电网数据流输人,利用电力多数据流协同计算方法,进行数据流之间的异步协同优化,实现多数据流实时处理。

2.3数据高效存储

当多数据流实时处理结果比较小、重要性不高时,可以直接存储到分布式列式数据库。该方法的缺点在于数据存储的稳定性不够,可能出现数据丢失的情况;当多数据流实时处理结果比较大、重要性较高时,可以通过分布式消息队列Kafka,再存储到分布式列式数据库。该方法的好处在于充分利用了Kafka缓存机制,能够确保数据不丢失。随着现代社会生活节奏的变快,人们愿意用有限的时间,最便捷的方法解决就医的过程。目前国内医院通过各种途径开展了医疗业务的预约服务,体现了以患者为中心的服务宗旨。实行预约输液不仅为患者提供了优质的护理服务,有效地解决了患者排队等候时间长、候诊环境差的问题,且提高了护士的护理质量和工作效率,保证用药安全,患者的满意度也明显提高。

2.4大数据分析与挖掘

为了从体量巨大、类型繁多、生成快速的大数据集中寻找出更高的价值,需要大数据分析与挖掘技术帮助理解数据的语义,来提高数据的质量和可信度。由于大数据时代数据的复杂特征,传统的数据分析技术如数据挖掘、机器学习、统计分析已无法满足大数据分析需求,有待进一步研究改进。目前,关键的大数据分析和挖掘技术是云计算技术和可视化技术。云计算技术中的分布式文件系统为大数据底层存储架构提供支撑,基于分布式文件系统构建的分布式数据库通过快捷管理数据的方式来提高数据的访问速度,同时,通过各种并行分析技术在一个开源平台上处理复杂数据,最终通过采用各种可视化技术将数据处理结果直观清晰地呈现出来,帮助用户更简单方便地从复杂的数据中得到新的发现和收获。

三、电力多数据协同计算

多数据流的并行处理主要是由并行计算架构和并行算法模块实现,通过对各数据流处理的中间结果缓存,进行分析任务的分布及结果合并。不同的数据流需要不同的计算体系以方便进行系统连接,目标函数的优化计算采用交替方向乘子 989 第46 卷法(Alternating Direction Method of Multipliers,AD-MM)并行优化算法,实现不同机器之间的信息交互共享和同步处 。将数据流进行具体的划分结合成数据块,每一个数据块可以分给不同 Workers 进行处理,同时又可以进行继续划分成下一级的服务器,其中服务器可以进行相应的分区,通过一步步详细的划分使得无论是数据的提出还是处理更加高效。这样,训练数据、模型、参数都可以并行处理,系统因而就具有很好的可伸缩性。同时,部分 Worker 宕机不会影响到其他模型训练服务器,系统的容错性也很好 Worker 还可进行一批多次迭代后才更新参数到参数服务器。

四、结束语

本文基于电力大数据面临的实时处理需求,研究构建了面向多用户的电力大数据流计算服务体系,搭建了电力大数据实时流计算处理平台,并在实验环境下以用户电量计算为典型应用场景,基于同一测试基准对面向电力大数据的多数据流实时处理平台和国内某公司的实时流计算处理平台进行测试对比,取得预期效果。另外,考虑到电力大数据环境的复杂程度,以及电力大数据处理的实时性高要求,下一步将重点开展电力大数据多数据流的广域分布式异步协同分析方法研究,解决广域范围内电力数据流实时关联分析的同步及大尺度问题。

参考文献

[1]蔡斌雷,郭芹,朱世伟,等.面向大规模流数据的可扩展分布式实时处理方法[J].青岛科技大学学报(自然科学版),2016,37(5)

[2]朱征,于帅鹏,赵志刚,等.基于流计算的实时监控预警架构研究及应用[J].华东电力,2014(11)

[3]王春凯,孟小峰.分布式数据流关系查询技术研究[J].计算机学报,2016,39(1)