油气行业实时数据接入数据湖方法研究

(整期优先)网络出版时间:2023-12-07
/ 2

油气行业实时数据接入数据湖方法研究

田鑫

大庆油田信息技术公司,黑龙江省大庆市,163453

摘要:油气生产过程中形成的海量实时数据及其历史数据,在油田数字化、信息化建设中的重要组成部分。但由于种种原因实时数据的质量管理面临较大挑战,数据湖作为一种常见的数据质量管控系统,能够协助数据治理,因此实时数据接入数据湖有毋庸置疑的重要意义。本文结合实践经验,对实时数据入湖方法进行讨论。

关键字:物联网;数据湖;数据治理

  1. 油气生产物联网实时数据采集现状

目前,随着信息化在能源行业的普及,各流程产生的实时数据在实时监控、生产分析、安全预警、运行调度、数据管理等方面都发挥着越来越重要的作用。但由于现场环境和历史原因,实时数据的产生、传输、存储方式都有着巨大差异。从产生的数据格式来说,既有不同传感器产生的浮点型 (Float)、字符型、布尔型(Boolean)等格式,又有专业设备产生的功图数据,大多数参数直接采集,一部分参数通过计算产生。从传输方式来说,物理上都基于有线网或无线网连接,但协议上有OPC协议(OLE for Process Control, 用于过程控制的OLE),Modbus协议(串行通信协议,工业电子设备之间常用的连接方式),MQTT(Message Queuing Telemetry Transport)协议,甚至有些场景采用自定义的私有协议。从存储和使用方式来说,既有多种实时数据库可以选择,也有使用关系型数据库来进行使用。综上所述,实时数据产生方式、传输过程、存储使用方式等错综复杂,难以统一。但在实际生产中,这些实时数据又有着重要的意义。

  1. 实时数据治理现状

当所有数据都集中在一个系统中时,访问和处理数据的效率就得到了提高。团队在处理实时数据时,可以更快地响应,更有效地解决问题。组织内外的工作人员可以更有效地合作。因此,有必要把实时数据与结构化数据相关联。数据湖的建设过程中,存在数据质量问题。包括数据重复、数据不准确、数据缺失、数据无法关联、数据更新中断等问题。在油气田企业数据治理过程中,首先基于EPDM(集团公司勘探开发数据模型)对元数据和主数据进行梳理,理清数据需求现状,将实时数据与主数据进行一一对应,解决数据关联性的问题。再确定单一可信的数据源,统建系统有一定的数据治理基础,标准编码相对统一,因此以公司统建系统为主,自建系统为补充。最后,针对不准确、可信度低的数据进行排查,相应数据来源进行自查,保障数据准确、及时。在数据湖数据库的选择上,选择时序数据库可以便捷汇聚多种来源,多种传输协议的实时数据,并对其进行简单的整合。

  1. 时序数据接入研究

在油气企业中,实时数据的数据源多种多样,下面对常见接入方式进行分别讨论:

(1)基于Modbus协议的数据:Modbus是一种串行通信协议,已经成为工业领域通信协议的业界标准,并且现在是工业电子设备之间常用的连接方式。目前在油气企业广泛使用的是其子版本Modbus/TCP协议。由于这类设备部署分散,一般已经在各作业区的服务器上进行汇总,因此只要利用已经在作业区部署的采集平台,同步作业区实时数据库即可,不需要单独开发。

(2)基于OPC协议的数据:是一个工业标准,管理该标准的国际组织是 OPC 基金会。OPC 出现的目的是为不同的供应商设备与应用程序之间的接口标准化从而使其间的数据交换更加简单,可以开发不依靠于特定开发语言和开发环境的、可以自由组合的过程控制软件。在油气企业中,OPC协议应用非常广泛。并且许多自建系统的数据源通常使用OPC协议进行传输,通过编写组件实现高并发对OPC进行通信并将数据存入。

(3)基于MQTT协议的数据:MQTT(Message Queuing Telemetry Transport,消息队列遥测传输协议),是一种基于发布/订阅范式的“轻量级”消息协议,由 IBM 发布。大多数新建数据源和系统都支持此协议。使用时序数据库的接口直接调用即可。

(4)基于使用API发布的数据:有些数据源不提供额外接口或接口需要额外费用,比如霍尼韦尔公司的实时数据库PHD。只能利用其提供的API进行针对的程序开发。

随着信息通信技术的发展和创新,网络基础设施也在不断向新的方向发展。加强基础设施建设和展开新技术的应用,其核心价值都在于通过对数据传输过程实现安全保护,进一步提升油气田企业生产水平。在企业增效方面,首先,网络基础设施投入是一种固定资产投资,直接表现为企业生产总值的增加;其次, 网络具有全天候运行、虚拟化、不可逆作业、高风险的特征,在目标任务较多、责任较大、工作无弹性的情况下以提升网络基础设施做好网络运维管理工作,可以大大节约人力物力资源,加快了人力资本积累;再次,信息网络基础设施投入具有溢出效应,人们利用网络进行互动学习,提升了信息共享速度等,从而间接提高了生产效率,增加了经济总产出。

4.结语

本文针对油气行业产生的各类多源异构数据的数据入湖工作进行了探讨。首先分析了实时数据的重要性和现状。其次讨论了治理实施数据的必要性和数据治理需要性。最后针对不同数据源的实时数据接入做了简单的探讨。

参考文献:

[1] 油气生产物联网中实时数据管理系统的功能研究[J]. 滕奇刚. 中国管理信息化. 2023(04)

[2] 数据湖的数据质量提升关键技术与应用研究[J]. .  智慧中国. 2023(08)

[3]基于多源异构数据湖平台的电力信息通信多源异构数据清洗方案[J]. 石俊杰.赵子岩.何永远.闫龙川.彭元龙.马睿.王锦诚.  电力信息与通信技术. 2023(07)