数据冲突的可信数据湖建设几点思考

(整期优先)网络出版时间:2022-03-29
/ 2

数据冲突的可信数据湖建设几点思考

祁洪波 左志芹

河北航天信息技术有限公司 河北石家庄 050000

【摘 要】为研究基于数据冲突的可信数据湖建设方法,本文围绕数据湖展开探讨分析,先简单介绍数据湖、数据冲突与数据校验,再分析解决数据冲突问题的重要意义,分析可信数据湖建设的制约因素,最后总结基于数据冲突的可信数据湖建设对策,通过构建数据可信矩阵细分数据湖中的数据,用户可以自行判断,从而选取适合的数据冲突消解方式,顺利完成基础的数据湖建设工作,保证数据一致性与可信度良好,满足跨地区跨行业的分布式数据湖建设的基本要求,希望可以为有关方面提供参考。

【关键词】数据冲突;数据校验;可信数据湖建设


跨地区、跨行业的分布式存储方式的数据湖建设中,存在数据可信度保障方面的问题,容易出现各种数据冲突问题。这主要源于数据湖建设时,不同来源之间的数据互相影响,无疑增加了数据湖建设中的信任问题,常常未能取得令人满意的数据湖建设效果。为此,可信数据湖的建设就显得极为必要。本文分析数据校验对于数据冲突解决方面的作用,并重点研究数据可信矩阵的建设,提出一些可靠的技术建议,以期解决基于数据冲突问题的可信数据建设问题。

1概述

1.1数据湖

数据湖(Data Lake)这个术语由Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)提出,他对数据湖的定义是,可以把所有的数据都放入数据湖中,应用数据时定义它的数据结构。也就是说,对于存储的数据,数据湖并不定义它的数据类型,数据湖可以存储各种类型的数据,并且通过统一的存储,让不同的数据都有相同的存储方式,而在数据应用的时候定义其数据结构,让应用方便连接到数据湖上获取数据。

1.2数据冲突与数据校验

现如今,诞生较多的信息系统平台,这些系统具有复杂性、先进性、智能性,涉及各种各样的数据形式,诞生庞大的数据湖。如果传输不同来源的数据信息等,则很有可能出现数据冲突的困扰。而数据校验则在降低数据冲突中起到很多的作用,为数据传输后的有效验证操作方式。具体而言,数据湖建设过程中,数据验证的作用主要体现在以下几点:(1)数据传输效率高,且可靠性良好。针对采用分布式存储方式的数据湖而言,为解决数据传输中的数据冲突,则可以使用低密度奇偶校验码等方式,通过校验提高数据传输可靠性,避免数据冲突。(2)针对人为篡改等因素而造成的数据冲突问题,可以利用数据校验功能进行数据一致性的检查,常见数据校验方法为数字签名等方法,从而验证数据是否出现篡改或者是否完成。

1.3解决数据湖建设中数据冲突问题的重要意义

  1. 利于复盘流程,及时发现工作异常。以工厂生产为例,通过解决数据冲突问题,提高数据湖的内在驱动力,复盘其生产系统之前是否存在异常。第二,利于补齐数据。如果数据源不同,则原始数据间可能存在数据冗余,通过将诶绝其中的数据冲突,加强数据湖建设,则利于补齐基础数据,挖掘其中的数据潜在价值。第三,利于排查风险隐患。若是数据湖使用探索过程中存在明显的数据冲突问题,则代表相关数据源运行状态存在异常,便于工作人员及时排查隐患,保证数据湖的可靠性。

2可信数据湖建设的制约因素

2.1缺少数据清洗

虽然可信数据湖建设极为重要,但是其中的制约因素很多,数据清洗的缺少就是一大制约因素。在数据仓库建设过程中,无论是数据可用性,还是数据可信性,通常一同采取人工处理解决方式。在由业务逻辑转为数据逻辑时,为确保进入数据仓库的数据合规,通常之前都需要进行原始数据的数据清洗。然而,数据湖的存储方式不受限制,均为自然格式存储数据,很多不同来源的数据都会直接进入数据湖,从而缺少数据清洗这一步骤。

2.2原始数据不一致

实际上,部分系统建设过程中,为兼顾各类功能,通常选用信息融合方式,所以原始数据准确性并不能得到很好地保障。然而,数据湖中并不包含其他信息融合算法,所以大部分模块数据存储中,都可能由于原始数据不一致,存在数据不规范的问题。

2.3趋向采用分布式存储

目前而言,由于计算成本和存储成本下降速度不同,所以,当前存储与计算分离成为主要的技术发展趋势之一,因此跨地区跨行业的分布式数据湖建设成为主要趋向。与此同时,数据冲突越小,数据可信度越高。所以,数据冲突问题的解决成为数据湖可信度提升的关键。

3基于数据冲突的可信数据湖建设对策

如图1所示,采用通用技术路径,利用数据冲突与数据校验之间的关系,结合可信数据湖建设进行分析,进一步细分数据冲突来源、数据非结构化程度,从而搭建相应的数据可信矩阵。通过进行数据细分,在冲突检测过程中能够区分不同类型数据,进一步加强可信数据湖的建设,便于用户自行判断选择数据冲突消解方式,最终获取一定经济效益。

图1中可以直接看到,x轴为数据非结构化程度,y轴为数据冲突来源,针对数据冲突发现途径而言,存在明显区别:(1)针对原始数据的冲突来源而言,如果存在数据冲突,则可以开展一致性检验、数据匹配检验方式等。(2)针对数据处理的冲突来源而言,则主要利用数据同步功能进行区别和判断,从中发现数据冲突问题。(3)针对于原始数据与数据非结构化程度之间存在的数据冲突,则可以采用文本匹配、图数据匹配、矢量数据匹配等方式。(4)针对数据处理与数据非结构化程度之间存在的数据冲突,则可以利用区块链技术加以校验和判断。需要注意地是,可信数据湖建设中,还需要配套的数据冲突消解工具,用户可以通过利用冲突检测功能自助解决不同来源数据使用中的信任问题。

62426b9219e52_html_cd0a0be730149af5.png

4结语

伴随多种数据形式的诞生,多类数据的利用需求有所增加,这些数据包含视频等非结构化数据,还包含数据表等结构化数据,同时还包括一些时序数据等。所以数据形式种类十分丰富,这也间接加快了数据存储方式的创新,数据湖的建设悄然兴起,成为很多人关注的重点。但是,如何建设可信的数据湖成为难点。为达到预期的建设效果,有关人员可以从数据冲突方面入手,利用数据检验功能的作用,检测各类数据冲突情况,进而解决其中的问题,为数据重构提供辅助作用,还可以提高数据可信度,最终用户能够探索不同来源的真实数据,达到预期的可信数据湖建设目的。


参考文献

[1]刘扬.数据冲突的可信数据湖建设[J].网络安全和信息化,2020(6):3.

[2]谷洪彬,杨希,魏孔鹏.基于数据湖的高校大数据管理体系和处理机制研究[J].计算机时代,2020(5):4.

[3]孙善宝,张桂红,于治楼,等.一种基于智能合约的数据湖融合数据安全分析方法:,CN110069932A[P].2019.