据甄别 和数据清洗研究综述

(整期优先)网络出版时间:2020-07-31
/ 3

据甄别 和数据清洗研究综述

文雯 1 ,周宏贵 1 ,尹晓峰 1 , 姜鑫 1 ,唐勋路 2

( 1. 湖南大唐先一科技有限公司,长沙 410007; 2 .株洲变流技术国家工程研究中心有限公司,湖南 株洲 412005)

摘 要:针对工业生产实时数据中存在数据异常和数据质量低的问题,对数据质量管理,尤其是数据甄别、数据清洗方法应用的研究进行了综述。说明数据质量的重要性,定义了数据清洗问题。主要阐述了电力行业数据甄别、数据清洗方面的研究,最后对数据质量管理的研究进行了总结。

关键词:数据质量;数据清洗;工业大数据;异常数据;数据甄别

Review of data screening and data cleaning research

WEN WenZHOU HongguiJIANG Xin

(Hunan Datang Xianyi Technology Co. Ltd,Changsha 410007, China)

Abstract:In view of the problems of abnormal data and low data quality in real-time data of industrial production, this paper summarizes the research on data quality management, especially the application of data screening and data cleaning methods. The importance of data quality is explained, and the problem of data cleaning is defined. This paper mainly expounds the research on data screening and data cleaning in power industry, and finally summarizes the research on data quality management.

Key words:data quality ;data cleaning; industrial big data; anomaly data; data discrimination

伴随着信息化的步伐,很多企业都建设了信息系统,基本实现了企业的信息化,依靠信息系统,对企业进行统一管理,促进生产管理的精细化,有效提高了生产效益,同时也积累了大量的业务数据。数据成为了企业的重要资源,为企业科学管理、正确决策提供支持。在提供海量信息的同时,数据的质量问题也带了不少困扰[1-3]。特别是伴随着计算机为主的信息技术的发展,数据质量逐渐被广泛关注。

数据质量是一个综合的研究领域,目前还没有对其的统一定义[4],一般的数据质量维度包括时效性、一致性、完整性、准确性,而数据在这4个方面的满足程度被定义成数据质量。数据质量从满足业务功能需求的角度来定义则是“满足数据使用者需求的程度”[5]。生产数据是围绕企业生产过程中积累的数据,这些数据是工业生产过程中价值增值的体现,是决定企业差异性的核心所在。企业用数据做分析,做决策,都必须建立在高质量数据基础之上。如果数据质量的问题得不到及时解决,数据分析和数据挖掘就不可靠,企业决策就会受到影响。

1 数据甄别方法

生产实时数据中经常出现与其他数据相比数值波动有着明显差异的观测点,也就是异常点。异常点破坏了工业系统生产实时数据的变化规律与特征,在用这些异常甚至错误的数据进行其他相关业务建模与分析工作时,容易增加模型的复杂度或者降低模型的有效性,有时还会导致错误的结论。因此,有必要对生产实时数据存在的异常数据进行检测与甄别,并对这些数据进行识别或剔除,从而提高数据的准确性及可利用价值,为开展业务分析提供科学、合理、可靠的数据保障6-9

异常数据检测可以及时发现数据时间序列中的异常点,提高数据质量,促进对故障测点及时的检测和维修。异常点检测作目前已经有很多的研究者在研究。

文献[10]提出一种基于长短期记忆网络的电力数据异常数据甄别方法。对电流、电压和功率等历史数据按时间顺序进行抽样,构建电力数据样本库; 其次,采用样本库进行模型训练,调整优化模型参数; 基于训练的模型,针对目标电表进行用电数据模拟,预测未来的电流、电压和功率序列; 计算电表数据实际值与预测值间的偏差,并设置偏差阈值,从而实现异常数据甄别。

文献[11]讨论了水电机组运行事件智能快速反应系统开发过程中实时自动智能数据库数据的预处理和甄别研究思路与算法实现,采用超量程范围数据判断与处理,异常或粗大数据处理与算法对异常数据进行处理。其中对异常粗大数据预处理采用的算法是拉依达准则(3

5f23e17429aa0_html_4ee4b3a47a9c84bf.png 准则)。

文献[12]采用统计学方法,结合燃煤电厂脱硫系统工艺原理,对脱硫系统数据进行自动辨识,实现了数据不变、数据超限、数据波动异常、参数耦合异常的自动甄别并告警提示,提高了采集数据的准确性。其中数据超限采用上下限来判断,数据波动异常通过测点小时变异系数超过阈值来判断,参数耦合异常通过计算相关测点的小时相关系数是否超过设定阈值来判断。

文献[13]针对输变电设备在线监测系统数据不准确问题,对系统数据进行过滤,剔除偏离较大的数据,采用阈值告警、突变告警和趋势告警得到数据告警信息,识别出不准确数据,提升监测数据的可用性。突变告警是通过监测值的变化率来识别。趋势告警指指标数值在阈值范围内,但连续多天呈上涨趋势,并且指标数值趋近于阈值。

文献[14]建立了基于多判据融合的用电信息采集系统异常数据甄别模型。对用电信息采集系统数据断点、异常点和现场实际运行数据情况进行统计分析,分别采用原型聚类法、密度聚类法、概率密度法和深度学习方法4种方法进行异常值甄别,验证了模型和方法的有效性。

文献[15]研究了解决 SCADA 数据全生命周期中各个环节的质量问题的关键技术,并串联形成数据质量的全过程解决方案。通过对运行数据传递的全过程分析,分析了在数据产生、数据传输、数据转化、数据维护和数据应用等各个环节可能产生的数据质量问题。利用点表校核、通道监视分析、定值参数自动校核等技术手段保证数据正确、顺畅地传递,预防数据质量问题的产生,同时利用变电站状态估计、告警数据挖掘和数据质量监测与评价等技术手段挖掘和发现存在的数据质量问题。

2 数据清洗

数据清洗的目的是检测数据中噪音和空值等异常,进行删除或修正,来提高数据质量。对于无效值及缺失值的处理,最常用的方法是删除数据,也可以根据一定的规则修正数据或者估算数据。数据清洗就是为了满足后续数据挖掘工作需求,进一步提高数据质量的预处理过程。数据清洗一般采用统计技术、数据挖掘及预定义的清洗规则的方法。

文献[16]通过分析风电机组数据采集与监控系统采集的风速功率数据,优化数据处理规则与数据分析过程,提出了最优组内方差清洗算法,该方法能准确地对数据集进行清洗,识别出机组发电性能正常和发电性能偏低的数据簇,得到机组总的正常数据集与异常数据集,清洗后的风电机组功率曲线效果较好,显著提高了风电机组性能分析的准确性。

文献[17]在分析风电机组风速-功率异常运行数据特征的基础上,提出了基于变点分组法与四分位法组合的异常数据识别清洗方法及流程,发现风速区间内如果有堆积型的异常数据,功率序列的变化率、均值、方差以及方差的变化率等数据的特征都会存在突变。采用方差的变化率作为变点分组依据时,用最小二乘法对方差变化率进行变点识别,数据清洗效果较好,数据损失量较少。所提出的变点分组-四分位法可有效识别风速-功率异常数据,清洗效果好,效率高。

文献[18]针对电厂生产运行数据集合中噪声数据,先采用箱线法进行异常值整体处理,然后基于局部异常因子算法进行局部异常值检测与处理。

3 结论

工业数据质量问题对工业数据分析及挖掘来说非常重要。对数据质量展开研究,从而研究出改善生产实时数据质量的技术和方法,提高生产实时数据质量,具有重大意义。

数据质量管理是指运用相关技术来衡量、提高和确保数据质量的规划、实施与控制等一系列活动。针对不同的数据需要用不同的数据检验和数据清洗方法来进行检测和清洗。工业大数据从数据采集到处理方式到实际应用需求复杂多变,难以用统一的数据质量标准进行数据评估。大部分情况下,应针对不同的应用需求、不同数据的类型、不同处理架构和不同应用领域的特征来设计具有针对性的数据质量改进手段,综合运用多种算法,才能取得良好的效果。

直线 8

参考文献:

[1]段成. 智能制造背景下工业大数据的数据质量控制探讨[J]. 机械设计与制造工程2018,47(2):13-16.

[2]刘金晶,曹文洁. 大数据环境下的数据质量管理策略[J].软件导刊, 2017, 16 (3) :176-178.

[3]张瑜,潘红芳.数据质量管理平台在内蒙古电力公司的应用[J].电力信息与通信技术,2014,12(3):104-107.

[4]王武.数据清洗方法研究及工具设计[D]. 上海:上海交通大学, 2011:3-5 .

[5]王志强,杨青海,岳高峰. 智能制造的基础—工业数据质量及其标准化[J].中国标准化, 2016,10:70-126.

[6]杨慧霞,邓迎君,刘志斌,等. 含有历史不良数据的电力负荷预测研究[J].电力系统保护与控制, 2017, 45 (15):62-68.

[7]刘浩,周文宇,张亚武.基于海量平台的水电生产实时信息系统数据稳定性及准确性问题的分析与解决[J].水电厂自动化,2017,3(5):57-60.

[8]周雪斌,李明. 基于实时数字滤波技术的火电厂运行数据分析[J].湖南电力,2012,32(6):38-41.

[9]杨婧,辛明勇,欧家祥.基于拉依达准则的计量自动化系统数据准确性判断方法[J].电力大数据,2017,20(11):74-78.

[10]罗慧,刘梅招,周钰山. 基于长短期记忆网络的智能用电数据甄别方法[J].广东电力, 2019,32(2):47-56.

[11]朱斌,张伟,沈平生. 实时自动智能数据库数据的预处理和甄别研究[J].测控技术,2012,37:241-244.

[12]孙虹,华伟,陈建明.一种基于燃煤电厂脱硫系统数据自动诊断甄别方法[P].中国:CN103955202A. 2014.04.11.

[13]张声圳,姚景祺. 状态监测异常数据过滤及告警机制[J]. 电力信息化,2013,11(1):5-8.

[14]祝永晋,马吉科,季聪. 基于多判据融合的用电信息采集系统异常数据甄别模型[J]. 广东电力,2019,32(9):184-192.

[15]邓彬,张宗包,郝蛟.电网运行SCADA数据质量管控平台的研发与应用[J].电信科学,2017,151(1):156-161.

[16]娄建楼,胥佳,陆恒.基于功率曲线的风电机组数据清洗算法[J].电力系统自动化,2016,40(10):116-121.

[17]沈小军,付雪姣,周冲成.风电机组风速-功率异常运行数据特征及清洗方法[J].电工技术学报,2018,33(14):3353-3361.

[18]文雯,刘文哲,肖祥武. 基于大数据和并行随机森林算法火电机组供电煤耗计算模型[J].热力发电,2018,47(9):9-14.

作者简介:

文雯(1989),女,湖南岳阳人,工程师,硕士研究生,主要研究火电厂数据质量管控及电力行业信息化研究;