大数据时代自动化运维管理发展策略解析

(整期优先)网络出版时间:2019-01-11
/ 2

大数据时代自动化运维管理发展策略解析

王佳伶张秀琳徐文璐

(博尔塔拉供电公司新疆博尔塔拉蒙古自治州833400)

摘要:近年来,网络技术在各行业得到了广泛应用,且数据信息向着多元化、海量、迅速更新等方向发展,这对改革社会经济生产模式具有一定推动作用,且影响着原本的运维管理模式。本文分析了自动化运维构架思路,研究了自动化运维管理发展策略。

关键词:大数据;自动化运维管理;发展策略

引言

在大数据技术迅速发展的同时,多个数据中心使用了多种集群设备,设备、系统数量及业务复杂性在逐渐增高。传统人为管理、记忆管理等管理方式已不能满足社会发展需求,同时将引发基础配置信息不完整、共享不充分等问题,其将影响运维管理工作效率及质量。采用自动化运维管理模式,利用平台实现自动化运维,可在减少人为操作失误的同时,有效处理大规模集群频发问题。

1.自动化运维构架思路分析

研究发现,数据中心规模不够大时,其发生故障的几率也较低,且问题也不够突出,随着集群、业务规模的增长,集群规模将逐渐增大,其发生故障的几率也将增高,如:网络设备数量逐渐增多,网络传输需要经过复杂的路径,因而其出现故障的几率也将增高。实际运维管理工作中,随着工作量的增高,工作人员在配置软件是经常出现遗漏问题。部分设备在运行环境复杂程度增高后,对于工件稳定性要求将逐渐提高,如:某些设备不能接收部分协议指令,因而在执行此类指令时将遇到一些风险。建立自动化运维管理系统的主要目的是提升运行稳定性、执行效率。简言之:在配置人工操作代码时可能出现错误,使用计算机可保证此过程的正确性,而操作代码的配置工作属于简单、重复性工作,使用计算机进行可有效提高配置效率。自动化运维构架需由变更、问题排查、硬件维护等多方面进行。

1.1重视配置管理基础

大数据时代背景下,数据信息量增多、且信息传输量也在逐渐增高,建立自动化运维管理平台,使用计算机程序传达各种指令,可降低指令传达中出现错误的几率,但是基础设施中软件、硬件的配置将影响数据集群的整理、处理,因而需通过一定关系进行CI设计管理,并加强对不同集群数据运维关系的分析及研究,为自动化运维管理工作奠定坚实基础。在此环节需依据数据业务之间的联系进行科学设计,并建立基于CI配置关系的运维模式图。

1.2加强日志数据支持

传统数据运维管理工作中,以开始应用配置管理理念,依据不同规则将不同CI联合在一起。然而传统数据运维管理模式并未充分展现此管理制度的优点。大数据集群管理工作中,是否充分展现了配置管理的优点?我们可充分利用日志,利用CI关联路径自动定位解决相关问题。

图一CI配置关系图

数据信息接收之后,CI配置关系将依据设计关系规则对数据信息尽心筛选。日志服务中可通过索引查询相关过滤信息,我们可利用计算平台进行处理及分析,把处理结果存储到数据库中。

采用此种结构可避免传统运维管理模式盲目排查问题,可迅速定位问题并解决这些问题。尤其是网络较为拥堵需要排查异常流量时,可迅速定位问题,比如:所有业务都了解端到端的路径,可通过日志记录查询偏离基线的链路,进而将问题定位到具体的业务或CI,保证问题排查工作层次分明。简言之:采用此种结构,可提升故障排查效率,迅速定位问题。通过实时架构计算、处理这些信息,可准确展现业务实时流量及瓶颈。

1.3自动化变更

传统运维管理模式当中,若需变更,需科学编制变更方案,之后通过逐层审核并确定执行方案,在此情形下变更过程将面临一定风险:首先,工作人员并不能预制变更之后是否会影响数据安全性;其次,变更之后将引起其他变更。在此情况下,可积极引进工作流平台,利用自动化技术完成日常变更,数据集群转移较为稳定的工作日则可自动化变更,也可通过工作流平台对其进行审核、执行多种类型变更,规避日常变更存在的多种风险。

图二日志数据分析架构

1.4硬件排查

虽然与传统运维管理模式相比,自动化运维管理模式故障几率较低,但是其也存在硬件方面的问题,若发现问题需及时进行检查及维修。传统运维管理模式中,大多采用人工检修方式对所有硬件设备进行检查,同时学科学制定硬件设备检修周期,若发现硬件设备存在问题需及时将数据转移到其他以免信息安全受到威胁,整个检修过程较为复杂且极易出现其他故障。使用自动化运维管理模式则不需采用人工检修方式对所有硬件设备进行检查,我们可在阈值外进行自动化检查及监管,简言之:使用配置架构、逻辑关系对硬件系统进行检修,迅速了解硬件故障种类及故障位置,工作人员可迅速处理异常硬件问题,尽快恢复其正常运行。

1.5交付检查

为保证数据集群信息可顺利传输、交流,需要软硬件系统的配合及交付。在此环节,工作人员可利用工作流平台检查硬盘、网卡CPU等基础硬件配置,比如:在对硬盘进行软件交付检查时,可采用不同强度读写压力、不同大小块分析硬盘表现稳定性是否符合相关规定;在对内存进行检测时,大多采用stream方法进行检测,即通过多次复制、读写、运算分析内存指标是否存在较大问题;在对CPU进行检测时,需通过绑定某个CPU计算π值的方式了解消耗时间分布情况,并利用曲线分析其指标偏离情况。

部分问题在进行交付检查时可能出现误判的情况,如:读写速度并不一定时硬盘问题导致的,也可能是由于异构机器配置致使HDFSbalancer平衡速度与读写速度不符;同时写入数据切片大小也将对其空间占用形成一定影响。在进行交付检查过程中,工作人员需建设知识库,并把所有检查结果详细记录下来,详细分析、研究此过程,进而优化软硬件交付环节。

2.自动化运维管理发展策略探析

自动化运维管理模式可有效掌握、分析大规矩数据,只有保证基础配置构架的完善性、逻辑设计分析的完整性,才可有效提高自动化运维管理工作效率,提升数据处理效率及质量。此外,可使用大量数据信息准确反映调度,保证数据资源管理效果,在优化自动化运维管理模式时,工作人员需加强对平台设计的研究,提升平台数据信息处理及管理能力。同时可利用平台的逻辑性特征排查硬件系统对于平台的影响,减少维护成本。

另外,使用自动化运维管理平台处理、分析海量数据信息的主要目的是提升运维管理平台运行稳定性及安全性,并提高用户体验,然而在此环节运维管理平台可能存在成本、资源分配不均这一问题,进而对自动化运维管理平台实际运行效果形成负面影响。因而,工作人员需详细分析日常运维管理工作中存在的问题、相关工作经验,加强对数据日志的研究,提升知识库稳定性及安全性,提高自动化运维管理平台管理水平。

结语

我国步入大数据时代后,人们日常工作、生活中将涉及大量数据信息,传统运维管理模式已不能满足管理工作需求,因而需依据运维管理平台实际情况对其进行优化,积极研发日志问题排查给过你在,提升数据监测、日常自动化变更速度,推动运维管理向着自动化方向发展。

参考文献:

[1]申庆钊.推进精细化管理,助力运维水平提升[J].广播电视信息,2018,No.315(07):88-91.

[2]乔晓攀.大数据时代下机房管理与运维工作的研究[J].现代工业经济和信息化,2018,8(16):113-114.

[3]余萱,苏杨,赵威扬.基于大数据的自动化运维安全管控平台在电网企业的应用研究[J].力大数据,2018,21(12):25-30.