运维管理方案实践

/ 2

运维管理方案实践

王锐 王博文

武警宁夏总队

随着技术的进步,信息化设备不断增多,数据中心承载的任务也越来越重,为了保障机房中每一台设备的正常运作,每一个运维环节都必不可少,都不能粗心大意。在基础运维保障工作中,主要以基础环境、网络、服务器存储和基础软件四个部分来展开工作。

机房基础环境部分,包含机柜位置、空调、消防、安防、弱电、UPS等最基础的机房环境设施。主要工作要从以下三个方面把握:一是做好人员出入、设备巡检等各项审批登记管理;二是做好第三方的维保工作,保证故障处理的时效性,第三方能在故障修复有效时间内进场;三是做好维护计划和报告。通过这些基础环境部分进行运维维护,确保整个机房环境正常稳定,提升机房环境的容错率。

网络环境部分,包括当前数据中心所有的交换机、路由器等设备,以及由这些设备组成的所有网络。一是要监控网络运行情况,测试网络接入速度,监控网络访问可用性和访问质量,出现问题第一时间直接联系接入商解决;二是做好网络病毒查杀;三是做好本地局域网日常管理和维护、VLAN 划分、网络性能优化、故障排除等工作;四是提出网络风险评估,定期对网络进行优化配置,提高网络运行效率,保证整个网络环境的安全。

服务器和存储部分,包含整个数据中心的小型机、服务器、存储设备、SAN交换机等设备。这些设备支撑着整个业务系统,是非常重要的基础硬件环境。主要关注的参数有CPU利用率、内存使用参数、交换区使用参数、磁盘I\O参数、文件系统参数、重要进程运行参数、系统日志和网络端口信息等。通过监控,及时处理出现的问题,并基于整个环境提供优化。

基础软件部分,包括各种操作系统、数据库、中间件、备份软件等。其中操作系统方面,要做好保证系统稳定可靠的情况下,同时做好系统升级服务;要定时查看系统日志,排查隐患;对系统权限划分明确,不同账号责任到人,达到一人一号,一号一权,做好风险管控;定期检查磁盘空间,进行磁盘文件排列扫描和优化,删除临时文件、垃圾文件和过老备份文件;维护好系统注册表;维护好系统配置,要备份系统配置文件。数据库方面,要监控和检查资源使用情况、运行情况、数据库进程状态、数据库连接状态、数据库进程使用资源、数据库的表空间、数据库日志空间、回滚段使用情况、数据库锁的数量、磁盘I\O、数据库运行日志、数据库用户登录情况等。中间件方面:辅助开发公司进行配置,保留配置文档;模块配置与更新,配合第三方配置.java及wls的版本及更新工作;操作系统模块配置与更新,配合第三方配置操作系统到可用的版本及更新;配合反馈第三方解决服务错误日志中的问题。备份软件方面:为保证在系统崩溃或停止运行时能尽快恢复系统,将制定相关的数据备份制度。应针对不同系统制定备份方案,应包括备份方法、频率等。数据备份包括定期和不定期备份。重要数据应每月进行全备份和增量备份;不定期备份应该在数据变更后立即进行,更新前的备份按需要保存一定时间。基础软件的维护工作是最为繁琐的,在要求这些软件可以正常工作的同时优化配置,为平台和工作站正常服务,当这些软件出现问题时,能发现并提出解决方案,可以协助应用人员解决故障或进行对应的变更、升级等操作。

中大型网站的运维工作牵扯较多且细节繁杂,需从一定高度来应对解决。弄清问题本质、根据相关技术原理探寻适合的方案。一是操作系统方面,操作系统是计算机系统中必不可少的基础系统软件,它的作用是管理和控制计算机系统中的硬件和软件资源,合理地组织计算机系统的工作流程,以便有效地利用这些资源为使用者提供一个功能强大、使用方便的操作环境。它在计算机系统(硬件)与使用者之间起到接口的作用。操作系统中的命令是必要掌握的,命令对了解新上线的机器、手机应用测试数据,或是排除线上故障,这些基础信息都对运维具有极大帮助。二是产品自身方面,不论是Web网站还是移动应用,从产品形态展示到服务器的请求处理,同样是运维人员关心的。主要从四个不同的维度下手:一是使用情况监测,监测内容包括用户是用户是否完成预设的访问路径,停留在哪些内容的时间较长等;二是交互动作监测:监测内容包括页面上哪些位置更容易引起用户访问,哪些元素比较具有吸引力;三是访问性能监测,监测内容包括用户的访问等待时间,流程通过时间等;四是用户统计监测,一般包括用户的基础信息,操作习惯等,给出一个完整的用户画像。

运维团队将根据当前数据中心的实际情况和对应的管理制度,通过主动性、预防性维护,执行日常维护作业计划,对告警、性能、运行状态进行检查分析,及时进行数据备份,并定期对备份数据进行恢复性测试验证,对系统运行质量进行分析,并进行维护记录。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行。一个数据中心要及早布设综合监控系统,实施24小时全天候平台设备监控,对系统运行进行实时检查。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行。

数据中心运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保组织的网络业务能够 7×24 小时为用户提供高质量的服务。运维人员对网络业务所依赖的基础设施、基础服务、线上业务进行稳定性加强,进行日常巡检发现服务可能存在的隐患,对整体架构进行优化以屏蔽常见的运行故障,多数据中接入提高业务的容灾能力。并通过监控、日志分析等技术手段,及时发现和响应服务故障,减少服务中断的时间,使网络业务符合预期的可用性要求,持续稳定地为用户提供务。

参考文献:

    1. 饶琛琳.网站运维技术与实践[M].北京:电子工业出版社,2014

  1. 老男孩. 跟老男孩学 Linux 运维:Web 集群实战[M].机械工业出版社,2016

  2. 王巧雷. 数据中心运维管理方案[OL].TWT企业IT社区,2021

作者简介:

1.王锐,汉,男,宁夏固原,硕士,高级工程师,武警宁夏总队。

2.王博文,汉,男,陕西西安,助理工程师,武警宁夏总队。