数字化油田服务器的灾难恢复与网络运维

(整期优先)网络出版时间:2023-07-13
/ 2

数字化油田服务器的灾难恢复与网络运维

施佳骏

(大庆油田有限责任公司第五采油厂数字化运维中心,黑龙江省大庆市)

摘要:随着数字化油田建设的深入,数字化油田服务器和生产网网络部署基本完毕,我们的工作重点从之前的部署与设计逐步转化到运维与备份中。在服务器和网络运维过程中,由于使用周期长,建设与运维并不是完全由统一的人员管理,导致数字化建设方面出现建设与恢复之间存在一些问题,本文根据当前数字化油田网络和服务器运维的现状,如发生重大灾难,在备份到恢复的联系进行相关的探讨。

关键词:拓扑图,灾难恢复,备份

1引言

随着数字化油田建设的完善,企业也对信息化程度依赖相对提高,对网络和整个信息系统的依赖性也越来越大,企业的关键数据、甚至很多核心资料都保存在我们的信息系统中,一旦服务器出现了故障,这些宝贵信息就可能损失殆尽,且面对无法挽回的风险,对企业造成了重大损失,同时也增加了工作人员的任务量,因此我们也对整个服务器系统的安全问题越来越重视,企业在网络安全和信息安全的建设方面也取得了明显的成效,然而,有道是“天有不测风云”,为了确保企业数据资料的安全,做好一切隐患应对方案是必不可少的,有备方能“万无一失”。在数字化过程中,业务连续性与技术密不可分。从现场操作转移到线上员工远程办公,都意味着企业比以往任何时候都更加依赖数字基础设施。虽然组织可以采取措施,保护其数字服务免受诸如用户操作失误、系统故障或网络攻击等事件的影响,但总有些天灾人祸是超出任何企业所能控制范围的,例如极端天气事件(2020年的风灾)等自然灾害或区域性断电(2021年底的供电不足)等可能导致的宕机和服务中断的情况。当此类事件发生时,如何让服务和员工快速恢复生产至关重要。

我们针对可能发生的情况制定了服务器及网络恢复方案,对服务器数据的备份和备份策略也进行了详细说明,对在岗人员发生故障后的网络诊断及维修也制定了相应流程,从而更快更好的恢复到故障发生前的状态。

2 灾难恢复方案部署

2.1数据备份

创建备份恢复计划,定期查看备份数据及更新备份计划,保留2个备份集:一个在操作现场,易于当地访问,一个在云管理中心,保证备份安全性。

2.1.1备份策略

进行数据备份时,由于服务器数量的缺失,我们尽量少的占用服务器和网络资源,在数据还原时,我们也希望能在最短的时间完成,不同的备份有不用的特点和长处,在实际工作中我们要制定适合自己的备份策略。

(1)正常备份+增量备份

周一进行一次正常备份,周五进行一次增量备份;恢复过程:先恢复周一数据,在按顺序恢复每天的增量备份数据;优点:节约存储空间和备份时间;使用条件:还原操作较少,当地服务器较可靠;

(2)正常备份+差异备份

周一进行一次正常备份,周五进行一次增量备份;恢复过程:先恢复周一数据,在恢复最后一天的差异备份数据;优点:恢复较快;使用条件:经常进行还原操作,数据修改较多;

2.2服务器的部署

由于数字化油田部署的服务器主机数量不能满足工作所需的服务器数量,面对服务器故障时,恢复周期长,因此会对数字化设备回传数据产生影响,造成数据传输迟滞或丢失的风险巨大,因此需要建立一个虚拟化群集来高效利用有限的服务器资源,也用来保证数字化油田的数据安全和平稳运行,我们在云管理中心也对服务器数据进行异地备份。

C:\Users\sJ\Desktop\图片1_副本.jpg图片1_副本

图1 服务器部署示意图

2.3网络故障诊断及维护

数字化企业对网络通畅和稳定是最基本的要求,由于我们技术人员的紧缺以及接到故障通知在联系运维车辆在到现场时间较长,因此我们制定了网络故障诊断的基本流程,流程拓扑图尽可能的细化每一个细节,这样在发生故障时在岗工作人员能快速准确的做出正确判断。

2.3.1制定网络故障诊断流程

流程:在岗人员收到维护申请,根据故障描述初步判断故障类型,根据需求领取相关专业设备和物资,进行现场处理,如遇复杂情况,通知相关技术人员进行处理。

  

图2 网络故障诊断流程图           图3  通信故障诊断流程图

(1)物理类故障

设备或者线路损坏,插头松动,线路收到严重干扰等情况,例如网络突然中断,首先用PING检查自己端口是否连通,如不通,检查端口插头是否松动,网卡是否正常,双绞线是否损坏,光纤收发器是否正常、闪烁是否正常,交换机端口是否正常,交换机模块是否正常等。

(2)逻辑类故障

    网卡驱动是否正常,是否安装错误驱动,导致网卡无法正常工作,网卡设备与其他主机设备是否冲突,主机的网络参数是否正常,IP地址与他人是否冲突,IP段在不在子网范围内,主机网络协议是否正确,域名服务器设置是否正确等。

(3)外部原因故障

光缆是否被损坏,是否被黑客攻击等。

2.3.2制定油井通讯中断问题故障排除流程

流程:在岗人员收到维护申请,初步判断故障原因,简单处理,若故障复杂,联系远程服务器管理人员,协助远程故障恢复,若不能恢复,立即启用备用虚拟服务。    

通过制定完善标准化流程,提高网络运维效率和速度,网络管理室计划针对不同井间站库制定符合他们的网络运维定制方案。

3效率恢复生产

服务器损坏最在意的就是恢复时间,所以恢复应用时间是重中之重,技术人员一面在云管理中心往备用服务器恢复数据,在岗工作人员在前线确认网络故障以及处理故障,即使遇见无法处理的故障的情况,也能准确告知我们问题所在,我们在维修中也会携带相关的损坏设备及工具,这样双管齐下,缩短了维修及恢复所需要的时长,到达现场后,在岗工作人员过程中可与我们合作共同处理问题。

4结论

以上是对数字化油田服务器灾难性恢复过程中普遍存在的问题进行简单的阐述,并对发生后我们如何应当做进行了剖析,这种情况在数字化建设中的及有可能发生。还有很多数字化油田服务器灾难性恢复中相关问题值得我们思考。接下来,我们将对可能发生的问题进行更细化的分析和讨论,数字化运维工作越来越得到更多人的重视,我们会不断完善应急处理方案,模拟方案演练,让数字化运维工作越来越好。

作者简介:施佳骏 :男,助理工程师,1991年1月出生, 2015年毕业于东北石油工程学院,现在大庆油田第五采油厂数字化运维中心网络管理和运维工作。

1