关于民航场面监视系统NOVA9000数据记录仪分析与研究

(整期优先)网络出版时间:2022-06-30
/ 2

关于民航场面监视系统 NOVA9000数据记录仪分析与研究

黄乐韬

(民航中南空管局技术保障中心,广东广州 510400)

摘要:在民用航空空中交通管理监视系统中,型号为NOVA9000的场面监视自动化系统是现阶段场面监视系统中的主流的应用系统之一,其主要作用是为空中交通管制提供机场内飞机与车辆的监视、监控、指引和计划功能的模块化可扩展自动化系统。RPS录像子系统是在场面监视系统中用于记录雷达、管制数据和放像的系统,其记录的数据重要性不言而喻。本文主要对系统的RPS录像子系统的采用磁盘阵列(RAID)进行数据记录方式及相关配置的分析和研究。

关键NOVA9000场面监视系统,RPS,数据记录

概述

NOVA9000系统的构建组块是由已经组装好并运行有专用应用软件的计算机。传感设备,比如雷达,用于实行监视任务。监视数据服务器(SDS) 单元从传感设备和其他外部系统收集数据并处理这些数据,然后把处理好的数据分配给人界界面。 人机界面(CWP)的配置则是通过专用控制和监控子系统(TECAMS)来完成。RPS录像子系统从上述子系统中记录数据以用于之后在RPS录像子系统中进行放像。本文主要对系统的RPS录像子系统的数据记录方式及相关配置进行分析和研究。

数据记录技术

在NOVA场面监视系统中,为了避免干扰运作中的 NOVA9000 的主要局域网,因此组建了一个独立的放像局域网把RPS放像系统与其他RPS录像系统连接了起来。RPS录像子系统和系统其他部分之间的数据通信是通过放像局域网来完成的,同时也是用于让放像单元能获取到录像系统记录的数据。

RPS录像子系统记录需要重构CWP所显示的信息时所必须的数据,在数据记录中采用的是成熟的RAID技术(独立磁盘冗余阵列)进行数据存储。RAID技术是将普通硬盘组成一个磁盘阵列,在主机写入数据,RAID控制器把主机要写入的数据分解为多个数据块,然后并行写入磁盘阵列;主机读取数据时,RAID控制器并行读取分散在磁盘阵列中各个硬盘上的数据,把它们重新组合后提供给主机。由于采用并行读写操作,从而提高了存储系统的存取程度。此外,RAID磁盘阵列还可以采用镜像、奇偶校验等措施,来提高系统的容错能力,保证数据的可靠性。

首先,采用RAID的好处是其超大的容量和高度的可靠性。由于空管数据记录存储量较大,且需存放至少31天的数据,在普通的操作负载下,RAID通常有能力能存放下数据。如果要求存放多于31天的数据,那么RAID系统的容量可以通过扩展额外的硬盘来进行增加,从而满足这一需求。在过了存储期限之后,系统可以将从最旧的数据开始进行重写,除非RPS放像单元的操作者对其进行保护操作。其次,空管数据记录需要高可靠性防止数据丢失,RAID在更换有问题的磁盘并不会干扰到正在进行的录像,从而确保了高可用性。RAID系统会自动在新磁盘上重构数据图像,这些数据与替换下来的磁盘中所存储的是一致的。

在RAID技术中,分别有以下个级别:

  1. 级别0,无冗余数据分布,性能最高,但是没有数据保护,一个驱动出问题会导致全部数据丢失。

  2. 级别1,为磁盘镜像,有很高的性能和很好的数据保护,执行写操作时危害最小,有非常高的冗余存储支付,因为所有数据都要双份,需要两倍存储容量。

  3. 级别5,为奇偶校验块级数据分布,在面向事务型网络下面有最低的消费,最高的性能,数据保护性很好,支持多个并发读写,可以优化大型、顺序化的请求,可以容许单个的驱动问题出现,可操作比RAID 0和RAID 1慢。

  4. 级别6,为双分布式奇偶校验分块集,可以容忍一对驱动出现问题,但读写操作比RADI 5要慢。

  5. 级别10(1+0),为RAID 0和RAID 1的结合,有最好的性能,很好的数据保护,可以容忍多个驱动出现问题,很高的冗余支付,因为所有数据都要双份,需要两倍的存储容量。

NOVA9000的RPS录像子系统支持以上表中的全部级别,但由于考虑到空管系统中对数据记录保护的重要性,因此在进行RPS安装时设置级别6为默认级别。在NOVA9000中,为了空管技术人员方便管理和配置RAID磁盘阵列,共为其配置了12块硬盘用于数据记录,其中10块设置为运行optimal状态,2块设置为hot spare状态,在系统上配置了硬件阵列控制卡,可以在系统BIOS自检过程中进行RAID磁盘阵列设置和配置,再通过应用程序软件磁盘阵列状态管理工具,对RAID磁盘阵列在用户界面下实现监控和可视化界面的维护操作。

三、异常故障分析

近期,NOVA9000系统的运行中,在TECAMS监控上发现RPS偶发性的出现红色故障告警,观察RPS磁盘阵列状态管理器提示“Raid Error”,在数秒后RPS系统又出现冻结死机,无法移动鼠标键盘,重新启动系统后伴随有蜂鸣声告警,此类故障会造成RPS停止记录数据,影响了管制运行工作。为了解决该故障,技术人员对RPS主机及其RAID磁盘阵列的进行了详细分析检查。首先,技术人员检查RAID磁盘阵列的硬件状态,硬盘指示灯均是绿色正常状态,未能反映出硬盘存在故障。然后,技术人员在进行RPS的BIOS自检时,其分为两个阶段,第一阶段为检测阵列的Array Adaptec Controller卡,第二阶段为系统硬件驱动等自检。根据这次故障,当完成第一次阵列控制卡自检后,主机处出现蜂鸣声告警为阵列磁盘故障告警音;当进行第二次系统自检后,提示为:RAID Degraded,无法找到RAID DISK,因此无法正常进入系统应用软件。因此结合上述两项信息,应可判断故障点出现在RAID阵列硬盘处。处理该类故障时,可以登陆BIOS管理器,查看12块硬盘状态,发现有部分硬盘无法处于无法识别的状态,对其更换备件后,原处于hot spare状态的硬盘会进行重建,完成重建后能正常开机进入应用程序,并且数据恢复正常记录。待系统恢复正常后,在后续的检查中,技术人员使用磁盘阵列状态管理工具时,发现RPS内的4块阵列硬盘均存在有“Medium Error”和“Link Error”的报错,因此分析为阵列磁盘内存在多块硬盘故障导致阵列无法正常运作,导致RPS死机。最终对报错硬盘进行逐块更换后解决了RPS偶发性死机的问题。终于经过技术人员的研究和分析,找到了解决该问题的方法和依据。

结束语

在NOVA9000中RPS录像子系统使用阵列磁盘的方式进行数据记录,充分利用其具有大容量存储能力和高可靠性的优点,符合当前空管需求,但如果同时存在2块以上硬盘发生故障时,易造成阵列磁盘无法正常工作和RPS死机无法记录数据的安全隐患。在后续的工作中总结了几点经验:第一,快速准确定位故障点。由于处理此类故障缺乏经验,初次判断故障点为RPS主机,因此浪费了比较多的时间在对RPS主机进行重装上面。第二,提醒进行RPS重装时,注意备件硬件更换前需先将与磁盘阵列连接的板卡接入备件,需要连好磁盘阵列单元再进行光盘安装。第三,需充分利用RAID磁盘阵列的BIOS自检和磁盘阵列状态管理工具配合检查,能快速有效地分析磁盘阵列的运行状态,在出现故障报错时及时对其进行处置。此文章通过分析和研究,为技术人员在处理NOVA9000系统出现RPS故障时提供了依据,有利于场面监视系统平稳运行。


参考文献:

  1. 刘军平.磁盘存储系统可靠性技术研究[D].华中科技大学,2011.

  2. 赵玲玲.场面监视雷达数据处理及软件实现[D].成都:电子科技大学,2020.