PCM设备常见故障分析及处理

(整期优先)网络出版时间:2016-12-22
/ 2

PCM设备常见故障分析及处理

汤巧丽

(广东电网有限责任公司佛山供电局佛山528000)

摘要:本文首先简单对不同故障现象进行分类、介绍常用故障定位方法,接着便结合运维实例运用有效的故障定位方法进一步阐述PCM设备故障分析及处理方法,最后就如何快速定位故障进行了总结。

关键词:PCM;故障;分析;定位

1引言

近年来,随着地区电网规模和结构的不断发展壮大,通信网也得到快速发展,其主流组网技术采用SDH传输和PCM接入实现全网的业务接入和传输,而PCM设备承担了为电力安全生产保障提供模拟四线通道、G.70364K数字电路等通信电路接口以及为调度电话提供二线电话话路的任务,在生产调度、厂站自动化、电量计费等业务传输上有着广泛应用,它的运行状况将直接影响电网运行的可靠性。

目前接入网主要采用华为FA16、诺基亚DB2、中兴ZXMP-P230等设备建设。接入网由于存在站点数量多、设备种类多、运行时间长等特点,网络的维护和运行已经大大超过了设备本身的投资。因此PCM设备故障发生时,如何快速有效地定位故障、及时消缺,是日常运维的重要工作。

2现状分析

本文以佛山通信网近两年的PCM设备缺陷处理情况为研究对象,目前PCM设备主要采用华为FA16、中兴ZXMP-P230、诺基亚DB2,通过统计近两年PCM设备故障信息及相关数据,得到近两年PCM设备设备故障率及故障原因分析图(如图1、图2所示)。

图2PCM设备故障原因分析图

由图1、图2可以看出,华为FA16故障率最高,PCM设备故障原因主要可分为以下三类:

1)通道故障:是指在物理通信通路故障导致业务连通性受到影响的一类故障。包括端口错位、2M电缆中断、DDF架侧2M端口脱落或松动、2M头制作不规范、VDF架卡线松动等因素造成的物理通信通道故障。

2)接口/单板故障:电源板、主控板、业务板接口损坏和由于环境、温湿度等影响板件正常工作的情况。

3)系统/配置故障:是指因为系统硬件/软件不稳定或者操作人员配置出错造成设备吊死、设备异常、业务中断等故障。

3故障定位方法

在通信故障查找过程中,采用合理的故障定位方法,将使故障定位工作变得事半功倍。

3.1告警、性能分析法

当故障发生时,首先通过对告警事件、股指现象的分析,初步判断故障点范围。系统故障时一般网管系统会伴有相应的告警信息,通过观察现场设备告警灯运行情况,分析这些信息,并结合设备的告警原理机制,初步判断故障类型和故障点的位置。告警不是孤立出现的,某一设备的故障有可能引发相关设备的连锁告警反应,因此,在分析故障告警时,不要仅对某一个告警进行独立分析,要从整个网络系统的角度去分析告警现象,以便正确定位故障点。

3.2环回法

通过逐段环回,排除外部故障,并最终将故障定位到单站,乃至单板。环回是定位故障点最有效和常用的方法,它不需要对告警和性能做详细的分析,缺点是会影响业务,一般在业务量小的时候使用。

3.3替换法

通过替换相应的端口、板件等,排除故障。替换法适用于故障定位范围缩小至单点后,排除单板、端口或某段线缆的问题。如某站四线通道不通,而挂表测试通道正常,我们怀疑收发跳纤接反,则可将收、发两根互换。替换法的优点在于方法简单,对维护人员要求不高,比较实用,故障定位快速有效,但对备件有要求。另外替换插拔电路板时,需要按照操作规范执行。

3.4插拔法

当发现板件有故障时,系统维护者可以通过插拔一下板件和外部接口插头的方法,排除因接触不良或处理机异常产生的故障。在插拔时,要确认该单板可以热插拔,也要注意遵循单板插拔的操作规范,以免导致其它问题甚至损坏板件。

3.5配置数据分析法

配置分析法是指通过重新配置时隙、端口、单板数据等手段对告警进行判断故障排除方法。配置分析法的优点是不影响业务,不需要仪表,能够有效排除硬件连接错位,处理效率高。但是故障定位的时间相对较长。

3.6仪表测试法

故障定仪表测试法一般用于排除设备端口以及设备外部问题,误码仪可对数据业务的通道、误码性能进行测试,万用表对设备供电、线路电压进行测试。

3.7经验处理法

在一些特殊的情况下,如由于瞬间供电异常,致使设备某些单板进入异常工作状态,设备也可能没有任何告警,检查各单板的配置数据可能也是完全正常的。在这种情况下,运维人员通过复位单板,网元掉电重启,重新下发配置或进行主控倒换等手段,可有效地及时排除故障、恢复业务。建议尽量少使用该方法来处理,因为该方法不利于故障原因的彻底查清,且会影响设备上承载的其他业务。

4故障处理

下面主要结合华为FA16运维过程中具体故障现象介绍上文三类通信故障的常见处理流程(话路通道图如图3)。

图3话路通道图

4.1通道故障处理

4.1.1故障现象:电话话路异常,出现无音或拨不出号等故障。

处理过程:

1)在交换机侧的VDF出线界面端子断开用户侧线缆,接上电话机进行拨出呼入测试,如不正常则检查交换机用户板卡的各项参数设置是否正确或端口是否故障。

2)如在交换机的VDF界面测试正常,要求用户更换正常的电话机做进一步测试,如测试正常则更换用户电话机;如用户更换一部正常的电话机后故障依旧,进一步排查线缆故障。

3)根据该电话分机的位置确认音频电缆的走向和接线箱位置,逐段检查是否存在接线松脱、错线、断线、线间短路和绝缘不好等现象,可采取用万用表测试用户端a、b线的电压(-48V说明电路正常)等方法判断,再根据故障的情况分别进行处理。

4)故障处理完后需要进行连通性测试,确认交换机用户分机正常运行。

4.1.2故障现象:某站设备脱管,网管告警台有“局端网元对应V5接口中断、PCM链路异常”告警,局端网元主控板PV8板对应2M端口状态为“远端失步”。

处理过程:

检查设备指示灯,获取设备告警信息。并通过网管人员观察告警及性能数据,收集故障信息并分析故障原因。排除传输问题,检查确认传输SDH设备无告警后,用环回法逐段排查:

1)站端DDF架在SDH出线侧向局端PCM设备硬环;PCM网管系统上查看局端网元主控板PV8板对应端口状态为是否“正常”。

2)站端DDF架对应2M在PCM出线侧向本端PCM设备硬环,查看PCM对应PV8板上E1S指示灯状态是否正常(长亮则PCM设备2M端口正常)。

3)若局端、站端两侧端口均正常,则检查中间2M线接头是否松动、虚焊,2M线是否断线,排查出故障点消缺后网管台确认局站侧设备网元状态恢复正常。

4.2接口/单板故障处理

4.2.1故障现象:话机无来电显示、振铃异常等。

处理过程:

1)首先要判断线路、话机是否正常。分别在交换机出线侧电话拨出呼入、PCM设备出线侧VDF(断开用户侧线缆)接测试电话测试,排除通道故障原因引起,定位故障为设备单板/端口故障。

2)检查故障电话所在ASL板上其他话路是否正常,排除单板故障。

3)振铃异常则先确认铃流输入是否正常,需要检查PWX和ASL板:正常状态下PWX板上铃流工作状态指示灯VAO是否为绿色长亮,振铃时ASL板端口电压交流75V左右;4)分别排查局端、站端端口:更换新的端口,测试电话拨出呼入是否恢复正常。

4.3系统/配置故障处理

4.3.1故障现象:某站两个电话拨入不振铃。

处理过程:

1)检查线路是否正常。检查交换机出号及用户话机正常、外部线缆无异常。

2)检查单板、端口是否正常。重新配置话路端口数据测试,站端端口正常,定位故障点在局端设备,更换局端用户板及端口故障仍然存在。

3)检查系统配置数据是否正常。检查主机数据及配置数据数据无误则进行主控板主备倒换,故障现象依然。

4)利用网管功能进行测试判断:重新配置数据开通一条新话路,测试电话仍然拨入不振铃;删除所有测试数据时,查看设备用户端口状态仍为占用态,判断系统数据异常。

5)分别重新加载模块主控板程序和数据(先加载备板,加载完成后进行主备倒换,再加载倒换后的备板),重新设定下发话路数据后,故障消除。

4.4小结

通过以上的实例分析,我们发现相同的故障现象也可能是不同的原因引起,因此我们在处理故障时,应该对各种可能性进行缜密地梳理,从分析网管告警信息和可能产生的原因开始,运用有效的处理方法将故障排除,可以从以下四个步骤开始排查:1)通过网管告警信息和现场设备故障现象获得全面的告警信息。2)告警信息的分析,初步判断故障点范围。3)运用常见故障排查方法,逐步排查最终定位故障点。4)采取相应的操作,例如更换单板、修改配置数据,排除故障。

5结束语

本文以PCM设备缺陷处理情况作为实例进行详细分析,总结了PCM设备故障分类情况,针对不同类型故障现象提出流程化的处理方法,从而有效地帮助运维人员理清排查思路,快速定位故障,缩短业务中断时间,提高地区电力通信网的安全稳定性。

参考文献

华为技术有限公司HONET综合业务接入网维护手册

张辉,曹丽娜.现代通信原理与技术西安电子科技大学出版社2002

刘倩,汪天宇.浅谈PCM设备E1故障处理城市建设理论研究2012