王娜的博客

Sky

不幸运的世界—From HP现场工程师

| 0 comments

不幸运的世界

 

前言:

由于各种各样的原因,CE琐语已经停笔很久了,但是讽刺性的生活却一直在进行,各种各

样的想法却一直充斥在脑中,杂乱,但并不琐屑。无意打翻一本老旧的字典,捡起一看,

看到一个神奇的单词“Apocalypse”,发呆,顿时又想起写一点无聊的东西,启发一下无

奈的自己。

你出去买爆米花的时候,银幕上偏偏就出现了精彩镜头。

 

 

已经有太长时间没有胡言乱语,窗外一片春光明媚,办公室里的sales们也不再歇斯底里的

辱骂着电话的那一端,用户也不再在电话威胁我们如果不赶紧修好就要控告我们云云,我

都不知道怎么来用讽刺性的灰色幽默来描述生活了,难怪唐朝的李白杜甫们总是在被他们

老板贬职到荒山野岭,才能写出些饱含血泪忧国忧民的诗词,……鄙视。

我对大家说:“咦?数据不丢了,机器不hung了?是不是不太对劲?”

 

下午去用户那边开会,看到了旁边机房里的superdome,那是一台曾经让我懂得很多除了U

NIX之外的人生哲理的大家伙。——红色attention灯居然都没有闪,一片绿绿的runngp

ower灯,看着真不让人习惯。

心不在焉的听用户领导做报告,于是想起了这台superdome的辉煌历史。

偶唯一一次凌晨4点被电话从床上拖起来的经历(凌晨1点被拖起来的不算),归功于这台

PARISCsuperdome。说实话,如果不是因为这次的经历,我其实对superdome一直是蛮

有好感的,深灰色的主机,硕大的身躯,每次用top命令都几乎看不到尾部的CPU列表,dm

esg看内存大小的时候还要惊叹“靠,32G,比我这破笔记本的硬盘还大”,强啊,整个就

是一航空母舰。

自从培训的时候就对superdome产生的美妙幻想,直到第一次对superdome进行维修的时候

破灭;当我罪恶的双手把这一堆价值连城身形硕大神秘高贵的宝贝机器打开,取下cell

,取出system backplane的时候,发现无非也就是一堆积满灰尘的cpu和内存条,我想起大

学时死党对我的训诫“再漂亮的女人,底细无非也就那样……”顿时心情沮丧得不得了。

 

在那样一个原本充满幻想的凌晨,我的电话中醒来,艰难的从用户不标准的普通话中得到

了我最不想要的信息——“你们的机器down了,在最关键的月底出帐的时候down了!”

 

等我睡眼惺忪的冲到机房里的时候,superdome已经起来了,但是,机柜门上血红的fault

灯在不合适宜的常亮着,和用户圆睁的怒目一样,不敢直视。

“机器已经起来了,但是你们superdome为什么这么容易down?”质疑声在我的脚步刚到机

房边的时候就已经飘过来了。

“我看看情况。”我决定先稳下来,在主机的console上,并且怀着不可告人的目的搜索着

,试图找到一点能帮自己解脱尴尬境地的线索,比如用户的误操作,比如应用程序的错误

,比如机房电源环境不稳定,我真阴险。

什么都没有找到,除了ts99中乱七八糟的HPMC信息和/var/adm/crash下面黑压压一片cras

h文件,教科书般标准的HPMC现象。主机crash本来并不可怕,可怕的是用户的MC/SG环境并

不十分完善,虽然package能够切换到备机运行,但是有部分数据库业务无法在备机上运行

,用户不同意切换到备机,我寒……

“这两天是我们出帐的时间,必须在今天之内修好!!”用户的信息中心主任如是说。销

售也打来电话,说用户的领导已经把这事反映到总部去了,影响比较大,后果很严重……

 

赶紧要在偶们工会里找强人了,不然大伙会栽在这个副本里。一到上班,偶就借助老板的

力量,找到了偶们工会的60级法师——刘为刚大师。刘大师分析了整个故障历史状况:

 

14个月之前,出现过相同的故障现象,主机反复HPMC,根据HPMCdecode,指出某条bu

s有问题,故障源可能是io chassissmid plane–Reo Cablesystem backplanecell

 board,结果是小弟我换了io chassis / mid plane/  system backplane后,故障消失。

 

22个月之前,又出现了相同的现象,根据HPMCdecode,故障描述还是一样,还是指出

该条bus有问题。当时为了彻底根除病根,咱又换了system backplane,和cell board

 

这次的HPMC 的解码结果,居然还是一样,我们居然被同一颗石头绊倒了3次!

现在唯一没有更换过的就是RIO了,“难道是传说中最可怕的RIO cable的问题?”我冒汗

。刘大师点头,很肯定的样子。前几次出现HPMC的时候,我们分析,RIO cable的结构很简

单,几个连接线而已,而且绑扎和固定都非常好,几乎不可能出问题,所以我们的怀疑对

象都集中在CELL board / backplane这些大家伙上,RIO cable出问题的几率实在太小。况

且,这劳什子的更换步骤简直……

刘大师最终的意见:更换RIO cable吧(刘大师的口气中透着同情)。我翻看service man

ual,手册上写着:It is very difficult to remove the RIO cable, you should remo

ve everything in the cabinet, then………,我靠,什么叫remove everything……,再

看看机柜内部的结构,我几乎哭了,这cable原来是埋藏在机柜内部走线槽中的,必须把所

有的chassis, backplane, 托架,连线,全部都拆出来,把机柜都掏空,比分尸案还残忍

……

我不知道我一个人是否能更换RIO cable,而且白天这台superdomeHPMC3次,用户的投

诉愈加强烈,我再次求援,“老板,如果你不想来帮我收尸,就派个强壮点的兄弟过来,

我们晚上要大干一场了”老板很理解,于是从浙江调来了另一个60级的战士——猛男赵。

 

话说这位赵兄,身高185, 胸围110,肌肉发达,传说在浙江移动痛打superdome,蛮殴XP5

12,无人能敌,确实了得。偶大喜,引至现场,荐与主任,主任无语……

当天晚上的战况让我了解到,召唤猛男来助阵绝对是个正确选择。我和赵兄各执凶器,把

superdome给肢解成20多块,把机柜内全部拆空,总算把埋在深处的RIO cable给挖出来,

换掉了。我指着地上的一大摊superdome备件,悲情满面的说,老赵,把这一堆玩意装回去

,还能用么?

管不了那么多,不等我们祭奠完,主任就来催了,“什么时候能搞完?”我和赵兄七手八

脚的把一堆零件给装回去,还用JUST给测试了一把,貌似正常,我俩才战战兢兢的打开电

源。

自检——10秒中断——启动OS,机器居然还是正常起来了,我第一次觉得不可思议,就像

看到被大卸八块的人居然有复生了一样。

我说:主任,好了。

主任:真的好了么?要是再出问题呢?

我说:这玩意要是再出问题,我就把superdome的柜门吃掉。

赵兄:……

 

我这么说是有原因的,因为这次的故障还是和以前的一模一样,而没有更换的part只剩下

这条cable了,我确信这是硬件引起的HPMC,而且还有刘大师为咱撑腰……

当然,最后,我没有把单价1000多美元的superdome的柜门吃掉,这台该死的主机平稳运行

了几个礼拜,再也没有down。这一系列复杂神秘恐怖费解的灵异故障事件原来是因为埋藏

在一大堆数价值十万美元零件中成本仅大约20块的破cable真的出了问题,就有这么不凑巧

于是,我了解到:

1、这个本来就缺乏奇迹的世界上原来还是有这样不凑巧的奇迹发生。

2、感谢RC的法师们,你们远程杀伤,毙敌于千里之外;感谢onsite的战士们,你们吸引了

用户的怒气,充当肉盾,让我们的法师能安心进攻;感谢无所不能的老板,你们帮我们加

血,加魔法值,加备件;感谢CCTV,感谢Channel [V]……

Leave a Reply

Required fields are marked *.