高效维保 争分夺秒 -凯发app官方网站

高效维保 争分夺秒

九谷it运维团队闪电速度处理断电故障工作纪实

发布日期:2020-10-13浏览次数:7

一直以来,九谷科技始终依托雄厚的科技力量,并以敬业的服务态度为客户提供长期稳定的项目支持。公司的每一个项目背后都凝聚着运维团队成员深耕细作、持之以恒的努力。只要项目需要,九谷科技运维团队总是不分昼夜、不论寒暑,第一时间赶到现场,亲身实践“高效维保 争分夺秒”的八字箴言。

近期,一数据中心遭遇突发性断电故障。这起毫无预兆的突发性断电事故让数据中心的工作人员十分紧张,一旦因断电导致数据丢失,后果将不堪设想。事故就是军情,时间就是生命线,九谷运维团队发扬战斗精神,在接到通知后以闪电般的速度势如破竹地响应,仅用23小时将因为断电导致瘫痪的系统全面恢复正常,且确保了数据零丢失,创下了快速响应、最短时间完成应急处置的新纪录。

 
7分钟触发紧急预案,闪电速度集结

2020年8月23日19时53分,九谷科技项目负责人收到客户单位用户数据中心紧急呼叫,被告知突遇停电故障。项目负责人意识到,这次断电极大可能带来严重的数据丢失,如果处理不及时,后果将不堪设想。短短的7分钟之后,公司于20:00启动《突发事件应急处置预案》,迅速集结运维团队及相关支持部门,成立针对该停电事件的“突发事件应急工作组”,分专业、分批次按秩序赶赴现场。

驻场工程师就位,极速锁定断电原因

20点05分,该项目it运维团队所有驻场工程师就位,到达项目现场开展初步排查工作。经排查发现是市电力部门在没有任何预先通知的情况下突然断电,一小时内重复跳电三次,造成机房设备负载过高,ups因电量耗尽终止工作。与此同时,公司相关支持部门严阵以待,投入工作状态,随时准备驰援一线运维团队。20点25分,供电恢复后,it运维团队立即开展工作,手动逐一开启所有相关设备和业务系统,开展全方位、无死角、高精细度的故障排查与清除工作,数据安全检查工作也在有条不紊地同步进行中。

待所有设备开启之后,工程师们发现虚拟机、数据存储状态异常;业务系统无法提供服务等等一系列的“断电后遗症”问题浮出水面。此时已经是8月24日凌晨1:00,第二批it运维人员争分夺秒进驻现场,针对前期确定的一系列问题,分组进行同步处理。与此同时,九谷商务部的同事也连夜联系原厂,为一线的运维团队争取更多的工作支持。这场跨部门协作的战役一直持续到凌晨3:00,但奋战在一线的工程师们却毫无倦意。

一波未平一波又起 抢修故障不畏挑战

经过短暂的休整,上午8:00,it运维团队全部就位,到达项目现场继续工作。30分钟之后,vmware专业工程师到达现场,与在场的工程师立即组成联合团队,因为之前已经有了对现场详细排查的基础,仅用了30分钟的时候就锁定问题,发现前端应用服务器和后端存储链路异常,断电导致san交换机启动异常。10:20分排除故障后san交换机正常启动。10点30分前端应用服务器和后端存储链路恢复。11点15业务系统启动正常运转。

峰回路转柳暗花明 故障问题逐步修复

12:00,眼见着大功告成的故障修复工作波澜再起,待所有业务系统启动正常后,工程师们突然发现内外网之间、外网与dmz区无法互通……于是,又一场抢修奋战接踵而至。商务部立即与启明星辰信息安全产品工程师取得联系并在最短时间内与现场运维人员共同投入工作。17点30分,最终为用户申请到到防火墙虚拟化功能90天的临时授权许可,恢复了用户的防火墙、内外网通信等服务,进一步保障了所有设备系统正常运营。18点05分,所有设备及系统完全恢复正常。

23小时,先后投入多批次、多专业的工程师“兵团”,紧张而又有序的安排部署,上下齐心跨部门协作的战略方针……九谷运维团队的这场硬仗打得漂亮!

因为紧急断电造成几近全面瘫痪的数据中心,在九谷it运维团队及公司相关部门争分夺秒的努力下,23小时内所有系统恢复正常状态,没有1m数据丢失和损坏。这是it运维团队日常工作的阶段性胜利,也是公司多部门通力高效协作、调配全部可用资源的丰硕战果!

争分夺秒,并肩作战,就是九谷科技赢得用户赞誉与信任的制胜法宝!这一次及时果断的成功抢修与维护,是九谷人日常工作的缩影,也体现出九谷人随时待命、客户需求至上的常态。

九谷科技相信,寒来暑往,岁月变迁,唯有不忘初心方能为客户创造源源不断的价值,方能成就平凡岁月中的精彩事业。