如果没有发生重大安全问题,领导自然可以理解;可是,万一出现事故,该追究谁的责任?面对运维管理与行政管理的冲突,唐军怎么才能“既保证系统安全又不违章”?
作为飓风集团运营维护中心主任,唐军正面临一个紧急而又艰难的抉择:立刻关掉服务器,还是请示上级领导之后再决策?
就在五分钟前,监控系统显示,服务器已满负荷运转,眼看即将发生重大安全事故,谁都不敢妄自盲动。按照单位行政管理规定,遇到这种情况,运营维护中心必须一层一层给上级领导打报告、请示,等待批示,否则,发生重大安全事故,部门领导将遭到处分。
运营维护中心是飓风集团2006年实施IT系统大集中之后才成立的部门,专门负责处理各种生产设备的运行维护问题,包括各种核心业务系统、网络设备、机房等。
大集中之后,原来分散于各地的应用平台、数据、网络等全部集中到了集团总部,各地运行维护压力减小了,整个压力和风险都集中到了总部运营维护中心。大集中系统的任何一个小差错,就可能造成集团整个系统的瘫痪。运行维护工作的重要性可想而知。
时不我待。唐军觉得自己快要晕了。按照单位内部行政管理规定,作为一个搞社会服务的部门,运营维护中心应该保证上级领导的管理介入,但是,遇到这种突发事件或应急事务,当运维管理和行政管理发生冲突时,怎么办?
紧急关头,唐军二话不说,马上决定关掉服务器,再重新启动,来回重新启动了好几次,仍然不行。最后,他干脆关掉全部输出之后再慢慢开,一直开到输出为40%的业务量时,不许再开,因为系统开销当时已经达到临界点。
一个小时之后,系统可以运转;再过一小时,问题解决了。
接下来,唐军发动运营维护中心人员对上级领导和员工进行详细解释。最终,行政领导理解了他们。(责任编辑:崔平)