前言:本站為你精心整理了管窺鐵路信息系統的管理范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
1問題分析與建議
多年的信息系統運維工作的實踐,筆者深深體會到,要做好相應的信息系統運維工作,必須把握好以下幾點:
一是查找問題時要充分發揮相關部門的配合與組織協調。目前信息系統項目大部分都采用數據庫加前臺顯現(B/S或C/S)結構的方式。很多信息系統項目都涉及到服務器、小型機、數據庫、網絡及中間件、應用業務等諸多方面。一旦系統出現問題,如何協調好相關部門和相關技術人員共同查找問題,對信息系統運維管理工作提出要求,比如用戶反應某信息系統運行較慢,可能的會有網絡、操作系統、數據庫和系統本身等方面原因,要快速排除故障,需要協調好相關技術人員齊心協力解決問題。大型的信息系統項目,可能涉及到多業務部門的情況,比如車號識別ATIS系統涉及到:車輛、車務、通信、調度、信息等業務部門,快速排除故障,解決相關問題,需要運維管理人員提高自身的組織協調能力,做好部門內部的縱向協調和不同業務處室之間的橫向協調。
二是加強運維專業技術人才隊伍建設,充分發揮一線運維人員的作用,提高業務技能,調動積極性。信息系統的運維離不開一線人員的工作,特別是站段相關人員,他們直接面對生產,是相關信息系統的直接監控者和問題的第一處理者。鐵路部門一直以來站段信息維護人員普遍收入相對較低,對信息工作的重視程度也相對不高,站段一線運維人員的綜合業務水平相對偏低。平時信息系統在運行穩定時,運維工作相對輕松,同時工作環境相對舒適,給人的印象是運維工作不太重要,受重視程度不高。因此,調動一線運維人員的積極性對于適時的排查隱患、即時的故障處理與反饋很有必要。相關的業務領導部門可以每年定期舉辦相應的培訓或相關的研討班,大家交流自己的工作心得,共同提高。對于共性問題,比如服務器、小型機、操作系統、數據庫、網絡和中間件以及安上海鐵道科技2013年第2期鐵道集錦106全管理等,舉辦專題的培訓班。相關信息系統的管理者要完善技術溝通的渠道,要讓運維人員有一個交流的平臺,同時建立問題處理知識庫,提高運維效率。
三是重視機房環境建設,做好機房基礎設施。多年的信息系統項目運行的實踐表明,大型的信息系統項目故障大部分都與機房環境密切相關。這里的機房環境,包括機房電源及UPS、地線、制冷、防雷設施等。良好的機房環境是服務器、小型機和路由器、交換機平穩運行的基本條件。一旦這個基本條件出現問題,必定影響相關信息系統項目的平穩運營,即便是再高深的軟件專家也無能為力。在這方面常見的問題主要有:機房零地電壓偏高,達不到機器需求;有的信息系統機房只有一路電源,無兩路電源;UPS常時間沒做過充放電;無空調等制冷設施;雷擊高發區的機房相應的防雷設施不到位等。因此,對于比較重要的信息系統機房,要加強機房環境設施的建設,平時對口部門要做好相應的檢查。只有基礎工作做得好了,才能談得上相關信息系統項目的平穩運行。
四是做好備份應急和風險防范工作,確保備份系統能真正發揮作用。要保持好信息系統項目的平穩運行,平時須對系統項目做好備份,并且要盡可能做到備用的東西處于可用的狀態。比如雙機cluster,要保證在用的主機一旦出現故障時,備用機器能正常接管,保持信息系統的不間斷運行。在保持好機房環境的情況下,信息系統項目發生的其它硬件故障大多數不可預測。在這種情況下,要保持信息系統項目的不間斷運行,必須要使備份能盡快頂替上去,因此平時對備份系統的檢查就很重要。如果是冷備,還必須要保證備份機器上的應用軟件版本與主用的一致。對于相對重要的信息系統項目,在系統運行相當一段時間以后和重要的時間節點前,可組織相應的切換演練。適時重啟服務器,可解除軟件可能產生的系統死鎖,釋放相應的系統資源,同時也檢查了備用機器的接管狀態。對于比較重要的、不能間斷運行的信息系統項目,例如客運售票系統等,要做好相應的災備建設。六是完善監控手段,建立科學的快速反應體系。信息系統運營項目的監控不能完全依賴人力。大多數運維人員都遇到過夜間或周末必須趕到機房處理故障的尷尬情況或是重要的節假日,不能離開市區等要求。為把故障出現時的“救火”變成平時的“防火”,相關的信息系統項目可以參考引入自動檢測,例如網絡設施可以通過SNMP協議檢測到網絡的狀態,以此判斷網絡通斷。操作系統和數據庫亦可以相關的日志檢查有沒有報錯。如果有異常,及時給相關人員發出提示。可考慮引入短信或電話自動轉發機制。一旦出現異常,自動把相關的短信內容等轉發到相關負責人的手機上,增強運維系統的響應機制,需要注意的是,利用軟件檢測信息系統的運行,是要犧牲相關系統的部分運行效率為代價的。同時運維管理人員要合理安排相關技術負責人的響應。對于應急故障的處理,管理人員要協調好故障的配合檢查,在追究故障原因的同時合理安排相關技術負責人的業務能力培訓,故障的處理以盡快恢復生產為第一要務。重要的信息系統機房可以考慮引入互聯網接入鐵路網的聯入方式,加快故障的響應處理時間。借助于建立的知識庫和完善的檢測手段,建立科學的快速綜合反應體系。
2結束語
信息系統項目運維的目標是保持系統的平穩正常運營。圍繞這個目標,要建立長效機制,杜絕面子工程,不斷總結出現的問題,合理利用資源,建立員工業務素質提高體系和快速的故障反應機制,力爭把信息系統項目的運營保障工作做得更好。
作者:趙光單位:上海鐵路局信息技術所