錦泰保險成功案例
錦泰保險IT系統(tǒng)現(xiàn)有核心交換、防火墻、負載均衡設備多臺,同時保險行業(yè)的主要業(yè)務平臺基本齊全,它們的穩(wěn)定運行直接關系到IT系統(tǒng)是否能夠正常提供服務,現(xiàn)有監(jiān)控方式基本靠人員手工進行,人工操作工作量大而且容易造成處理延遲甚至失誤,造成不必要的損失。主要的問題集中在以下兩方面:在IT運維過程中, IT員工被動低效率手工救火,除了一些基本的網絡及服務屬性外,由于IT系統(tǒng)的自身特點,許多重要的系統(tǒng)運行狀態(tài)無法獲取, 導致只有當事件已經發(fā)生并已造成業(yè)務影響時才能發(fā)現(xiàn)和著手處理。這種被動“救火”不但使IT運維人員終日忙碌,也使IT運維本身質量很難提高,導致IT部門和業(yè)務部門對IT運維的服務滿意度都不高;缺乏高效的IT運維技術工具,錦泰保險的IT系統(tǒng)建設經過一段時間的發(fā)展, 已經具備相當?shù)木W絡、系統(tǒng)、應用規(guī)模,其監(jiān)控、管理數(shù)據(jù)也是相當海量之數(shù)據(jù),目前的監(jiān)控管理系統(tǒng)基本都是有其特定的針對性,無法滿足構建符合ITSM管理規(guī)范的整體運維體系的要求。在這種情況下,該集團采用Netbase全IT架構網絡管理系統(tǒng)。對所有IT設備,應用、服務進行集中監(jiān)控。
通過netbase,實現(xiàn)監(jiān)控自動化,對重要的IT設備實施主動式監(jiān)控,如路由器、交換機、防火墻、負載均衡、服務器操作系統(tǒng)、中間件、數(shù)據(jù)庫、業(yè)務應用等,通過對上述被監(jiān)控對象的可用性、性能、日志實現(xiàn)三位一體的主動監(jiān)控,設定監(jiān)控閥值、監(jiān)控策略,實現(xiàn)關鍵項目監(jiān)控的自動化;配置變更檢測自動化,IT設備配置參數(shù)一旦發(fā)生變化,將觸發(fā)變更流程轉給相關技術人員進行確認,通過自動檢測協(xié)助IT運維人員發(fā)現(xiàn)和維護配置;維護事件提醒自動化,通過對IT設備和應用活動的實時監(jiān)控,當發(fā)生異常事件時系統(tǒng)自動啟動報警和響應機制,第一事件通知相關責任人;系統(tǒng)健康檢測自動化,定期自動地對IT設備硬件和應用系統(tǒng)進行健康巡檢,配合IT運維團隊實施對系統(tǒng)的健康檢查和監(jiān)控;維護報告生成自動化,定期自動的對系統(tǒng)做日志的收集分析,記錄系統(tǒng)運行狀況,并通過階段性的監(jiān)控、分析和總結,定時提供IT運維的可用性、性能、系統(tǒng)資源利用狀況分析報告。
經過與錦泰保險項目人員的充分交流與測試,netbase完全實現(xiàn)了錦泰的各種需求。并實現(xiàn)了radware物理服務器監(jiān)控,單臺設備多websphere實例監(jiān)控,單臺設備多oracle實例監(jiān)控等特殊需求。
Websphere,JDBC連接池的監(jiān)控
由于錦泰業(yè)務處于一個高增長期,無法精確定義性能閥值,我們對此提出了動態(tài)閥值BaseLine的概念
BaseLine基線閥值是以天和星期為單位對監(jiān)控項目過去一段時間的平均監(jiān)控值進行統(tǒng)計和分析的一種方法,BaseLine基線閥值分為上行基線,下行基線和基線值,上行基線和下行基線是在基線值的基礎上網絡管理人員設定無故障范圍,基線值是對過去一段時間監(jiān)控值進行求平均值或求最大值。 BaseLine基線閥值的設立有助于對設備未來的發(fā)展趨勢進行判斷和分析,進而做到提前發(fā)現(xiàn)問題,進行預警。
隨著錦泰保險業(yè)務的不斷發(fā)展,運維人員人數(shù)也不斷增加,信息部肖總提出,基于以往的經驗,大多數(shù)故障可能并非安全原因及設備性能原因造成,而是由于內部人員的粗心大意造成(例如出于調試原因修改了設備配置,但是忘記改回來,windows域中管理員組的變動等等),因此如果能夠將設備的配置檢查及配置對比納入到監(jiān)控系統(tǒng),就能解決大部分類似問題。通過netbase開發(fā)部門的共同努力,最終我們實現(xiàn)了juniper,cisco,windows等常用設備的配置對比,一旦線上設備配置更改,管理員們就能第一時間接到通知,大大減少了人為原因導致的各位故障問題。