云原生時代,IT運維視角為何要轉向可觀測性?
云原生時代,可觀測性變成了基礎設施級的訴求。
隨著微服務、容器化的興起,云原生帶來的應用復雜度呈指數級上升,這種復雜度增加了系統狀態可視化的難度,企業對于系統可觀測能力提出了更高的要求。
2018年,“可觀測性”正式走向前臺,用于描述云原生環境下服務的狀態變量,加之包括谷歌在內的眾多大廠一擁而上,很快成為云原生技術領域最熱門話題之一。
“可觀測性”一詞誕生于幾十年前的控制理論。
在許多實際問題中,控制系統的狀態變量不是由直接測量得到的,而是通過某種觀測方法得到的,由某種觀測系統所得到的結果能否真實反映系統的狀態就是控制系統的可觀測性。
可觀測性可以完全反映系統狀態的特性,就像汽車方向盤下的各項儀表盤一樣,實時動態告訴我們車輛的時速、耗油、燈光、暖風等狀態特征。
進入云原生時代,應用的構建部署與運行時基礎設施都發生翻天覆地的變化,比如技術架構微服務化、運行時環境容器化、業務系統依賴關系復雜化,運行實例生命周期短等等,監控也隨著進行實時動態調整,傳統預先配置再監控的方式已經無法滿足云原生的場景。
因此,云原生可觀測性是指,從傳統軟件監控及數據分析可視化工具中,總結出在云原生領域中,從底層容器基礎設施、通用技術組件到業務應用系統全鏈路監控運維、運營治理等產品化體系化的能力訴求,確切的體現了云原生的核心理念。
相比監控更多偏向自動化工具,可以替代人自動監控系統異常,云原生可觀測性不僅包含傳統監控的能力,更多的是面向業務,強調將業務全過程透明化的理念。
在云原生時代,可觀測領域是一個大有可為的市場。
Gartner預測,到2024年,將有30%的企業會通過可觀測技術來提升數字化業務的運行性能,相比2020年的10%提升了3倍。
2023年,全球可觀測市場規模預計將達到164.94億美元。
“可觀測市場不斷增長,帶來的不僅是機遇,同樣也帶來了更多挑戰。企業對于可觀測的視野不再局限于應用程序,而是需要從全局的角度洞察云、網、邊、端的應用狀況,更加主動化、自動化和智能化地提升企業運維的效率。這不只是工具或技術的選型,更是一種理念。”博睿數據CTO孟曦東指出。
隨著云原生架構的演進,可觀測的邊界與分工被重新定義,傳統的容器、應用、業務分層監控邊界被打破,Dev、Ops、Sec的分工逐漸模糊。
業界開始意識到,IT系統作為一個有機的整體,對IT系統狀態的監測與診斷也需要一體化的方案。因此,All in ONE思想逐漸成為主流,運維行業也隨之發生了三個變化:
一是企業視角發生變化。以前企業更多關注系統運維層面機房建設、底層服務器的搭建、購買,現在基于云化基礎設施,企業更注重業務搭建、業務體驗優化以及業務運營。
二是運維職責發生變化。云化基礎設施對企業而言是不可見、不可控的,因此需要往平臺型、業務的方向轉型,轉向DevOps和SRE方向。
三是監控技術發生變化。云原生導致微服務和分布式趨勢增強,使得現在系統很難運維,需要監控技術從“監控”走向“可觀測”,構建起一套高效的排障體系。
對于運維行業的變化,博睿數據產品高級總監孫麗表示,云原生使企業從對底層系統資源的投入當中抽離出來,去更多關注上層應用、業務和用戶。在這種情況下,業務發展就變成了企業最重要的問題。
正是基于這樣的趨勢,博睿數據在經過幾年的摸索與實踐后,正式推出了一體化智能可觀測平臺ONE,該平臺旨在建立一體化、智能化、面向業務與用戶體驗的統一運維平臺,助力企業提高數字化體驗,為數字化轉型賦能升級。
此次博睿數據發布的ONE平臺,可以說是國內第一個將所有運維監控需求“All in ONE”的統一平臺。
ONE平臺從ITOM統一監控、AIOps智能運維、BizOps業務運營、DevOps效能提升四個應用場景出發,幫助客戶走出數據中心,打通云、管、邊、端, 通過代碼到客戶的全數據鏈DNA采集能力,結合ONE平臺的大數據及AI能力,實現傳統的產品工具到平臺+架構的轉型,構建以用戶為中心的新運維體系。
從產品定義看,“ONE”包含兩個統一:統一運維監控技術棧、統一運維數據治理體系。
ONE不僅滿足了所有監控需求,即開即用、隨時擴展的方式,也進一步降低運維管理門檻,提升了系統可觀測性廣度與深度。
同時,面向業務與用戶體驗運維,囊括了系統的所有觀測數據,進行統一管理,并提供豐富的集成擴展,解決因豎井式的監控帶來的數據割裂、重復建設、可觀測性差的問題。
作為互聯互通的統一運維平臺,ONE全面打通業務和運維,并明確業務指標、轉化率、客戶留存率、客戶流失率等,為運維人員提供指標豐富,降低運維管理門檻。
相比很多獨立的運維平臺,ONE可以給運維管理帶來怎樣的新體驗?
孫麗表示:“ONE平臺集告警收斂、異常檢測、根因定位、智能見解于一體,聚焦業務與用戶體驗的運維體系,幫助用戶實現從孤立的工具到統一運維平臺的建設要求,降低獲客成本及協同難度,打造極致的平臺體驗。”
ONE的優勢之一在于展現出較強的關聯性,完整復刻出數字化系統的數字孿生,在保證全面可觀測的同時,也能掌握監控實體間的關系及其屬性信息,實現關聯追蹤,解決排障難、檢索追查難等痛點,大大提升了排障效率,實現了系統之間的真正融合。
同時,ONE將AI能力與運維相結合,形成集信息、經驗、智能決策融合的智能見解能力,能夠基于AI和規則自動發現問題并給出根因,解決虛假問題擾亂運維、告警風暴、根因定位效率低的問題,助力運維人員快速排除故障,進而提高運維效率。
從應用角度來看,ONE更好地兼顧了行業性與通用性,對于企業更加友好。據孟曦東介紹,ONE將二次建設能力開放給行業客戶,讓客戶自己去調用,也可以開放給生態合作伙伴進行調用,以此來滿足不同場景、不同行業客戶的需求。
通過做一些“樣板間”,實現“開箱即用”通用能力,個性化需求則可以在ONE平臺的產品能力進行二次設計,幫助行業客戶實現邏輯分析以及不同場景的應用。
隨著ONE這樣的一體化運維平臺的出現,我們看到了可觀測平臺的一條發展路徑:基于系統和服務觀測的角度把不同數據在后端融合分析,而不是刻意強調系統支持可觀測性數據的分別查詢,在產品功能和交互邏輯上盡可能消除指標、跟蹤、日志的割裂。
通過一體化平臺,企業能夠建立完整可觀測閉環,從事故前異常發現、事故中故障排查到事故后的主動預警監控,為業務提供持續監控、優化服務性能。
本文來自微信公眾號 “科技云報道”(ID:ITCloud-BD),36氪經授權發布。