品牌名稱
國泰君安證券
企業規模
10000人以上

國泰君安證券利用DeepFlow云網分析,提升云管控能力和云資源利用率。

338次閱讀

DeepFlow云網分析國泰君安證券,提升云管控能力和云資源利用率。

 

一. 云管控的重要性


金融云承載業務后,不能僅停留在資源池的建設上,網絡是有效實現金融云整體管控重要的一部分。在云中,網絡的管理涉及到物理網絡層、網絡虛擬化層、邏輯網絡層等多個層面,而傳統的網絡管理手段僅涉及到物理網絡層,主要針對網絡交換矩陣,防火墻、負載均衡等有完整的運維管理方案,但對直接承載業務的邏輯網絡的管理仍是一個業內亟待解決的新難題。

規模及異構

隨著對業務部、租戶服務落地,云資源池通常在一個可用域(AZ,Availability Zone)內,會有 100-400 臺計算節點,存在幾百個虛擬交換機;在整個云建設中,按照功能角色分區測試云、生產云、公有云等模塊;單一類型的資源池并不是企業混合云的最優選擇,通常涵蓋 VMWare、Openstack、容器、裸金屬等資源池。在此環境中,完整獲取網絡流量就是首要解決的問題。

集中式與分布式

在云環境中,集中單點處理網絡流量數據不是一個好的選擇,會導致性能瓶頸。為提供對業務的服務保障,需要對云網完全掌握,打開虛擬網絡“黑盒”,需要選型先進的技術架構,對所獲取云網內南北向、東西向流量進行處理、分析。分布式的處理能力需要應用到其中,根本上克服單點故障、實現橫向擴展并避免高額投入。

排障定位

對快速運維排障而言,單一地分析網絡流量在云網環境中是遠遠不夠的。云管信息、虛擬機信息、配置管理信息、部門租戶信息等等都要關聯至現網流量、并且有能力對物理交換矩陣、網絡虛擬化、邏輯網絡進行映射,第一時間判斷問題所在點迅速協調進行排障應對。

安全

云內網絡安全對于生產業務是不能回避的問題,通過安全策略實現業務邏輯網絡安全隔離后,業務數量增加、策略數量也隨之增加,通過現網流量對已有策略的驗證以及異常、突發流量的分析,方可實現在云內龐大網絡環境下發現安全隱患的能力。

 


二. 云流量采集分析是云管控的重要手段


云網監控系統是整個業務安全生命周期中的重要一環,可以事前及時預警發現故障,事后提供翔實的數據用于追查定位問題。一個穩定、高效的監控系統需要具備強大且靈活的數據采集力。數據中心傳統物理網絡的流量獲取主要通過分光、鏡像方式解決,但無法滿足和應用于云網絡。平臺化解決云網流量采集難題,需要滿足以下幾點:

避免對生產環境侵擾

物理鏈路分光方式無法采集到虛擬交換機內的網絡流量,如果對虛擬交換機直接配置鏡像策略進行流量獲取,將會直接導致生產數據包轉發性能下降。作為生產數據平面虛擬交換機,通常已經由 SDN 控制器配置了大量的生產轉發策略,所配置的流量鏡像策略有可能與轉發策略沖突,存在造成生產事故的風險。此外,SDN 控制器在下發策略配置時,有可能清除所有策略,導致流量鏡像失敗、監控平面與生產數據平面界定不清晰等問題。


對監控系統負載的管控能力

云網流量采集系統需分配及限定每一個采集器的資源占用,保障生產平面的資源配給,當監控負載過高或超限時,不影響生產環境的交換轉發。在混合云環境中,面對幾百上千臺宿主機的規模,有統一的控制器對流量采集進行管理控制,并應對虛機遷移后的采集策略跟隨變更。


對監控數據包細粒度的管控能力

完全地不加選擇地進行全網數據包采集是不合理的方案,會造成存儲資源浪費以及針對性問題的檢索分析困難。根據業務的重要性,對其監控也有所側重。在運維監控體系的設計中,重點業務需要保證一定周期的原始數據包留存,非重點業務可以僅保存網絡元數據或者數據包報頭信息,并有能力進行打標簽及數據匯聚。在采集平臺中,具備對宿主機、IP、業務資源組、虛擬機等維度過濾,并且有去重、截短、取元等預處理能力。

 


三. 金融云網絡數據運營平臺


對于金融云的整體管控,國泰君安并不僅僅是以簡單的運維工具視角來規劃,而是以整體云數據中心智能化來進行設計規劃。以數據中心未來發展的眼界建設整體網絡數據平臺,并有效解決現階段混合云運維運營問題。

undefined

目前金融云網絡數據平臺基于云杉網絡 DeepFlow®已完成建設,具備對混合云網絡流量管理、運維排障支撐、開放對接等能力。


平臺化、系統化全網流量采集

對數據中心互聯網接入線路、專線線路、云內邏輯網絡進行全網流量采集,包括 VMWare、Openstack 等多數據中心資源池。有控制器能統一控制千數量級的采集點,并實現對重點業務所涉及流量 30 天數據包留存查詢、全網網絡元數據回溯能力,每個采集器資源開銷僅占用 1 核 CPU 和 2G 內存。


高性能時序數據庫

基于網絡流量時間序列數據的特點,關系型數據庫、對象數據庫無法滿足對時間序列數據的有效存儲與處理,平臺基于高性能、可擴展時序數據庫對網絡流數據進行存儲并提供查詢能力。

全網可視

虛擬網絡不再是運維“黑洞”,云網全景圖基于現網流量,繪制資源視角、地域視角、業務視角的流量拓撲視圖,關聯云平臺、部門租戶、配置管理信息,快速定位邏輯網絡、虛擬機網絡故障。


精細化運營

網絡不再與業務割裂,資源組定義業務所使用的資源集合,通過網絡流量以及業務端口繪制業務熱點視圖,為運營部門對網絡資源調度、計算資源回收提供科學依據。


DeepFlow® 控制器支持 Openstack、VMWare、容器等私有環境,同時可擴展支持阿里云、騰訊云、AWS 等公有云環境的部署,支持后續混合云建設擴展。同時 DeepFlow® 秉承了開放可編程的特性,北向提供標準的 Restful API 接口,為數據中心整體大數據平臺提供網絡流量數據支持及擴展。

 

 

四. 金融云后續展望

建設智能化云數據中心是國泰君安的目標,以應對未來更加豐富的證券行業業務、提升管理效率,保障平臺可靠穩定。網絡做為基礎設施的重要組成部分,在未來的發展過程中,必定更加復雜,規模也將超出單純靠人力運維的能力范圍,更全面的自動化乃至基于意圖的網絡系統( IBNS : Intent-based networking system)是可預見的網絡未來。

undefined在國泰君安的云實踐中,網絡編排、網絡服務與網絡數據平臺是云網建設的整體框架(如下圖所示),避免割裂并保持同步推進。

undefined網絡管控方面建設云網互聯和服務平臺,實現控制與編排解耦,北向為私有云管理平臺提供單一資源池網絡虛擬化、跨多資源池網絡編排能力,南向適配各類交換矩陣,通過建立邊界服務資源池,為私有云平臺提供網關、防火墻、負載均衡等網絡服務。網絡監控方面持續完善云網數據平臺,將廣泛擴展至整體數據中心,并針對性的將網絡流量分發至更豐富的工具鏈及數據消費部門,在審計、安全等方面提供完整的數據服務。