品牌名稱
萬科地產(chǎn)
企業(yè)規(guī)模
1001-5000人

萬科運用DeepFlow進行多云網(wǎng)絡(luò)流量管理平臺建設(shè)。

398次閱讀

1. 萬科地產(chǎn)的轉(zhuǎn)型之路


企業(yè)對云的認識越來越成熟,行業(yè)云、私有云逐漸成為企業(yè)的選擇。萬科企業(yè)股份有限公司(以下簡稱“萬科”)對科技、互聯(lián)網(wǎng)的擁抱由來已久,早年便有向互聯(lián)網(wǎng)企業(yè)學(xué)習(xí)的歷史,王石曾在一次演講中表示,萬科向技術(shù)轉(zhuǎn)型是必然的趨勢。2016 年萬科啟動了“沃土計劃”,開啟了萬科內(nèi)部的一場信息化革命,為保證沃土計劃的落地實施,萬科組建萬翼網(wǎng)絡(luò)科技有限公司(以下簡稱“萬翼科技”)。


萬翼科技是萬科集團的全資子公司,是向萬科集團以及所有下屬子公司、相關(guān)關(guān)聯(lián)公司提供 IT 規(guī)劃、開發(fā)和運營服務(wù)的 IT 科技服務(wù)提供商。萬科云正是在這樣的背景下迅速發(fā)展起來的。隨著萬科的轉(zhuǎn)型,多元業(yè)務(wù)戰(zhàn)略對業(yè)務(wù)間整合、客戶資源打通、信息系統(tǒng)建設(shè)等提出了更高的要求,萬翼科技扮演的角色越來越重要。萬科希望自己扮演的角色是一個全新的生態(tài)構(gòu)建者、連接者,采用“重服務(wù),偏運營”的方式將產(chǎn)業(yè)上下游的要素進行聚集,進而對產(chǎn)業(yè)鏈進行重構(gòu),形成新的生態(tài)系統(tǒng)。

 

2. 萬翼科技的多云戰(zhàn)略


據(jù) RightScale 2019 年云狀態(tài)報告顯示,84%的企業(yè)采用了多云戰(zhàn)略。混合云的優(yōu)勢在企業(yè)上云過程中愈發(fā)突顯,各大廠商也在混合云市場繼續(xù)發(fā)力使得多云管理、云網(wǎng)協(xié)同和安全方面的能力不斷提升,混合云在各個行業(yè)的應(yīng)用越來越深入。在這樣的背景下,萬翼科技選擇了多云架構(gòu)作為集團業(yè)務(wù)上云的基礎(chǔ)支撐。萬翼科技在不同階段分別上線了阿里公有云、微軟 Azure 公有云、華為公有云、VMware 私有云、華為私有云共計 5 個云資源池平臺以滿足業(yè)務(wù)發(fā)展的需要。


2.1. 多云異構(gòu)帶來的挑戰(zhàn)


與眾多企業(yè)一樣,虛擬網(wǎng)絡(luò)如何監(jiān)控分析成為萬科的新課題。萬科這 5 朵云由于缺乏有效的虛擬網(wǎng)絡(luò)分析工具和手段,無法對其進行統(tǒng)一的管理,因此迫切希望構(gòu)建統(tǒng)一的混合云管理平臺提高運營效率,以確保萬科云持續(xù)高效安全地運行。


業(yè)界已形成共識,針對傳統(tǒng)網(wǎng)絡(luò)的監(jiān)控分析方法無法適應(yīng)云時代的需求,目前萬科云平臺在虛擬網(wǎng)絡(luò)監(jiān)控分析方面還存在一些空白。采用多云架構(gòu)之后,萬科云的管理團隊遇到了基礎(chǔ)設(shè)施資源池多樣化、異構(gòu)資源池統(tǒng)一監(jiān)控難、資源和服務(wù)的調(diào)配能力與效率低等困難。


業(yè)界對于多云環(huán)境的統(tǒng)一網(wǎng)絡(luò)監(jiān)控尚在探索之中。云杉網(wǎng)絡(luò) DeepFlow® 獨有的采集器技術(shù)能夠同時運行在不同的資源池環(huán)境中,單臺控制器可以對接多個不同的云平臺和管理數(shù)千個采集器,從而實現(xiàn)多云異構(gòu)環(huán)境下統(tǒng)一的網(wǎng)絡(luò)監(jiān)控和分析,由此成為市場上能夠匹配萬翼科技的 5朵不同云的最佳選擇。通過采用 DeepFlow® 方案,萬科云得以建設(shè)并實現(xiàn)如下目標:

2.2.1. 東西向流量采集能力


針對 5 朵不同的云平臺,實現(xiàn)對部分直接在宿主機內(nèi)部完成傳輸?shù)臇|西向流量的采集,破除虛擬網(wǎng)絡(luò)帶來的黑盒效應(yīng)。


2.2.2. 全網(wǎng)可視化能力


實現(xiàn)包括虛擬網(wǎng)絡(luò)以及混合網(wǎng)絡(luò)中端到端的網(wǎng)絡(luò)可視化,生產(chǎn)網(wǎng)絡(luò)和業(yè)務(wù)網(wǎng)實時數(shù)據(jù)以及歷史網(wǎng)絡(luò)數(shù)據(jù)的可視化等。


2.2.3. 基于租戶網(wǎng)絡(luò)的計量能力


通過對接云平臺及基于 SDN 的虛擬網(wǎng)絡(luò),區(qū)分租戶網(wǎng)絡(luò)并實現(xiàn)對租戶網(wǎng)絡(luò)流量精確的采集、統(tǒng)計能力。


2.2.4. 虛擬網(wǎng)絡(luò)異常感知能力


通過對虛擬網(wǎng)絡(luò)流量的分析,實現(xiàn)對業(yè)務(wù)網(wǎng)絡(luò)變更、網(wǎng)絡(luò)故障惡化、網(wǎng)絡(luò)異常的自動感知及告警能力。


3. DeepFlow® 解決方案


萬翼科技在經(jīng)過反復(fù)調(diào)研和詳細溝通后,選擇了部署 DeepFlow® 虛擬網(wǎng)絡(luò)流量采集與分析系統(tǒng)軟件,以現(xiàn)有的 5 個云平臺網(wǎng)絡(luò)數(shù)據(jù)為核心,通過對其虛擬網(wǎng)絡(luò)流量進行采集和分析,實時監(jiān)控云平臺網(wǎng)絡(luò)運行情況,保障網(wǎng)絡(luò)安全高效地運行。


3.1. 方案概述


在萬科云項目建設(shè)中, DeepFlow® 平臺對接范圍包括阿里公有云、VMware、華為公有云、華為私有云、微軟公有云共 5 個平臺。通過部署 DeepFlow® 采集器、控制器和分析器三大組件,幫助萬翼科技在混合云環(huán)境中實現(xiàn)了虛擬網(wǎng)絡(luò)流量的統(tǒng)一采集和實時分析,實現(xiàn)對業(yè)務(wù)關(guān)鍵鏈路的全面性能監(jiān)控,并提供虛擬網(wǎng)絡(luò)端到端的路徑診斷。


● 采集器運行于萬科 5 朵云的計算節(jié)點,通過從控制器獲取 ACL 規(guī)則,提供對萬科云環(huán)境中的網(wǎng)包數(shù)據(jù)完備的采集和預(yù)處理能力(如過濾、分發(fā)、Flow 生成、Flow 截取、脫敏等功能)可精細地實現(xiàn)對萬科云網(wǎng)絡(luò)流量的采集和分析。
● 控制器組件以集群模式旁路部署在萬科云本地資源池的標準 x86 服務(wù)器中,提供萬科 5 朵云的對接和全部采集器的管理以及采集策略的管理。
● 分析器組件部署方式和控制器相同,提供豐富的實時分析和回溯取證等功能,并根據(jù)項目規(guī)劃要求,支持橫向擴展。


3.2. 部署實施


在項目實施過程中,控制器和分析器旁路部署在萬科云本地資源池的 x86 集群,控制器通過對接萬科云平臺實現(xiàn)了虛擬機遷移感知,從而實現(xiàn)了采集策略的自動化跟隨;同時 DeepFlow® 擁有對自身系統(tǒng)的全面監(jiān)控能力,以確保平臺穩(wěn)定運行且不會對萬科云環(huán)境造成影響。根據(jù)萬科 5 朵不同云的技術(shù)差異,采集器組件在不同的云環(huán)境中,采取了如下部署方式:


1. 在基于開源 OpenStack 云平臺環(huán)境(如華為私有云)中,采集器以用戶態(tài)進程的形式安裝在宿主機上,利用宿主機操作系統(tǒng)自身內(nèi)核的功能模塊,對其虛擬網(wǎng)卡進行流量采集。
2. 在 VMware 云平臺、微軟 Hyper-V 虛擬化環(huán)境和其他公有云中,通過在獨立虛擬機中安裝采集器的方式,借助宿主機或公有云操作系統(tǒng)自帶的虛擬交換機功能實現(xiàn)流量的采集。

 

3.2.1. 云網(wǎng)全景圖


萬科云平臺對資源上下級的關(guān)聯(lián)展示有所缺失。例如網(wǎng)管平臺只有宿主機與虛擬機的信息關(guān)系,而云平臺又只有 VPC、子網(wǎng)、虛擬機信息;當宿主機故障時,無法判斷影響了哪些客戶的哪些資源。借助 DeepFlow® 資源拓撲既能查看資源的所有云平臺信息、流量統(tǒng)計信息,又能根據(jù)不同視角來查看資源的關(guān)聯(lián)關(guān)系;例如 VPC 視角能將 VPC 關(guān)聯(lián)的虛擬網(wǎng)關(guān)、VPC 所包含的子網(wǎng)、虛擬機、虛擬路由器、虛擬安全組、外網(wǎng)/內(nèi)網(wǎng) IP 等全部呈現(xiàn)。

現(xiàn)有的流量統(tǒng)計和管理工具中,基本具備對單資源點的監(jiān)控,但多資源之間的流量走向關(guān)系卻不能直觀地可視化,因此則不能進行帶寬資源優(yōu)化,也不能監(jiān)控流量到底流向何方。

借助 DeepFlow® 流量拓撲能力,萬科云平臺的運營者不僅能從大范圍到小范圍層層深入揭示流量拓撲關(guān)系,也能窺見資源與資源之間、資源與 Internet 之間、資源與未知流量之間的關(guān)系。

3.2.2. 云網(wǎng)診斷


云時代東西向流量占比越來越大,虛擬網(wǎng)絡(luò)越來越得到重視,但虛擬網(wǎng)絡(luò)問題的定位還處在蠻荒期,多數(shù)場景下都是一邊人工查看配置信息,一邊找到對應(yīng)設(shè)備,一邊導(dǎo)流量分析的狀態(tài)。云平臺運營者無法準確知曉業(yè)務(wù)部門提出來的帶寬需求是否合理;也不知道虛擬機的投放是否符合業(yè)務(wù)需求;不清楚東西向的流量與南北向流量的變化;難以區(qū)分哪些業(yè)務(wù)的流量產(chǎn)生了異常;不能預(yù)判活躍 TCP 端口是否有變化。

萬科的 5 朵云不同程度地遇到了上述問題,要解決上述問題需要先解決東西向流量帶來的巨大壓力。DeepFlow® 依靠精準的流量預(yù)處理能力,從多資源維度、多租戶視角、多流量場景、任意時間粒度來統(tǒng)計與分析云網(wǎng)流量、包量,針對業(yè)務(wù)畫像梳理出來的業(yè)務(wù)做可視化監(jiān)控。

此外,DeepFlow® 提供了豐富的可自定義告警設(shè)置,萬科通過對不同的云資源池、設(shè)定詳細的網(wǎng)絡(luò)性能監(jiān)控指標和告警閾值,從而實現(xiàn)了快速發(fā)現(xiàn)和定位業(yè)務(wù)網(wǎng)絡(luò)異常;結(jié)合支持五元組采集過濾的 PCAP 下載功能,滿足了故障回溯取證的需求,覆蓋了故障事前預(yù)警和事后分析的全場景。


4. 價值總結(jié)


在不侵擾生產(chǎn)網(wǎng)絡(luò)、不影響業(yè)務(wù)連續(xù)性的前提下,DeepFlow® 通過與萬科多云平臺的對接,在層次復(fù)雜的虛擬網(wǎng)絡(luò)環(huán)境中從服務(wù)和應(yīng)用角度,梳理并監(jiān)控業(yè)務(wù)網(wǎng)絡(luò),通過對網(wǎng)絡(luò)指標的異常信息進行實時分析,為業(yè)務(wù)在虛擬網(wǎng)絡(luò)中的運行狀態(tài)提供及時的監(jiān)控告警。萬科云通過部署 DeepFlow® 實現(xiàn)了異構(gòu)云資源池虛擬網(wǎng)絡(luò)流量的按需采集、統(tǒng)一管理,解決了多云環(huán)境下虛擬流量的一體化管理和分析,為萬科集團的業(yè)務(wù)整合、資源打通和基礎(chǔ)設(shè)施建設(shè)打下了堅實的
基礎(chǔ)。