天弘基金構建云管平臺:兼具運營分析和容災演練能力
天弘基金的云管平臺不止于IT資產統一納管。
成立于2004年天弘基金是經中國證監會批準設立的全國性公募基金管理公司之一。2013年,天弘基金與支付寶合作推出余額寶,是天弘余額寶貨幣市場基金管理人。
作為一家行業內知名的公募基金管理機構,天弘基金的業務范圍已經覆蓋了二級市場股票投資、債券投資、現金管理、衍生品投資、股權投資、債券投資等領域,管理運作的公募基金超過50只。與業務規模擴充相對應的,是企業IT系統的持續擴張和演進。尤其是隨著互聯網金融市場的高速發展,天弘基金IT系統向云轉型的進程進一步加快。
在云計算的時代,天弘基金面對的一個重要挑戰就是——IT運營模式從傳統運維模式向服務運營模式的轉變。
經歷了十余年的建設,天弘基金的IT基礎設施種類繁多,從數據中心的虛擬化到各種類型的公有云,云主機的數量急劇增長,與之配套的網絡服務、安全服務、運維監控平臺、容災系統也陸續上線。
整體看來,天弘基金面向傳統數據中心與云服務的綜合運維體系建設已經相對完整,但是隨著在云服務體系下資源申請、交付、回收頻率的快速攀升,IT運維體系的建設與運營也遇到了一系列的新問題。
挑戰:運維體系建設日臻完善,管理難度加大
作為一家行業領先的基金公司,天弘基金的運維體系建設十分完善,但是運維體系的各個組件或者子系統并沒有很強的關聯性,彼此之間獨立、分散,IT運營的整體效率難以提升。
具體來說,天弘基金面臨的現實的挑戰包括以下幾點:
■ 敏捷開發加大了資源交付的壓力。天弘基金現有的基礎設施分為云上、云下兩種場景,業務部門在申請資源時,會由云上或云下的管理員以半自動(手動+腳本)的方式進行交付。但是隨著業務的快速發展,自動化、自助化的資源交付需求變得越來越強烈;
■ 異構基礎設施帶來的管理復雜性。隨著天弘基金業務系統的不斷增多,IT基礎設施的規模和種類持續增加,從虛擬化到公有云,再到專有云,這些異構的基礎設施都只能在各自的管理門戶中獨立進行管理;
■ 多云環境下的成本控制、費用分析、預算管理難度持續增加。伴隨著越來越多的基礎設施建設并投入運營,以及對公有云服務的廣泛應用,IT成本分析以及預算制定難度越來越大;
■ 容災流程不清晰、不透明導致的信息有效性差,狀態更新不及時。基金業務的應用邏輯復雜,為了保證業務的有效性和連續性,天弘基金每年都會做一次大型的容災切換演練。但從以往的經驗看,災備切換演練需要耗費大量的人力物力,雖然結果令人滿意,但過程仍然存在很多瑕疵。
目標:實現IT服務化轉型,運維者向運營者的角色轉變
針對現階段IT運維面臨的種種問題,天弘基金信息技術部制定了詳細的目標與規劃。經過細致的調研和評估,天弘基金認為,建設云管平臺有助于快速實現IT基礎設施的服務化,并且積極推動企業IT從傳統的運維模式向服務運營的方式轉變。
經過梳理,天弘基金將云管平臺的能力建設具體到以下幾個方面的內容:
1、構建云管平臺,實現多云基礎設施統一納管,面向業務用戶提供自服務
建設獨立于異構基礎設施的云管平臺,對現有基礎設施進行統一納管。同時,基于云管平臺的多租戶能力,結合規范與流程,向業務用戶提供自服務,進而實現在一個統一門戶下各類型IT資源的自動化構建與發放。
2、強化云管平臺的運營分析能力,構建云費用分析模塊
在建設云管平臺時同步強化平臺自身的運營分析功能,從財務的角度增進天弘基金的IT運營能力,構建信息技術部成本收益衡量體系,量化基礎設施的成本與收益。這樣做的目標是在降本增效的前提之下,提升業務的投資回報率。
3、建設邏輯鮮明、流程清晰的容災可視化系統
開發具備實時展現能力的容災切換大屏,提升基于應用事件觸發工作的自動化能力。容災大屏完整對接云上、云下的各類容災安全產品,實現安全策略與配置流程的自動化與實時展示。
實踐:落地具備運營分析和容災可視化能力的云管平臺
基于FIT2CLOUD云管平臺,天弘基金信息技術部構建了符合基金業務運維與交付場景的自動化運維門戶。截止2019年年底,這一項目已經完成兩期建設。
目前,天弘基金的云管平臺實現了對VMware虛擬化、阿里云、阿里金融云、螞蟻金融云等多云基礎設施的統一納管,并且完成了云管平臺與企業OA流程管理系統的對接,實現了IT資源基于現有流程體系的申請與發放,為業務人員和運維人員提供資源全生命周期的管理能力,并且向管理者和決策者提供細粒度的運營分析視圖。
附圖 天弘基金云管平臺建設方案
■ 借助統一服務門戶釋放資源管理能力
基于云管平臺的多租戶體系,運維團隊向開發與項目部門的用戶提供多云基礎設施中的服務目錄。用戶可在服務目錄中自行申請所需的操作系統及中間件服務,經過管理員的合規性審批后,由云管平臺自動構建相應的服務,并交付給申請者。同時,用戶還可以通過云管平臺對資源進行全生命周期管理,實現云主機的啟停、配置變更、克隆等自助式運維操作;
■ 構建云資源運營及費用管理模塊
天弘基金在基于云管平臺實現多云基礎設施統一納管的基礎之上,借助云管平臺的標簽功能,完善云主機的各項基礎元數據,使得原本分散的各類信息在云管平臺中進行統一的展示和管理。
另一方面,充分利用云管平臺的云費用管理模塊,依托私有數據中心計量計費模型,并且同步公有云賬單,持續地對IT系統的資源、費用等使用情況進行各個維度(通過資源所屬租戶與標簽等信息)的度量、分析和優化,從費用分析入手,明確費用分攤。這樣做可以更加明確地管控企業云資源整體的支出和預算,結合云管平臺的資源分析能力,制定費用優化策略,繼而改進預測和預算,提升云費用管理的效率和成熟度;
■ 通過云管平臺的開放性接口,整合內部運維系統
云管平臺提供了開放性的接口,通過對接各類平臺,實現運維管理的全閉環操作,保證資源在創建前和創建后自動同步各類信息數據,靈活調用各類服務。目前,天弘基金已經通過云管平臺對接了OA系統、網絡自動化平臺、部分監控平臺及安全服務平臺等。通過既有管理系統與云管平臺的集成與整合,實現了運維體系的自動同步與自動化配置。
收益:IaaS及IaaS+服務的智能化、自動化運營
經過兩期云管平臺的建設,天弘基金已經實現了多云基礎設施的統一管理,并且在日常運營管理的過程中深度結合了費用管理的能力,至此天弘基金的IT服務化與運營的轉型目標基本實現。云管平臺為天弘基金帶來的收益包括:
■ 資源交付全面轉向自動化,通過云管平臺的統一門戶,業務部門可按需快速申請并獲取所需的云服務資源,在釋放運維管理人力的同時,加速了業務的敏捷交付與投產;
■ 實現了對異構資源的統一管理與統計分析,管理員通過云管平臺可實時了解資源使用情況,資源利用率大幅提升;
■ IT費用全面可視化、透明化。通過多維度的費用分析與優化建議,實現了IT費用的可計量、可分攤,結合費用使用趨勢對未來的基礎設施建設做出合理預測;
■ 通過容災大屏系統有效規范容災流程,實現了容災過程的標準化。通過前端視圖為操作者、管理者和決策者實時、動態的展示容災進程。
規劃:實現資源與服務的一站式交付,構建IT技術中臺
結合企業IT的未來發展趨勢,天弘基金也對云管平臺提出了更高的要求,云管平臺未來在整體IT架構中所扮演的角色也更加明確。
■ 現階段,天弘基金已經基于云管平臺實現了IaaS及IaaS+服務的自動化交付,而業務部門對于一站式資源申請的需求日益強烈。后續會通過云管平臺實現對負載均衡、公有云服務(RDS、SLB、OSS等)、備份等產品的服務化,實現在資源創建完成后可自動創建相關網絡、安全等服務的目標;
■ 云管平臺還將成為天弘基金監控體系的集大成者。目前天弘基金有多套監控平臺共存,這些監控平臺管理的對象包括服務器、存儲、網絡、機房及應用等。由于監控信息分散在不同的系統之中,需要統一的監控視圖對不同的告警進行展示,并且將歷史發生的事件進行沉淀,最終形成一個方便使用者發現處理、方便決策者觀察評估的統一監控門戶;
■ 由于IT資產規模龐大并快速增長,且各類資產都具有一定的關聯性,企業IT服務化運營的復雜性持續增加。復雜的關聯信息和邏輯管理會帶來較大的人力成本消耗,天弘基金計劃通過持續強化云管平臺在運營分析方面的能力實現各類型資產的全面可視化管理,確保多云基礎設施的智能化運營能力。