自研數據中心專用處理器,阿里云的“芯”邏輯是什么
國內云計算產業走到了新的十字路口:一方面,云廠商競爭愈加關注市場、訂單、價格;此外,云計算技術正在進入下一代架構關鍵技術突破期
文 | 吳俊宇 陳伊凡
編輯 | 謝麗容
國內云計算市場經歷過去幾年高速增長之后,正在進入調整階段。
目前,云廠商的收入增速在回調。與此同時,云計算技術正在進入下一代架構關鍵技術突破期。2020年之后,亞馬遜AWS、微軟Azure、英偉達、英特爾正在加速改造云計算基礎設施設計方法,試圖定義下一代云計算架構。比較通用的做法是,整合集群架構、改善算法與管理軟件、定制芯片和硬件等,重塑基礎設施。
今年年初,多位云廠商高管曾對《財經十一人》表示,國內云市場目前存在一些偏離健康軌道的現象。比如,過度關注市場、訂單、價格競爭,忽略用技術創新引導客戶需求。本土、海外環境在變化,國內云廠商走到了十字路口。
6月13日的2022年阿里云峰會上,阿里云智能總裁張建鋒表示,阿里云今年最重要策略是“Back to Basic”,回歸云計算技術本質,堅持技術“長征”。在關鍵階段,阿里云試圖為下代云架構提前布局。
阿里云在此時發布了一款自研的云數據中心專用處理器。這款處理器被稱為CIPU(Cloud Infrastructure Processing Units 數據中心專用處理器)。CIPU相對輕量級,并不是公眾熟知的通用計算類芯片,而是專用于云計算數據中心的管控,可以綜合調度CPU(Central Processing Unit,中央處理器)、GPU(Graphics Processing Unit ,圖形處理器)、存儲硬盤、交換機等硬件。
理論上說,這款處理器會減少云廠商管理數據中心的損耗,讓數據中心算力更強、網絡更快,但算力成本不會明顯提升。阿里云基礎產品負責人蔣江偉在接受《財經十一人》等媒體采訪時表示,該處理器已經在阿里云數據中心規模使用。但阿里云方面并未披露硬件方面的關鍵技術指標。
阿里云智能總裁張建鋒表示,基于傳統的以CPU為中心的體系架構已觸及瓶頸。新一代的云計算要從數據中心內部做體系化創新,從以往的以CPU為中心的體系架構,進入以CIPU為中心的體系架構。
他解釋,這款云數據中心專用處理器CIPU是阿里云的管控中心。向下接入數據中心的計算、存儲、網絡資源,快速云化并進行硬件加速;向上接入飛天云操作系統,管控阿里云全球上百萬臺服務器。
阿里云推出CIPU,部署下一代云架構,要先從海外云廠商、芯片廠商的動作談起。
2020年后,海外云廠商、芯片廠商在加速設計下一代云計算基礎設施的架構。新架構中搭載云操作系統的處理器從CPU變成了一個新的硬件處理器。這個硬件由軟件定義、并對數據進行硬件加速。
為什么要這樣做?本質原因是,CPU芯片不是為了搭載云操作系統而設計。CPU的優勢是單核性能強,在指令性計算任務處理時,性能優異,但天生的數據吞吐能力小,遇到分布式大數據系統就要消耗30%到50%資源用于搬運數據。
隨著數據密集型計算變多,海量數據在不同系統中搬運計算。這時,站在系統內部“十字路口”中心位置的管控CPU就變成了“壞掉的紅綠燈”,數據擁堵導致性能下降。因此,需要引入新的芯片硬件,替換掉這個“紅綠燈”,讓數據流動通暢起來。
亞馬遜的方案是Nitro。2020年亞馬遜CTO沃納·沃格斯公開撰文稱,傳統架構已經優化到了極限。沃格斯以AWS的客戶場景舉例,然而在傳統架構下,仍然約30%的資源浪費到了算力、網絡、存儲的運營和調度管理上。這些資源沒有為客戶提供直接價值。
他提出的解決方案是,把大部分虛擬機管理程序遷移到專用硬件。早在2017年,亞馬遜AWS就試圖用Nitro系統取代上一代架構。相比于CPU芯片像“牛刀”,Nitro像是“手術刀”,可以精準解決云資源調度的問題。
在產品形態上看,Nitro既是硬件產品,也是軟件系統。作為硬件,Nitro是個盒子。其中包括若干個硬件模塊(操作系統芯片、安全芯片、網絡加速模塊等)。作為軟件,Nitro是數據中心的管理模塊,能直接調度監控計算、存儲、網絡等硬件資源。
阿里云基礎產品負責人蔣江偉也強調,阿里云的CIPU和亞馬遜AWS的Nitro定位類似。它既是硬件盒子,也是管控系統,對接飛天云操作系統。CIPU主要由專用芯片和控制器構成,形態像盒子或智能網卡,主要用于管理飛天云操作系統。
阿里云基礎產品架構師黃瑞瑞則認為,這款CIPU針對阿里云的神龍計算平臺、盤古存儲平臺、洛神網絡平臺、安全內核進行了深度的適配,會讓阿里云的計算、存儲、網絡、安全性能有更好的表現。但阿里云的客戶不會因為CIPU增加用云成本。
亞馬遜AWS、阿里云這些云廠商在定制云架構的專用芯片時,芯片廠商也在同步推出相應的芯片,試圖改造云基礎設施。
2020年之后英特爾、英偉達等芯片巨頭也在推出類似的數據中心產品。英特爾的IPU(Infrastructure Processing Units,基礎設施處理器)和英偉達的DPU(Data Processing Unit,數據處理器),雖然技術路徑南轅北轍,但目標都非常一致——設計一個新的管控處理器,替換掉CPU的管控職能。
網絡處理器廠商博通也有相關動作,其知名產品是NPU(Network Processing Unit,網絡處理器)。博通在今年6月收購云計算與虛擬化廠商VMware,其意圖是以網絡芯片定制能力切入,改造數據中心。
一位半導體專業技術人士對《財經十一人》表示,英特爾原本就是CPU巨頭,推出IPU是滿足數據密集型場景的高帶寬需求。英偉達則希望用DPU連接GPU,進軍數據中心市場,彌補短板。
一位云計算專業技術人士告訴我們,亞馬遜AWS的Nitro、阿里云的CIPU、英特爾的IPU、英偉達的DPU各家定義和側重不同,定制芯片的產品職能也有部分重合。但核心在于各家不會對外透露的產品設計,“這個硬件不同于其他,這個位置是軟件和硬件的連接端口,要做到軟硬件完美融合,才能是個好產品。”
阿里云表示,CIPU不會對外出售,因為這款產品是專門為飛天操作系統量身定制,做到了軟硬一體的最佳融合。亞馬遜的Nitro也僅用在自家數據中心。而作為硬件提供方的英特爾和英偉達,正在積極向其他云廠商推廣自己的IPU和DPU產品。
“現在大家都在投入的階段,誰也不信誰的,過幾年才能打出個局面來。誰贏了就能定義未來的IT產業鏈。”這位專業人士說。
自研數據中心專用管控芯片看起來可行。接下來的問題是,成本和戰略。
成本問題包括兩個層面,一是云廠商自身成本,二是客戶的用云成本。
如果云廠商向英偉達、英特爾采購專用的數據中心管控芯片,還要承擔運營成本。此外,英偉達、英特爾提供的管控芯片仍無法完全滿足云廠商的個性化需求。
對云廠商來說,自研該芯片理論上更劃算。因為自研可滿足個性化需求,且價格可接受,還能提升管理、優化功耗、減少云資源浪費。
海外媒體在2022年有測算,Nitro的硬件處理器成本只需數十美元,但單片CPU芯片成本是數百或數千美元。亞馬遜AWS也曾公布,即使算上研發成本,Nitro定制芯片五年來的綜合成本仍相比CPU芯片更低。
對云計算客戶來說,他們有越來越多的數據密集型計算需求,需要價格不變的前提下,得到更高的性能。
以往Nitro定制芯片的實踐結果是,云上的計算、存儲、網絡資源變得更快也更安全,還不必承擔云廠商過去資源浪費帶來的轉嫁成本。阿里云基礎產品架構師黃瑞瑞則對《財經十一人》表示,自研CIPU處理器不影響資源定價,對操作界面、應用開發也沒有影響。
更關鍵的問題是戰略。阿里云2020年后一直沿著“做深基礎、做厚中臺、做強生態、做好服務”的戰略前行。“做深基礎”的內涵是,做深云底座。以飛天操作系統向下延伸,定制芯片、數據庫、路由器、交換機等硬件,基于阿里云的特點構建云基礎設施。
在計算芯片領域,阿里云的策略是,基于“一云多芯”戰略對X86、ARM、RISC-V等多種架構進行適配,兼容飛騰、鯤鵬、AMD、Ampere等多種CPU,形成標準形態的算力輸出。即是圍繞飛天操作系統做定制,既滿足自身個性化需求,也強化自主可控能力。長期以來,阿里云一直在自研和戰略緊密相關的芯片。如2020年發布的神龍DPU,2021年發布的服務器芯片倚天710。
此次發布的數據中心專用處理器CIPU是對阿里云核心技術布局的補足。強調“Back to Basic”,則是對“做深基礎”的延續,也是對AWS等海外云廠商、芯片廠商改造云計算底層技術架構的回應。
過去十多年,云計算技術經歷了兩個發展階段。
第一階段是分布式和虛擬化技術替代了大型機、小型機,滿足了當時企業業務擴展帶來的算力彈性需求。
第二階段出現了資源池化技術,通過把計算和存儲進行分離,而后規模化編排和調度,形成了超大規模的計算和存儲資源池。
技術的迭代自然促進了產業的更迭。過去三年,國內云計算產業走到了十字路口。一方面,云廠商競爭愈加關注市場、訂單、價格。市場價格、商務關系上硬碰硬交戰正在加劇低水平競爭。頭部云廠商的收入增速普遍回調至20%-30%左右。
與此同時,在海外,云計算技術正在進入下一代架構關鍵技術突破期。國內云廠商的管理層開始調整業務,思考新增長路徑,及重新自我定位。這個階段更關注提高毛利率,強化核心競爭力,尋求健康可持續且有質量的增長。
阿里云是國內最大的云計算廠商。它的選擇是,繼續建設新的架構,從最底層的數據中心核心部件到最上層云原生軟件,形成完整的自研技術體系。提升技術底層能力的價值一方面在于提升基礎設施能力,強化產品競爭力。另一邊,還要于優化成本結構。在未來還可以持續研發高附加值且代表產業發展方向的產品。
多位云廠商高管此前的觀點是,云計算的本質是技術創新,中國企業需要理解全球市場的技術變革,而非在本土市場陷入內卷競爭。國內市場存在部分偽需求,容易在技術上把云廠商帶入誤區。云廠商在這種環境下,需要具備規則制定能力,還要保持克制的戰略定力。
其中一位云廠商高管進一步解釋,阿里云需要用技術能力牽引客戶需求,確保自身在數字化市場的前瞻理解。事實上,亞馬遜AWS和微軟云的技術能力為其制定市場規則,獲得客戶關系中的主動權起到了重要作用。
阿里2022財年(即2021年3月-2022年3月)報告顯示,阿里云在2022財年營收為746億元,經調整EBITA利潤為11億元。阿里集團2022財年研發支出555億元。該研發支出規模在2022年位居國內民營科技企業第二,僅次于華為,高于騰訊。
阿里云的新一輪“芯”戰開始了,這一輪戰役的核心意圖是:試圖在新的進展環境下強化技術投入,保持定力,確保戰略主動權。
作者為《財經》記者
本文來自微信公眾號“財經十一人”(ID:caijingEleven),36氪經授權發布。