專家團|宇婷:從去IOE到CIPU,中國云計算要走出自己的路徑

采訪、撰文|宇婷
2022年中,首都國際機場出機口,人群熙熙攘攘,疫情逐漸淡下,行人往返順暢。出機口右手邊一個碩大的廣告牌上,白底橘色的字寫著:為了無法計算的價值。這是阿里云7年前的舊slogan,但配上了“機械工業九院”的最新智能制造案例。
時空交錯,回到過去。
重提計算價值,是阿里云對于自己當下的自我“梳理”,但似乎也是對云計算行業的提醒。
十年前中國科學院院士、阿里云創始人王堅博士對于云計算成為一種公共資源的布道。再早1961年,在麻省理工學院100周年紀念典禮上,麥卡錫第一次提出了“Utility Computing”(效用計算)的理想。
云計算發展到現在,形成一些行業共識:第一,云計算的技術水平,影響著云廠商的經營和盈利能力;其次,云計算技術路線的選擇,對技術水平的高低有決定性影響;第三,技術路線還在快速迭代中,下一代云計算技術往何處走,AWS等領頭羊廠商們尚無定論。
一個技術代際比想象的要長得多。事實是,只有個位數的廠商有能力和資源推動這場技術變革。但推動變革需要從底層技術出發,這需要跳脫出眼前的商業成單,做長遠技術布局。只有云計算的規模經濟效應發揮到極致,廠商們也一定會受到商業的“褒獎”。
計算終將變成一種公共資源,和水、電、煤氣一樣,被每一個人使用。有投入能力,有場景,有數據的頭部廠商,真正做了自己應做之事,計算普惠到中小企業和個人。
阿里云其實可以對自己更柔和些,但重新提及“無法計算的價值”,顯然他們選擇了更犀利的道路。阿里云上半年規模超過1000億實現盈利,市場份額和毛利很重要,但是眼光應該往前看,看到技術趨勢實踐它,做出來。這是行業領先者應做之事。
企業和人一樣,不可有傲氣,但不可無傲骨。
在重提計算價值這件事上,能重提自己的初心,提出“Back to Basic”,是為“無傲氣”。
云計算不是新瓶裝舊酒,最終會變成電,但要自己跋涉出一條技術長征路,是為“有傲骨”。

圖片:首都機場
2022年中,阿里云發布了自己的CIPU。十年前的去IOE和阿里云當下發布CIPU有很強的共同點:“因”是業務需求而產生,“果”是實現技術突破,帶動下一個技術階段。
在通往云計算成為一種通用計算的終極目標上,云計算作為IT行業的新興技術,形態還在不斷演進中。客觀地說,上一個十年,阿里云做對了“去IOE”與飛天自主研發這件事,決定了今天阿里云與中國其他云計算廠商的不同——自研技術。
歷時三年,去IOE才成功。自研是一條“長征路”,難走,因為創新沒有參照。但必須走,因為能解決本質問題。
去IOE是阿里云自研的開始。2009年春節上班第一天,阿里云團隊在北京上地的一間普通的辦公室里寫下的飛天第一行代碼,這間辦公室簡陋的都沒有空調。直到2013年5月17日,支付寶最后一臺小型機下線,這也是阿里巴巴全集團最后一臺小型機下線。后來,飛天首次突破5K集群是阿里自研技術的里程碑。
自研開始于硬件和軟件雙方面的“無路可走”。“去IOE”是用阿里要用自研系統,替代IBM、 Oracle和 EMC。當時阿里的Oracle RAC集群節點數超過20個是亞洲第一,Oracle數據庫后期抗不住雙十一洪峰。沒有選擇OpenStack,自研飛天,是因為世界上所有的開源軟件公司沒有應對過阿里云要應對的數據量和雙十一洪峰。在飛天5K的時間節點上,沒有軟件能實現超過5000臺機器的集群處理。
無路的另一方面是解決成本問題。“如果阿里在2013年雙11還用的是Oracle,則需要根據350億成交總額,補交Oracle數據庫的服務費,這是一份驚人的成績單。”一篇報道中還提到相應的高昂費用。
做成“去IOE”和飛天,阿里云是有資格被公認為中國第一個相信云計算不是新瓶裝舊酒的公司。
阿里云確實投入了巨大的堅信和付出。
王堅在斯坦福大學演講飛天的時候,被認為不靠譜,王堅甚至自己也覺得大家有這種想法是對的。甚至后續加盟阿里云的人,一些人都對飛天持有懷疑。這種被質疑,是因為比如在飛天5K的攻堅中,從設計到實現每一步的性能都可能出現不確定性。飛天最早的主創團隊告訴過TO B新勢力,這就是一場實驗科學。因為系統的規模,微小的瓶頸都會被放大影響力,蔓延至整體。《阿里云的這群瘋子》一文中寫到飛天系統尚未穩定時候,“在不同的會議室里,在不同的場合,在不同的時間。面對質疑,后羿看到王堅沉默,看到振飛沉默,他唯獨沒有看到任何人為理想停下哪怕半步。”
堅定的背后是對技術價值的理解 —— 去IOE是并不是簡單改變軟件和硬件本身,而是用新的技術架構替代傳統的IT技術和架構,這是一個自研架構體系的逐漸迭代時。
“做深基礎”背后邏輯并不是簡單替換,是基于云的特點來構建整套基礎體系。就像當年阿里巴巴“去IOE”并不是做一個新的小型機替代了舊的小型機,而是用阿里云這輛汽車超過了舊時代的馬車。——阿里云總裁張建鋒在接受媒體采訪時也提到。
去IOE和飛天奠定了阿里云的技術基座。云把去IOE之后的技術能力輸出,讓更多企業享受到這一技術。對于云客戶來說,不再選擇IOE,而是選擇云,這意味在根本上選擇了相信云計算。
“去IOE”與飛天不是簡單的對硬件和軟件的替換,而是新的技術架構體系迭代。
王堅曾在采訪中說道。當年去IOE成功,要素有三:
一是企業的戰略決心是否足夠強大,這一點沒有巧可以取。
二是能夠堅持到底,愿意承擔技術上、組織上的各種風險。
三也是最重要的,這種看起來不可能的事需要有使命感的人和團隊去完成。
“因為做云計算,多多少少需要點浪漫主義的精神,否則做不好。”王堅曾說。

回看整個過程,阿里云布局技術的最大的啟發是要有足夠耐心,漸進延續自研技術路徑。從“去IOE”以及飛天5K集群,到CIPU已經持續12年。12年的時間,逐漸建立了芯片、服務器、操作系統、數據庫、AI平臺,圍繞云計算的整個軟硬技術體系。
一些重要的技術布局包括:2016 年的神龍服務器實際上可以看作是今天CIPU的雛形。神龍架構解決服務器虛擬化性能損耗。2021云棲大會,阿里巴巴旗下半導體公司平頭哥發布自研云芯片倚天710。以及阿里云對于一云多芯戰略的布局。與神龍和倚天710在打好配合的基礎上,進一步形成一個明確的客戶發展路徑和生態。“一云多芯”戰略適配X86、ARM、Risc-V等多種架構,兼容飛騰、鯤鵬、AMD、Ampere等多種CPU。
除此之外的一些技術還包括:盤古存儲用分布式存儲提升容錯和柔性;神龍網絡在2021年權威機構Gartner云網絡評分中排名全球第一,領先AWS、Azure等廠商。龍蜥服務器操作系統支持X86、ARM等主流芯片架構,兼容CentOS生態;以及研發綠色數據中心;PolarDB、AnalyticDB、Lindorm為核心的不同場景的云數據庫產品矩陣。
看未來,云計算終會突破單一企業成為公共資源,在線的數據是一種資源——這是美好的愿景。回到當下,以阿里云為代表的云計算大廠,到底要如何直面競爭?
“大家都在同一條起跑線上,大家都有同一個目標,怎么樣把成本降到最低,把性能提到最高。所以這個投入不是說有沒有什么選擇,是沒有選擇的。”張建鋒接受在最近接受專訪時提到。
他的另一個表達更為直接:“我們(阿里云)要做的東西,本來就是更底層一點,但為了客戶能用起來,我們已經自己用業務翻譯了一層,搞各種數字化的項目,結果這個越搞越厚了,離云越來越遠。”
“商業模式越來越貼近用戶的本質需求,但是對于下面的技術要求就會越來越高。你要管理好,才有利潤。”這句話是一個對整個行業的提醒。
走向深度回歸本質。對于云計算來說,答案無疑是底層技術。一方面,僅靠軟件調度數據中心已經不足夠。云計算面臨挑戰:另一方面,面臨的新型數據計算難題,以及龐大的IT資源管理成本,在數據密集型新的計算場景下,“低時延、高帶寬”挑戰有了新的“內涵”。
云計算行業風云迭起,爭奪不休,但核心未變:云計算作為IT行業的新興技術,形態還在不斷演進中,能搶先推出、推廣新技術的云廠商,就有定義行業標準的機會。當數據量大到一定程度,必須解決成本線性增長問題。云計算底層就是要拼技術能力,來解決規模達到一定程度時候的成本和穩定性。
十年過去,云計算已經經歷了分布式和虛擬化技術替代了大型機,滿足了當時企業所需的算力規模;以及資源池化技術,通過計算存儲分離架構,將計算、存儲、網絡資源分別池化,突破了規模和穩定性的瓶頸,提供了超大規模的云計算服務。云計算最重要的特點是軟件定義,但軟件定義同時會帶來的問題,系統的性能在傳輸中會有損失。從分布式到以CPU為中心的云時代,要滿足下一階段的技術要求,要在龐大的基礎設施上,平衡靈活性和性能。這兩個階段的共性都是通過軟件進行定義,基于傳統的以CPU為中心的體系架構去做優化。
云計算是規模經濟,真正有能力做甚基礎,等到臨界點之后的爆發只有少數企業。
阿里云現在承擔著超大規模的復雜管理問題。全球27個國家和地區、84個可用區。更具體一點看,隨著數據密集型計算越來越多,傳統以CPU為中心的計算體系架構無法適應以CPU為中心的架構導致了計算和網絡傳輸的時延大;大數據應用增多,導致數據中心內部數據遷移量增多,以CPU為中心的架構無法提供高帶寬;管理的基礎設施規模越來越大,
與英特爾、英偉達的路線不同(產業鏈上的供應商)的是,阿里云這次研發CIPU(Cloud infrastructure Processing Units)是通過云的規模、業務,客戶云的需求,根據飛天操作系統從頂層定義,又根據垂直業務定義芯片。
CIPU的研發是要協助或者說承載飛天云操作系統需要去納管的整體編排、調度的上百萬臺服務。“飛天+CIPU”,形成軟硬件結合。CIPU向下接入物理的計算、存儲、網絡資源,快速云化并進行硬件加速;向上接入飛天云操作系統,管控阿里云全球上百萬臺服務器,讓算力虛擬化損耗降到0,并通過規模化應用RDMA網絡技術,讓訪問云端比訪問本地硬盤更快。
阿里云的解題思路在2021年已有雛形,張建鋒曾指出阿里云發展的四個核心戰略:做深基礎、做厚中臺、做強生態、做好服務。這其中,“做深基礎”投入最多、期望最高、挑戰最大,同時也是阿里云的立足之本。要提供最好的計算產品和服務,就必須堅持自研,把“做深基礎”做到極致。
面對國際云和中國市場,阿里云發布CIPU,當下CIPU絕對不是終極狀態,就像飛天剛剛發布也遠未到今天的規模。但是復盤阿里云從去IOE到CIPU的自研之路,可以看出:
無路可走之時,找回初心,就自己走出一條路。堅信感能找到這條路。
10年前,阿里云用5年突破5k技術,這是阿里云的第一次技術長征,這次突破讓中國云計算與AWS等國際廠商站在同一個起跑線上。
當前,云計算即將進入下一個技術周期,阿里云推出CIPU,并著力圍繞CIPU打造下一代云計算體系技術,這是阿里云的第二次長征。
追著走,還是自己突圍?這場長征需要在云計算競爭的白熱化以及行至水窮處,找到平衡商業和技術的柳暗花明。
阿里云也要再次面對質疑,一家互聯網公司是否會受到硬件基因的制約?CIPU會否是曇花一現的概念?CIPU是否真會顛覆了云計算的架構?
于外,今日長征的環境已經變化。于內,是否相信這件事情可以做成,是否相信自己——這種信念感,決定了阿里云CIPU之路的堅定。
“我們看到云計算進入了一個新的發展階段,我們越來越接近于下一個時代”,張建鋒在今年的云峰會上說。
公共云真正能夠體現出云計算在效率上的核心競爭力。
“被遺忘而不可替代,也是值得期待的事情,就像空氣一樣,是一個非常好的狀態。”2019年行顛上任后接受媒體專訪,曾經說過,我很喜歡這句話。
古希臘史詩《奧德賽》講述了伊大卡島主人公成年英雄奧德修的10年海上冒險,自強不息,終回家鄉的故事。在大自然的面前,百折不撓“明知不可為而為之”的頑強與較量,“奧德賽”式的遠行被賦予了自我認知和精神式的回歸。
我回想曾經看到的一篇文章,有一個很有趣的細節,阿里云剛成立的前兩年,員工出差用餐時,開發票的服務員總是“好心”地將“阿里云計算有限公司”,寫成”阿里云計算機有限公司”。多加一個“機”字。
軟件、硬件,推動技術發展,潮流總是重復的。
今天和之前的飛天又是不一樣的。因為當年大家會有質疑,但是今天對于云計算已經有足夠的共識。CIPU出生就作為戰略級別去推動和披露。
幾天前,在使用一款SaaS軟件的時候,它依然讓我在兩家云計算廠商中,自己選擇把數據存放在誰之上。這是一種尊重,但另外也說明了對于云廠商的信任未有定論。
10年之間,云計算仍然尚未成為真正成為和電一樣的通用的公共資源,技術變遷必然需要周期。但另一方面,中國企業級用戶關心數字化項目,也使得云廠商越來越厚。一個技術時代變遷必然需要周期,更多的“云計算”似乎還沒有完全突破單一企業的商業價值維度,變成社會通用資源。
當下的中國需要有真正的廠商,去清醒地再次站出來,提示云計算的本質是計算。去進行技術布局,走出一條完全與AWS、Azure不同的道路。
今年早些采訪無影的應用。一個細節是,機器人生產制造創業公司的創始人謝智衡,因為通過無影電腦的方案,能夠實現遠程對手術級別機器人的調試和控制,并且是在一個精密制造業的場景之中。謝智衡在接受采訪時,猶豫要不要去分享這個。但最終他認為這件事會對整個行業有價值,幫助很多企業在不能復工復產的情況下生存下去,技術出身的他覺得接受采訪是有意義的。
無影持續改變計算機與應用架構,云端和終端連接起來。這就是云計算的本質:云要用普惠技術讓企業和個人獲益。更遠的未來,云的終極是讓所有人不顧及成本,都可以隨時使用。甚至未來的工程師腦海中是沒有服務器的概念的。
“多年以后,新一代的新新人類,他們會更幸運,他們接觸的一切計算環境都是云原生的。他們天生就會認為,云計算資源是無處不在、取之不盡、用之不竭的,他們不會關心云資源在哪里、有多少。就像今天我們使用自來水一樣,沒有人會費心思考慮水從哪里來。”CIPU的負責人,阿里云蔣江偉寫過一篇文章提到。
下一個十年剛剛開始。
本文經授權轉載自微信公眾號:To B新勢力
