算力,算力!風(fēng)起烏蘭察布,中國自動駕駛迎來170倍提速
賈浩楠 發(fā)自 凹非寺量子位 | 公眾號 QbitAI
內(nèi)蒙古中部城市烏蘭察布,西承陰山東段,南接內(nèi)蒙古高原。
天然具有涼爽的氣候、充足的風(fēng)電等等資源,隸屬于國家“東數(shù)西算”內(nèi)蒙古樞紐節(jié)點。
2022年的今日今時,國內(nèi)十余家叫得上名號的一線車企、自動駕駛公司齊聚于此。
它們來這里只辦三件事:
算力、算力、還是算力!
而把自動駕駛行業(yè)渴求的算力帶給它們的,是阿里云。
第一個在烏蘭察布解鎖超大算力的,是小鵬汽車。
其實也是阿里云和小鵬汽車一起為智能汽車行業(yè)的未來計算需求和發(fā)展趨勢打了個樣。
阿里云和小鵬合作打造的智算中心,既是全國最大的,也是國內(nèi)第一個投入實際運營的,專為自動駕駛服務(wù)的超大智能算力集群。
所謂“智算中心”,并不是傳統(tǒng)意義上的超級計算機。
自動駕駛、或者說智能汽車上的核心功能,其實都是AI。具體說,是大規(guī)模的深度學(xué)習(xí)算法。
而無論是訓(xùn)練,還是測試這樣的模型,扮演主角的不再是傳統(tǒng)CPU的邏輯推理能力,而是以AI加速器為主的浮點計算能力,GPU則是當前AI加速器的主流。
所以,智算中心的第一個特征,就是以大規(guī)模GPU算力作為AI模型迭代的基礎(chǔ)。
第二個特征,是與汽車業(yè)務(wù)深度結(jié)合,為智算中心提供了針對自動駕駛應(yīng)用特征的算力集群、性能加速工具和AI大數(shù)據(jù)平臺,使得模型訓(xùn)練性能、GPU資源利用率和算法研發(fā)效能都大大提升。
小鵬汽車和阿里云打造的智算中心,名叫“扶搖”。“扶搖”之意,當然是阿里云提供的超大算力和針對性工具,能讓小鵬汽車的自動駕駛系統(tǒng)能力“直上九天”。
那么,實際果真如此嗎?
已經(jīng)建成交付的扶搖智算中心,總算力達到600PFLOPS。
這是個啥概念?
每秒進行6*1017次浮點運算,即60億億次。
整體計算效率上,扶搖實現(xiàn)了算力的線性擴展。存儲吞吐比業(yè)界20GB/s的普遍水準提升了40倍,數(shù)據(jù)傳輸能力相當于從送快遞的微型面包車,換成了20多米長的40噸集裝箱重卡。
小鵬汽車一個典型核心自動駕駛模型,以前完整訓(xùn)練一遍需要7天,而如今在扶搖上,只需要一個小時。
自動駕駛模型訓(xùn)練提速近170倍,會大力推動自動駕駛技術(shù)的發(fā)展速度,讓小鵬汽車的智能化程度和安全性都邁入新的階段。
迭代速度對于以智能化、自動駕駛立身的企業(yè)來說意味著什么,無需贅述。
大算力給自動駕駛帶來的意義,何小鵬除了眼前的,也站在行業(yè)未來發(fā)展的角度給出另一番解讀:
未來5年,小鵬汽車可能還有百倍的算力需求增長。
希望大家都看到這個趨勢。如果現(xiàn)在不以這樣的方式提前儲備算力,那么今后5年內(nèi),企業(yè)算力成本會從億級,加到數(shù)十億級。
何小鵬為什么這么說——
對于真正把智能化作為核心競爭力和未來發(fā)展方向的企業(yè)來說,沒智算中心,未來的競爭中就沒有底層根基。
行業(yè)有共識的普遍規(guī)律是:自動駕駛每提升一個等級,所需車端的算力會以一個數(shù)量級的速度增長。
比如一家公司研發(fā)的L2級輔助駕駛需要20TOPS的話,那L3則需要200TOPS,L4需要2000TOPS….
背后是核心AI模型的參數(shù)、規(guī)模以同樣大規(guī)模速度增長。
而企業(yè)后臺開發(fā)端的算力需求,業(yè)內(nèi)人士估算:
車端算力增長一個數(shù)量級,相應(yīng)的模型在后端訓(xùn)練、驗證,并形成常態(tài)化的迭代,所需要的算力會以兩個數(shù)量級倍增。
所以智算中心對自動駕駛來說,最直接的意義在于提供更高的算力,訓(xùn)練更大規(guī)模模型。
相應(yīng)的,自動駕駛能力上限也就越高,直接決定未來行業(yè)競爭力高低。
但是,算力這個東西,可以通過自行購買GPU搭建集群的方式獲取,事實上,之前幾年行業(yè)內(nèi)也是一直這么干的。
為什么到了2022年,大家不約而同開始渴望智算中心了呢?
核心原因,在于今年頭部自動駕駛玩家的競速,已經(jīng)到了搶先落地城市領(lǐng)航輔助駕駛的階段。
復(fù)雜路況下的復(fù)雜決策能力,包括識別紅綠燈、路口、行車車輛等等,其實已經(jīng)進入L3-L4級范圍。
按照這樣的迭代速度,未來3-5年,自動駕駛研發(fā)很快會進入較為成熟的L4級甚至是L5級,迭代所需算力也會快速上升到“智算中心”級別。
如果自建數(shù)據(jù)中心的話,時間是最大的敵人。
需求算力的指數(shù)級膨脹,造成目前自動駕駛玩家的“算力”焦慮越來越嚴重。
當下自動駕駛對于智算中心的需求,其實是為未來的競爭力做儲備。
那么,實現(xiàn)智算中心,現(xiàn)在行業(yè)里有哪些方式?
成熟的例子,是特斯拉。
去年特斯拉宣布自建智算中心Dojo,算力規(guī)模達1.8EPFLOPS,引起業(yè)內(nèi)廣泛關(guān)注。
Dojo項目細節(jié)和進展透露不多,但外界肉眼可見的是,特斯拉將超大規(guī)模模型快速迭代,以及數(shù)據(jù)閉環(huán)能力修煉的爐火純青,背后肯定少不了超大算力的支持。
這也從實際效果上證明了類似智算中心這樣的能力,對自動駕駛的必要性。
小鵬與阿里云合作共建智算中心,又是一次重要證明。
可以說,這是一種更加貼合國內(nèi)自動駕駛行業(yè)現(xiàn)狀的模式。
為什么?
阿里云資深專家曹政給出了詳細的解答:
自建算力中心,且不說數(shù)十億的前期投入是不是創(chuàng)業(yè)公司能輕松承擔(dān)的,未來隨著GPU的迭代、超算架構(gòu)的升級、自身需求的調(diào)整…每一次變更,幾乎都是從零開始的重新投入,伴隨著巨大的時間和資金成本。
建設(shè)算力中心,涉及的冗余、升級、規(guī)劃等等都需要豐富的經(jīng)驗。但這些經(jīng)驗,卻不是現(xiàn)在自動駕駛公司的核心KPI,它們的任務(wù)應(yīng)該是快速提高自動駕駛的能力。
業(yè)界有種把智算中心建設(shè)等同于堆砌硬件的錯誤認知,忽略了智算中心的上層軟件和平臺。而恰恰上層軟件平臺,是高效釋放算力并加工為生產(chǎn)力的核心,也是云廠商數(shù)年巨大研發(fā)投入的沉淀,可以幫助自動駕駛公司站在云廠商的肩膀上,快速聚焦自動駕駛算法的研發(fā)。
何小鵬“現(xiàn)在不做就晚了”的憂慮,看似是成本,其實是時間。
所以第二個問題,為什么是阿里云?
自動駕駛需要的算力,阿里云能給,其他云也能給。
但阿里云不可替代之處在于10年的技術(shù)積累,既有云的,也有AI的。
表現(xiàn)之一在成本。智算中心的方案規(guī)劃、性能參數(shù)、功能模塊、未來擴展性等等,阿里云都有著豐富的經(jīng)驗,既保證交付時的先進性,又兼顧未來的拓展靈活性。
節(jié)省大量企業(yè)試錯的金錢和時間成本。
表現(xiàn)之二,在于阿里云給小鵬這樣的智能車相關(guān)企業(yè)提供的不只是通用的云服務(wù),而是為AI相關(guān)業(yè)務(wù)量身訂制的算力產(chǎn)品。
比如在扶搖智算中心項目中,阿里云提供的,除了600PFLOPS算力,還有超大規(guī)模高性能網(wǎng)絡(luò)RDMA。
因為阿里云在以往電商任務(wù)經(jīng)驗中已經(jīng)認識到,AI是一個帶寬敏感業(yè)務(wù),需要幾百G甚至上T的一個帶寬才能滿足計算需求。
而以CPU為主的通用超算,由于單數(shù)據(jù)流的處理模式,對帶寬要求并不高。
RDMA高性能網(wǎng)絡(luò),單鏈路可以把帶寬提升到實現(xiàn)100G或200G的帶寬。另外在單個服務(wù)器上并行擴展多張網(wǎng)卡,最高可到1.6PB帶寬。
表現(xiàn)之三,阿里云認為,他們的產(chǎn)品與自動駕駛、汽車工業(yè)深度契合。
自動駕駛耦合了HPC(高性能計算)、AI、大數(shù)據(jù)一體化等等需求,不僅僅是需要AI的算力,還需要大數(shù)據(jù)的算力、HPC的算力。
這種復(fù)合性的算力需求,加上大數(shù)據(jù)、AI和HPC一體的數(shù)據(jù)業(yè)務(wù)管理的流程平臺,才能達到自動駕駛企業(yè)要求。
而阿里給小鵬汽車訂制的,就是這樣一套完整的智能汽車智算中心方案。
所以,對于中國智能汽車、自動駕駛行業(yè)來說,“阿里云+”的合作智算中心模式,首先是一劑巨大的助力,大大節(jié)約成本的同時,又大大提升了迭代進步的速度。
從行業(yè)競速角度講,則終結(jié)了企業(yè)獨自建超算的單打獨斗,節(jié)約資源使其聚焦核心業(yè)務(wù)。
而最大的意義,可能是讓已經(jīng)被特斯拉證明的自動駕駛黃金之路,在國內(nèi)可以低成本實現(xiàn)。
這一點,沒有人比第一個吃螃蟹的何小鵬說得更明白:
智算中心讓小鵬擁有體系化能力、競爭力。2025年,充分利用云端算力的中國頭部玩家,有希望率先把“輔助自動駕駛”的“輔助”二字去掉。
本文來自微信公眾號“量子位”(ID:QbitAI),36氪經(jīng)授權(quán)發(fā)布。
