三大處理器巨頭迎戰(zhàn)“內(nèi)存墻”
來源:內(nèi)容由半導(dǎo)體行業(yè)觀察(ID:icbank)編譯自The Register,謝謝。
在最近推出的96 核 Epyc Genoa CPU 的發(fā)布會期間,AMD 談到了現(xiàn)代計(jì)算面臨的最大挑戰(zhàn)之一。在過去的幾年里,處理器變得更強(qiáng)大的速度已經(jīng)超過了為這些內(nèi)核提供數(shù)據(jù)的內(nèi)存子系統(tǒng)的速度。
“任何使用非常大內(nèi)存占用的東西都需要大量帶寬來驅(qū)動(dòng)內(nèi)核,”Gartner分析師蒂姆哈維告訴The Register。“如果你隨機(jī)訪問這些數(shù)據(jù),那么你會丟失很多緩存,因此能夠非常快速地提取數(shù)據(jù)將非常有用。”
這絕不是一個(gè)新現(xiàn)象,尤其是在高性能計(jì)算 (HPC) 工作負(fù)載中。The Next Platform一段時(shí)間以來一直在跟蹤計(jì)算能力與內(nèi)存帶寬的增長比例。
但是,雖然轉(zhuǎn)向 DDR5 4,800MTps DIMM 將使帶寬比最快的 DDR4 提高 50%,但這本身并不足以滿足AMD 的 96 核 Epycs。AMD 工程師不得不通過增加內(nèi)存控制器的數(shù)量來彌補(bǔ)差異,從而將通道增加到 12 個(gè)。結(jié)合更快的 DDR5,Genoa 提供的內(nèi)存帶寬是 Milan 的兩倍多。
該方法并非沒有妥協(xié)。其一,添加更多通道需要為內(nèi)存控制器分配更多芯片空間。還必須考慮一些信號注意事項(xiàng),以支持連接到這些通道的更多 DIMM。然后是將所有這些 DIMM 物理安裝到傳統(tǒng)機(jī)箱中的挑戰(zhàn),尤其是在雙插槽配置中。
正因如此,AMD 至少在接下來的幾代產(chǎn)品中很可能會保持在 12 通道,轉(zhuǎn)而依靠提高 DDR5 內(nèi)存速度來提升帶寬。
美光預(yù)計(jì)內(nèi)存速度在 DDR5 的生命周期內(nèi)可達(dá)到 8,800MTps。在 12 通道系統(tǒng)中,內(nèi)存帶寬約為 840GBps。
“DDR5 的性能會隨著時(shí)間的推移而提高,但我們?nèi)匀粫诳捎脙?nèi)核和內(nèi)存帶寬之間存在巨大差異,并且很難滿足它們的需求,”Harvey 說。
傲騰繼續(xù)存在
雖然 AMD 解決該問題的方法包括將更多內(nèi)存控制器物理地塞入其芯片中,并將更快的 DDR5 內(nèi)存塞入系統(tǒng)中,但英特爾對Xeon Max CPU采取了不同的方法,它將為美國能源部長期延遲的 Aurora 超級計(jì)算機(jī)提供動(dòng)力。
這些芯片以前稱為 Sapphire Rapids HBM,在 56 核第四代 Xeon 可擴(kuò)展處理器中封裝了 64GB 的 HBM2e 內(nèi)存,能夠提供 1TBps 的帶寬。
雖然技術(shù)上你可以完全脫離 HBM 運(yùn)行芯片,但對于那些需要大量內(nèi)存來處理大型自然語言模型的人來說,英特爾支持兩種配置的分層內(nèi)存,這讓人聯(lián)想到其最近被裁掉的Optane業(yè)務(wù)部門。
在英特爾的 HBM 平面模式下,任何外部 DDR5 都充當(dāng)可單獨(dú)訪問的內(nèi)存池。同時(shí)在緩存模式下,HBM 更像是 DDR5 的 4 級緩存。
盡管后者對于某些用例可能具有吸引力,因?yàn)樗峭该鞯牟⑶也恍枰魏诬浖模?Harvey 認(rèn)為,如果它的行為類似于英特爾的 Optane 持久內(nèi)存,則 HBM 可能得不到充分利用。
“大多數(shù)時(shí)候,CPU 擅長在指令級別進(jìn)行緩存;它們不太擅長在應(yīng)用程序級別進(jìn)行緩存,”他補(bǔ)充說,在平面模式下運(yùn)行芯片可能很有希望,盡管這需要軟件供應(yīng)商的特殊考慮。
“如果你有一個(gè)大的 HBM 緩存有效地用于主內(nèi)存,那么操作系統(tǒng)供應(yīng)商,虛擬機(jī)管理程序供應(yīng)商將比 CPU 更好地管理它,”他說。“CPU 看不到指令級別,而管理程序知道我將要在這個(gè)應(yīng)用程序和那個(gè)應(yīng)用程序之間切換,因此我可以將該應(yīng)用程序預(yù)加載到 HBM 中。”
合封裝 LPDDR
為了為其第一個(gè)數(shù)據(jù)中心 CPU 實(shí)現(xiàn)類似的高帶寬,Nvidia 還將內(nèi)存轉(zhuǎn)移到了 CPU 上。但與 Intel 的 Xeon Max 不同,Nvidia 并不依賴昂貴的低容量 HBM 內(nèi)存,而是使用 LPDDR5x 模塊。
每個(gè)Grace Superchip都融合了兩個(gè) Grace CPU 芯片——每個(gè)芯片都有 72 個(gè) Arm Neoverse V2 內(nèi)核——通過芯片制造商的 900GB/s NVLink-C2C 互連連接。這些芯片的兩側(cè)是成排的 LPDDR5 內(nèi)存模塊,可提供 TB 的帶寬和容量。
雖然很難確定,但我們最好的猜測是每個(gè) Grace CPU die 都連接到八個(gè) 64GB LPDDR5x 內(nèi)存模塊,運(yùn)行速度大約為 8,533MTps。這將為兩個(gè) CPU 芯片中的每一個(gè)計(jì)算出 546GBps 的帶寬。
蘋果實(shí)際上采用了類似的方法,盡管使用速度較慢的 LPDDR5 6,400MTps 內(nèi)存,以在今年早些時(shí)候在 Mac Studio 中推出的M1 Ultra 處理器上實(shí)現(xiàn) 800GBps 的內(nèi)存帶寬。然而,Apple 這樣做的原因與每核內(nèi)存帶寬的關(guān)系不大,而與為芯片的集成 GPU 供電有關(guān)。
對于 Nvidia 而言,與使用 HBM 之類的方法相比,該方法提供了一些明顯的優(yōu)勢,最大的優(yōu)勢在于容量和成本。美光等供應(yīng)商提供的 HBM2e 容量最高可達(dá) 16GB。這意味著您需要四倍于 LPDDR 的模塊。
但根據(jù)哈維的說法,即使是這種方法也不是沒有妥協(xié)。將內(nèi)存靠近 CPU 封裝上意味著您放棄了靈活性。如果你需要超過 1TB 的系統(tǒng)內(nèi)存,你不能只是添加更多的 DIMM 到組合中——至少不是 Nvidia 的實(shí)現(xiàn)方式。
然而,對于英偉達(dá)這些芯片的目標(biāo)市場來說,這可能仍然有意義,Harvey 解釋說。“Nvidia 非常專注于具有特定需求的 AI/ML 工作負(fù)載,而英特爾則更專注于通用工作負(fù)載。”
CXL 還不是答案
AMD 的 Genoa 和英特爾的第 4 代 Xeon 可擴(kuò)展處理器都增加了對 CXL 1.1 互連標(biāo)準(zhǔn)的支持。
Astera Labs和三星等公司早期實(shí)施該技術(shù)將允許新穎的內(nèi)存配置,包括內(nèi)存擴(kuò)展和內(nèi)存分層。
然而,目前,這些設(shè)備可用的帶寬有限,這意味著它們在解決 CPU 和內(nèi)存性能不匹配方面的作用有限。
AMD 的實(shí)施具有專用于 CXL 設(shè)備的 64 條通道。但是,由于這些通道的分叉方式,CXL 設(shè)備一次只能訪問其中的四個(gè)通道。由于 CXL 1.1 基于 PCIe 5.0,這意味著每個(gè)設(shè)備的帶寬限制為 16GBps。
“隨著時(shí)間的推移,它可能會為內(nèi)存帶寬打開一些東西,但我認(rèn)為最初的實(shí)現(xiàn)可能不夠快,”Harvey 說。
隨著未來幾代 PCIe 的出現(xiàn),這種情況可能會改變。互連技術(shù)的帶寬通常會在每一代之后加倍。因此,通過 PCIe Gen 7.0,單個(gè) CXL 4x 設(shè)備將擁有接近 64GBps 的可用帶寬。
就目前而言,Harvey 認(rèn)為 CXL 對于內(nèi)存需求量大的應(yīng)用程序最有價(jià)值,這些應(yīng)用程序不一定對帶寬或分層內(nèi)存配置敏感。
本文來自微信公眾號“半導(dǎo)體行業(yè)觀察”(ID:icbank),36氪經(jīng)授權(quán)發(fā)布。
