Hot Chips 2024 | NVIDIA Blackwell平臺推進生成式AI和加速計算

逍遙設(shè)計自動化 · 發(fā)表于 2024-9-23 08:01:00

引言
NVIDIA Blackwell平臺代表了生成式AI和加速計算領(lǐng)域的重大進步。本文將討論Blackwell平臺的關(guān)鍵組件和創(chuàng)新，展示其如何應(yīng)對AI工作負載的不斷增長需求，并推動計算能力的極限[1]。

NVIDIA Blackwell平臺簡介
Blackwell平臺是NVIDIA最新推出的數(shù)據(jù)中心規(guī)模架構(gòu)，旨在應(yīng)對日益復雜的AI模型和加速計算任務(wù)帶來的挑戰(zhàn)。該平臺的核心組件包括：

Blackwell GPU

Grace CPU

NVSwitch芯片

BlueField-3

ConnectX-7和ConnectX-8

Spectrum-4和Quantum-3網(wǎng)絡(luò)解決方案

圖1：NVIDIA Blackwell平臺組件，包括Blackwell GPU、Grace CPU、NVSwitch芯片、BlueField-3和網(wǎng)絡(luò)解決方案。

這些組件協(xié)同工作，為AI和高性能計算工作負載提供全面的解決方案。該平臺建立在NVIDIA開發(fā)CUDA-X庫的豐富經(jīng)驗基礎(chǔ)上，這些庫優(yōu)化了各種應(yīng)用領(lǐng)域的性能。
+ F8 H+ J( u" S7 q

Blackwell GPU：AI計算的新時代
Blackwell GPU是Blackwell平臺的核心，這項工程奇跡推動了AI計算的可能性邊界。

圖2：NVIDIA Blackwell GPU，展示其主要特性和功能。

Blackwell GPU的主要特點包括：

使用臺積電4NP工藝制造的2080億晶體管

20 PetaFLOPS FP4 AI性能

8 TB/s內(nèi)存帶寬，采用8位HBM3e

1.8 TB/s雙向NVLink帶寬

與Grace CPU的高速NVLink-C2C連接

Blackwell GPU相比其前代產(chǎn)品有顯著進步，提供更強大的AI計算能力、內(nèi)存帶寬和互連能力。

圖3：從Volta到Blackwell的NVIDIA GPU演進，展示晶體管數(shù)量和芯片面積的增加。

Blackwell GPU的一項關(guān)鍵創(chuàng)新是NVIDIA高帶寬接口（NV-HBI），在單邊提供10 TB/s的雙向帶寬。這個接口允許創(chuàng)建具有全面性能的統(tǒng)一GPU，不犧牲速度或效率。

NVIDIA GB200 Grace Blackwell超級芯片
GB200 Grace Blackwell超級芯片將Grace CPU和Blackwell GPU的性能結(jié)合在一個封裝中，為AI工作負載提供無與倫比的性能。

圖4：GB200 Grace Blackwell超級芯片，展示Grace CPU和Blackwell GPU的集成。

GB200 Grace Blackwell超級芯片的主要特點包括：

1個Grace CPU和2個Blackwell GPU

NVLink-C2C互連

40 PetaFLOPS FP4 | 20 PetaFLOPS FP8性能

高帶寬和低延遲通信

針對AI工作負載中的鍵值（KV）緩存進行了優(yōu)化

NVIDIA Quasar量化系統(tǒng)：實現(xiàn)低精度AI
Blackwell平臺引入了NVIDIA Quasar量化系統(tǒng)，實現(xiàn)低精度AI計算而不犧牲準確性。該系統(tǒng)解決了與低精度計算相關(guān)的幾個挑戰(zhàn)：

精度損失

非均勻?qū)用舾行?li>窄動態(tài)范圍

量化噪聲

圖5：NVIDIA Quasar量化系統(tǒng)，說明組件和研究領(lǐng)域。

Quasar量化系統(tǒng)包括幾個關(guān)鍵組件：

Transformer引擎：硬件和軟件優(yōu)化

庫：TensorRT、TensorRT-LLM、Megatron-Core、cuDNN等

低精度數(shù)值算法：基于敏感度的層選擇、動態(tài)范圍正則化等
[/ol]
Blackwell GPU最顯著的創(chuàng)新之一是第5代Tensor Core，引入了新的微張量縮放FP格式，包括FP4和FP6。

圖6：第5代Tensor Core支持的FP格式總結(jié)，比較Hopper和Blackwell的性能。

這些新格式提供了幾個優(yōu)勢：

更寬的FP范圍

放大的帶寬

更低的功耗

更精細的量化粒度

Quasar量化系統(tǒng)的有效性通過令人印象深刻的FP4推理準確性結(jié)果得到證明：

圖7：各種模型的FP4推理準確性結(jié)果，比較BF16和量化FP4性能。

這些結(jié)果表明，即使是像Nemotron-4 340B這樣的大型語言模型，使用量化FP4也能達到出色的MMLU（大規(guī)模多任務(wù)語言理解）分數(shù)，匹配甚至略微超過BF16模型的性能。

AI網(wǎng)絡(luò)：端到端性能和功率擴展
隨著AI模型規(guī)模和復雜性的指數(shù)級增長，對大規(guī)模多GPU推理的需求變得越來越重要。Blackwell平臺通過先進的網(wǎng)絡(luò)解決方案應(yīng)對這一挑戰(zhàn)。

圖8：AI模型規(guī)模隨時間的增長，說明參數(shù)數(shù)量的指數(shù)級增加。

為滿足這些不斷增長的模型需求，NVIDIA開發(fā)了世界級的NVLink PHY性能：

圖9：從Ampere到Blackwell的NVLink性能演進，展示帶寬和鏈路速度的增加。

Blackwell平臺引入了第5代NVLink PHY，通過18個NVLink提供1800GB/s的總帶寬，每個NVLink能力達到100GB/s。

網(wǎng)絡(luò)解決方案的另一個關(guān)鍵組件是第4代NVLink Switch Chip和NVLink Switch Tray：

圖10：第4代NVLink Switch Chip和NVLink Switch Tray，突出顯示主要特性和功能。

NVLink交換芯片的主要特點包括：

臺積電4NP工藝中>800 mm2的芯片面積

在GB200 NVL72上將NVLink擴展到72個GPU

通過72個端口實現(xiàn)7.2 TB/s全雙向帶寬

SHARP（可擴展分層聚合和規(guī)約協(xié)議）網(wǎng)內(nèi)計算，3.6 TFLOPS性能

NVLink交換托盤包含兩個NVLink交換芯片，提供總計14.4 TB/s的帶寬。

GB200 NVL72和NVL36：新的計算單元
Blackwell平臺引入了兩種強大的配置：GB200 NVL72和GB200 NVL36，在單個機架中提供前所未有的計算能力。

圖11：GB200 NVL72和NVL36配置，展示每種設(shè)置中的GPU、CPU和NVLink交換托盤數(shù)量。

GB200 NVL72配置提供：

36個Grace CPU

72個Blackwell GPU

9個NVL72 NVLink交換托盤

720 PFLOPs的訓練性能

1,440 PFLOPs的推理性能

支持27萬億參數(shù)的NVL模型大小

130 TB/s的多節(jié)點帶寬

260 TB/s的多節(jié)點全規(guī)約

這種配置能夠高效擴展大型AI模型，包括具有1.8T參數(shù)的GPT專家混合（MoE）等萬億參數(shù)架構(gòu)。

圖12：GB200 NVL72在萬億參數(shù)AI模型上的性能比較，展示吞吐量和能效的改進。

GB200 NVL72配置展示了令人印象深刻的性能提升：

與前代相比，吞吐量提高30倍

能效提升25倍

總擁有成本（TCO）降低25倍

結(jié)論：AI和加速計算的未來
NVIDIA Blackwell平臺代表了AI和加速計算領(lǐng)域的重大進步。通過解決不斷增長的模型規(guī)模、計算需求增加以及高效網(wǎng)絡(luò)需求的挑戰(zhàn)，Blackwell為性能和效率設(shè)立了新標準。

圖13：NVIDIA數(shù)據(jù)中心規(guī)模架構(gòu)的路線圖，展示從Hopper到Blackwell及未來的演進。

Blackwell平臺的主要成就包括：

全棧、數(shù)據(jù)中心規(guī)模平臺，涵蓋GPU、CPU、NVSwitch、DPU、NIC和網(wǎng)絡(luò)交換機

NVIDIA Quasar量化系統(tǒng)實現(xiàn)低精度AI而不犧牲準確性

實時萬億參數(shù)LLM推理性能提升超過一個數(shù)量級

AI訓練、推理和加速計算的性能和功耗顯著改善

通過提供必要的計算能力、內(nèi)存帶寬和網(wǎng)絡(luò)能力，Blackwell使研究人員、開發(fā)人員和企業(yè)能夠解決日益復雜的問題，在人工智能和高性能計算領(lǐng)域開啟新的可能性。

參考文獻
[1] Tirumala and R. Wong, "NVIDIA Blackwell Platform: Advancing Generative AI and Accelerated Computing," Hot Chips: A Symposium on High Performance Chips, 2024.

- END -

軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用，PIC Studio都可提升您的工作效能。
點擊左下角"閱讀原文"馬上申請

歡迎轉(zhuǎn)載

轉(zhuǎn)載請注明出處，請勿修改內(nèi)容和刪除作者信息！

6 y- P; L7 `2 ?* M

關(guān)注我們

6 n0 P& Y" }( i4 g2 U5 L1 v

關(guān)于我們：
深圳逍遙科技有限公司（Latitude Design Automation Inc.）是一家專注于半導體芯片設(shè)計自動化（EDA）的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件，提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio，分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務(wù)，廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作，推動特色工藝半導體產(chǎn)業(yè)鏈發(fā)展，致力于為客戶提供前沿技術(shù)與服務(wù)。

http://www.latitudeda.com/
（點擊上方名片關(guān)注我們，發(fā)現(xiàn)更多精彩內(nèi)容）

Hot Chips 2024 | NVIDIA Blackwell平臺推進生成式AI和加速計算

發(fā)表回復

精選推薦