Hot Chips 2024 | NVIDIA Blackwell平臺(tái)推進(jìn)生成式AI和加速計(jì)算

逍遙設(shè)計(jì)自動(dòng)化 · 發(fā)表于 2024-9-23 08:01:00

引言
NVIDIA Blackwell平臺(tái)代表了生成式AI和加速計(jì)算領(lǐng)域的重大進(jìn)步。本文將討論Blackwell平臺(tái)的關(guān)鍵組件和創(chuàng)新，展示其如何應(yīng)對(duì)AI工作負(fù)載的不斷增長(zhǎng)需求，并推動(dòng)計(jì)算能力的極限[1]。

NVIDIA Blackwell平臺(tái)簡(jiǎn)介
Blackwell平臺(tái)是NVIDIA最新推出的數(shù)據(jù)中心規(guī)模架構(gòu)，旨在應(yīng)對(duì)日益復(fù)雜的AI模型和加速計(jì)算任務(wù)帶來的挑戰(zhàn)。該平臺(tái)的核心組件包括：

Blackwell GPU

Grace CPU

NVSwitch芯片

BlueField-3

ConnectX-7和ConnectX-8

Spectrum-4和Quantum-3網(wǎng)絡(luò)解決方案

圖1：NVIDIA Blackwell平臺(tái)組件，包括Blackwell GPU、Grace CPU、NVSwitch芯片、BlueField-3和網(wǎng)絡(luò)解決方案。

這些組件協(xié)同工作，為AI和高性能計(jì)算工作負(fù)載提供全面的解決方案。該平臺(tái)建立在NVIDIA開發(fā)CUDA-X庫(kù)的豐富經(jīng)驗(yàn)基礎(chǔ)上，這些庫(kù)優(yōu)化了各種應(yīng)用領(lǐng)域的性能。

' h& T$ w3 o$ V/ H" }+ X2 v
Blackwell GPU：AI計(jì)算的新時(shí)代
Blackwell GPU是Blackwell平臺(tái)的核心，這項(xiàng)工程奇跡推動(dòng)了AI計(jì)算的可能性邊界。

圖2：NVIDIA Blackwell GPU，展示其主要特性和功能。

Blackwell GPU的主要特點(diǎn)包括：

使用臺(tái)積電4NP工藝制造的2080億晶體管

20 PetaFLOPS FP4 AI性能

8 TB/s內(nèi)存帶寬，采用8位HBM3e

1.8 TB/s雙向NVLink帶寬

與Grace CPU的高速NVLink-C2C連接

Blackwell GPU相比其前代產(chǎn)品有顯著進(jìn)步，提供更強(qiáng)大的AI計(jì)算能力、內(nèi)存帶寬和互連能力。

圖3：從Volta到Blackwell的NVIDIA GPU演進(jìn)，展示晶體管數(shù)量和芯片面積的增加。

Blackwell GPU的一項(xiàng)關(guān)鍵創(chuàng)新是NVIDIA高帶寬接口（NV-HBI），在單邊提供10 TB/s的雙向帶寬。這個(gè)接口允許創(chuàng)建具有全面性能的統(tǒng)一GPU，不犧牲速度或效率。

NVIDIA GB200 Grace Blackwell超級(jí)芯片
GB200 Grace Blackwell超級(jí)芯片將Grace CPU和Blackwell GPU的性能結(jié)合在一個(gè)封裝中，為AI工作負(fù)載提供無與倫比的性能。

圖4：GB200 Grace Blackwell超級(jí)芯片，展示Grace CPU和Blackwell GPU的集成。

GB200 Grace Blackwell超級(jí)芯片的主要特點(diǎn)包括：

1個(gè)Grace CPU和2個(gè)Blackwell GPU

NVLink-C2C互連

40 PetaFLOPS FP4 | 20 PetaFLOPS FP8性能

高帶寬和低延遲通信

針對(duì)AI工作負(fù)載中的鍵值（KV）緩存進(jìn)行了優(yōu)化

NVIDIA Quasar量化系統(tǒng)：實(shí)現(xiàn)低精度AI
Blackwell平臺(tái)引入了NVIDIA Quasar量化系統(tǒng)，實(shí)現(xiàn)低精度AI計(jì)算而不犧牲準(zhǔn)確性。該系統(tǒng)解決了與低精度計(jì)算相關(guān)的幾個(gè)挑戰(zhàn)：

精度損失

非均勻?qū)用舾行?li>窄動(dòng)態(tài)范圍

量化噪聲

圖5：NVIDIA Quasar量化系統(tǒng)，說明組件和研究領(lǐng)域。

Quasar量化系統(tǒng)包括幾個(gè)關(guān)鍵組件：

Transformer引擎：硬件和軟件優(yōu)化

庫(kù)：TensorRT、TensorRT-LLM、Megatron-Core、cuDNN等

低精度數(shù)值算法：基于敏感度的層選擇、動(dòng)態(tài)范圍正則化等
[/ol]
Blackwell GPU最顯著的創(chuàng)新之一是第5代Tensor Core，引入了新的微張量縮放FP格式，包括FP4和FP6。

圖6：第5代Tensor Core支持的FP格式總結(jié)，比較Hopper和Blackwell的性能。

這些新格式提供了幾個(gè)優(yōu)勢(shì)：

更寬的FP范圍

放大的帶寬

更低的功耗

更精細(xì)的量化粒度

Quasar量化系統(tǒng)的有效性通過令人印象深刻的FP4推理準(zhǔn)確性結(jié)果得到證明：

圖7：各種模型的FP4推理準(zhǔn)確性結(jié)果，比較BF16和量化FP4性能。

這些結(jié)果表明，即使是像Nemotron-4 340B這樣的大型語言模型，使用量化FP4也能達(dá)到出色的MMLU（大規(guī)模多任務(wù)語言理解）分?jǐn)?shù)，匹配甚至略微超過BF16模型的性能。

AI網(wǎng)絡(luò)：端到端性能和功率擴(kuò)展
隨著AI模型規(guī)模和復(fù)雜性的指數(shù)級(jí)增長(zhǎng)，對(duì)大規(guī)模多GPU推理的需求變得越來越重要。Blackwell平臺(tái)通過先進(jìn)的網(wǎng)絡(luò)解決方案應(yīng)對(duì)這一挑戰(zhàn)。

圖8：AI模型規(guī)模隨時(shí)間的增長(zhǎng)，說明參數(shù)數(shù)量的指數(shù)級(jí)增加。

為滿足這些不斷增長(zhǎng)的模型需求，NVIDIA開發(fā)了世界級(jí)的NVLink PHY性能：

圖9：從Ampere到Blackwell的NVLink性能演進(jìn)，展示帶寬和鏈路速度的增加。

Blackwell平臺(tái)引入了第5代NVLink PHY，通過18個(gè)NVLink提供1800GB/s的總帶寬，每個(gè)NVLink能力達(dá)到100GB/s。

網(wǎng)絡(luò)解決方案的另一個(gè)關(guān)鍵組件是第4代NVLink Switch Chip和NVLink Switch Tray：

圖10：第4代NVLink Switch Chip和NVLink Switch Tray，突出顯示主要特性和功能。

NVLink交換芯片的主要特點(diǎn)包括：

臺(tái)積電4NP工藝中>800 mm2的芯片面積

在GB200 NVL72上將NVLink擴(kuò)展到72個(gè)GPU

通過72個(gè)端口實(shí)現(xiàn)7.2 TB/s全雙向帶寬

SHARP（可擴(kuò)展分層聚合和規(guī)約協(xié)議）網(wǎng)內(nèi)計(jì)算，3.6 TFLOPS性能

NVLink交換托盤包含兩個(gè)NVLink交換芯片，提供總計(jì)14.4 TB/s的帶寬。

GB200 NVL72和NVL36：新的計(jì)算單元
Blackwell平臺(tái)引入了兩種強(qiáng)大的配置：GB200 NVL72和GB200 NVL36，在單個(gè)機(jī)架中提供前所未有的計(jì)算能力。

圖11：GB200 NVL72和NVL36配置，展示每種設(shè)置中的GPU、CPU和NVLink交換托盤數(shù)量。

GB200 NVL72配置提供：

36個(gè)Grace CPU

72個(gè)Blackwell GPU

9個(gè)NVL72 NVLink交換托盤

720 PFLOPs的訓(xùn)練性能

1,440 PFLOPs的推理性能

支持27萬億參數(shù)的NVL模型大小

130 TB/s的多節(jié)點(diǎn)帶寬

260 TB/s的多節(jié)點(diǎn)全規(guī)約

這種配置能夠高效擴(kuò)展大型AI模型，包括具有1.8T參數(shù)的GPT專家混合（MoE）等萬億參數(shù)架構(gòu)。

圖12：GB200 NVL72在萬億參數(shù)AI模型上的性能比較，展示吞吐量和能效的改進(jìn)。

GB200 NVL72配置展示了令人印象深刻的性能提升：

與前代相比，吞吐量提高30倍

能效提升25倍

總擁有成本（TCO）降低25倍

結(jié)論：AI和加速計(jì)算的未來
NVIDIA Blackwell平臺(tái)代表了AI和加速計(jì)算領(lǐng)域的重大進(jìn)步。通過解決不斷增長(zhǎng)的模型規(guī)模、計(jì)算需求增加以及高效網(wǎng)絡(luò)需求的挑戰(zhàn)，Blackwell為性能和效率設(shè)立了新標(biāo)準(zhǔn)。

圖13：NVIDIA數(shù)據(jù)中心規(guī)模架構(gòu)的路線圖，展示從Hopper到Blackwell及未來的演進(jìn)。

Blackwell平臺(tái)的主要成就包括：

全棧、數(shù)據(jù)中心規(guī)模平臺(tái)，涵蓋GPU、CPU、NVSwitch、DPU、NIC和網(wǎng)絡(luò)交換機(jī)

NVIDIA Quasar量化系統(tǒng)實(shí)現(xiàn)低精度AI而不犧牲準(zhǔn)確性

實(shí)時(shí)萬億參數(shù)LLM推理性能提升超過一個(gè)數(shù)量級(jí)

AI訓(xùn)練、推理和加速計(jì)算的性能和功耗顯著改善

通過提供必要的計(jì)算能力、內(nèi)存帶寬和網(wǎng)絡(luò)能力，Blackwell使研究人員、開發(fā)人員和企業(yè)能夠解決日益復(fù)雜的問題，在人工智能和高性能計(jì)算領(lǐng)域開啟新的可能性。

參考文獻(xiàn)
[1] Tirumala and R. Wong, "NVIDIA Blackwell Platform: Advancing Generative AI and Accelerated Computing," Hot Chips: A Symposium on High Performance Chips, 2024.

- END -

軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用，PIC Studio都可提升您的工作效能。
點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)

歡迎轉(zhuǎn)載

轉(zhuǎn)載請(qǐng)注明出處，請(qǐng)勿修改內(nèi)容和刪除作者信息！

1 \ }0 g4 o, d3 F0 o- b

關(guān)注我們

) n; P$ u. t/ Q; U

關(guān)于我們：
深圳逍遙科技有限公司（Latitude Design Automation Inc.）是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化（EDA）的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件，提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio，分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù)，廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作，推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展，致力于為客戶提供前沿技術(shù)與服務(wù)。

http://www.latitudeda.com/
（點(diǎn)擊上方名片關(guān)注我們，發(fā)現(xiàn)更多精彩內(nèi)容）

Hot Chips 2024 | NVIDIA Blackwell平臺(tái)推進(jìn)生成式AI和加速計(jì)算

發(fā)表回復(fù)

精選推薦