|
引言8 H. R" I% @& {% o
NVIDIA Blackwell平臺(tái)代表了生成式AI和加速計(jì)算領(lǐng)域的重大進(jìn)步。本文將討論Blackwell平臺(tái)的關(guān)鍵組件和創(chuàng)新,展示其如何應(yīng)對(duì)AI工作負(fù)載的不斷增長(zhǎng)需求,并推動(dòng)計(jì)算能力的極限[1]。
8 [! M0 {; h* K0 s. b/ v6 x+ T. p0 v+ i
NVIDIA Blackwell平臺(tái)簡(jiǎn)介1 A. o5 y5 f+ d5 x
Blackwell平臺(tái)是NVIDIA最新推出的數(shù)據(jù)中心規(guī)模架構(gòu),旨在應(yīng)對(duì)日益復(fù)雜的AI模型和加速計(jì)算任務(wù)帶來的挑戰(zhàn)。該平臺(tái)的核心組件包括:
4 _, X( C2 t7 }* xBlackwell GPUGrace CPUNVSwitch芯片BlueField-3ConnectX-7和ConnectX-8Spectrum-4和Quantum-3網(wǎng)絡(luò)解決方案
' c" g R; n5 m+ ]
+ N+ n r. M: Z! e! B
xaz3mp4sar56402431047.png (298.89 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
xaz3mp4sar56402431047.png
2024-9-26 01:29 上傳
8 e5 ^7 \: o: z& `7 s- i圖1:NVIDIA Blackwell平臺(tái)組件,包括Blackwell GPU、Grace CPU、NVSwitch芯片、BlueField-3和網(wǎng)絡(luò)解決方案。/ n) t. @0 S) q6 o! A
; l) s3 d) l, a% r, L* Z i+ H
這些組件協(xié)同工作,為AI和高性能計(jì)算工作負(fù)載提供全面的解決方案。該平臺(tái)建立在NVIDIA開發(fā)CUDA-X庫(kù)的豐富經(jīng)驗(yàn)基礎(chǔ)上,這些庫(kù)優(yōu)化了各種應(yīng)用領(lǐng)域的性能。+ C. i l& ]0 E# }& B
' h& T$ w3 o$ V/ H" }+ X2 v
: c$ _5 w2 A' i( C8 W& X2 HBlackwell GPU:AI計(jì)算的新時(shí)代
: ^. E* d8 X$ M# k' tBlackwell GPU是Blackwell平臺(tái)的核心,這項(xiàng)工程奇跡推動(dòng)了AI計(jì)算的可能性邊界。
! p0 W0 E4 h8 G# M* ]+ E
kvd42alc1cp6402431147.png (229.35 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
kvd42alc1cp6402431147.png
2024-9-26 01:29 上傳
: @5 O( p( Q$ \) l
圖2:NVIDIA Blackwell GPU,展示其主要特性和功能。
8 K0 G9 l2 b- I; J$ Z4 l5 t( v
I+ J! Z' I& i6 aBlackwell GPU的主要特點(diǎn)包括:6 H, D2 g% Z) ?% }$ k
使用臺(tái)積電4NP工藝制造的2080億晶體管20 PetaFLOPS FP4 AI性能8 TB/s內(nèi)存帶寬,采用8位HBM3e1.8 TB/s雙向NVLink帶寬與Grace CPU的高速NVLink-C2C連接& b9 u2 m4 ~. Z& c( z; M' j
8 o7 r, D- c- _- J
Blackwell GPU相比其前代產(chǎn)品有顯著進(jìn)步,提供更強(qiáng)大的AI計(jì)算能力、內(nèi)存帶寬和互連能力。* B5 H Y% @& b! b2 K. X e
hrgzto5pnn46402431247.png (240.79 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
hrgzto5pnn46402431247.png
2024-9-26 01:29 上傳
* V3 i* x B! J/ W1 L圖3:從Volta到Blackwell的NVIDIA GPU演進(jìn),展示晶體管數(shù)量和芯片面積的增加。
0 m- I- T8 K2 }$ G
* S8 f$ R8 A! X f/ R$ ^Blackwell GPU的一項(xiàng)關(guān)鍵創(chuàng)新是NVIDIA高帶寬接口(NV-HBI),在單邊提供10 TB/s的雙向帶寬。這個(gè)接口允許創(chuàng)建具有全面性能的統(tǒng)一GPU,不犧牲速度或效率。3 v; X( w7 K" x2 E
/ }# y G p1 _: r, ~- N9 b, CNVIDIA GB200 Grace Blackwell超級(jí)芯片( U" e( i3 v4 \/ z3 w. c! i6 G
GB200 Grace Blackwell超級(jí)芯片將Grace CPU和Blackwell GPU的性能結(jié)合在一個(gè)封裝中,為AI工作負(fù)載提供無與倫比的性能。
! J' `+ x0 @8 O0 p) @6 A( T6 y
zpjgaokcfbe6402431348.png (268.85 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
zpjgaokcfbe6402431348.png
2024-9-26 01:29 上傳
+ r& D# B Z8 ]. O0 E6 x
圖4:GB200 Grace Blackwell超級(jí)芯片,展示Grace CPU和Blackwell GPU的集成。! A3 d/ e, [8 v: b' p
& X7 p2 d4 M* i6 p$ g3 N
GB200 Grace Blackwell超級(jí)芯片的主要特點(diǎn)包括:
/ D5 v- x/ |, q5 o1個(gè)Grace CPU和2個(gè)Blackwell GPUNVLink-C2C互連40 PetaFLOPS FP4 | 20 PetaFLOPS FP8性能高帶寬和低延遲通信針對(duì)AI工作負(fù)載中的鍵值(KV)緩存進(jìn)行了優(yōu)化
K( s0 `- g6 o4 C5 k8 |# L, \ O
7 a$ `6 ^6 C8 ]- a1 mNVIDIA Quasar量化系統(tǒng):實(shí)現(xiàn)低精度AI' ]( V$ G0 O8 p+ X# I" V
Blackwell平臺(tái)引入了NVIDIA Quasar量化系統(tǒng),實(shí)現(xiàn)低精度AI計(jì)算而不犧牲準(zhǔn)確性。該系統(tǒng)解決了與低精度計(jì)算相關(guān)的幾個(gè)挑戰(zhàn):8 ~1 E2 t% l* R3 @3 O' T% [2 L
精度損失非均勻?qū)用舾行?li>窄動(dòng)態(tài)范圍量化噪聲
7 T$ Z) H7 t+ S6 ]% {
; o3 o0 @! J2 I+ |( k
6 v9 u# Z) [$ b( A8 G4 R8 Z) ?
m2i32vpsv536402431448.png (270.34 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
m2i32vpsv536402431448.png
2024-9-26 01:29 上傳
+ H' b/ M+ A) w5 [* T8 ]
圖5:NVIDIA Quasar量化系統(tǒng),說明組件和研究領(lǐng)域。
# k9 P3 n6 h m9 b: c9 U. R: i \1 t- l) d/ u" t/ J: Z3 E- m
Quasar量化系統(tǒng)包括幾個(gè)關(guān)鍵組件:Transformer引擎:硬件和軟件優(yōu)化庫(kù):TensorRT、TensorRT-LLM、Megatron-Core、cuDNN等低精度數(shù)值算法:基于敏感度的層選擇、動(dòng)態(tài)范圍正則化等% U$ s$ X, f3 n! ~
[/ol]1 c/ X+ V' j; n' W8 v% } x
Blackwell GPU最顯著的創(chuàng)新之一是第5代Tensor Core,引入了新的微張量縮放FP格式,包括FP4和FP6。. n5 \( G O+ l# A+ H2 C4 P
jqzkjevoimk6402431548.png (304.83 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
jqzkjevoimk6402431548.png
2024-9-26 01:29 上傳
5 A0 m0 A+ x6 O9 k' _% m- h5 N
dph0fqkmada6402431648.png (127.68 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
dph0fqkmada6402431648.png
2024-9-26 01:29 上傳
; O' s! P) S+ {( k5 U0 N
圖6:第5代Tensor Core支持的FP格式總結(jié),比較Hopper和Blackwell的性能。6 X: ~- i2 y1 U) c& {- J1 q+ u6 \
5 x( ~: g" u' P6 x8 `; Z這些新格式提供了幾個(gè)優(yōu)勢(shì):3 H0 W3 N9 u: i1 \/ d; f" ?" |9 ]+ i4 d
更寬的FP范圍放大的帶寬更低的功耗更精細(xì)的量化粒度& c) b1 u- g* \! a* }
% }( ~/ T, l; O6 S, q% bQuasar量化系統(tǒng)的有效性通過令人印象深刻的FP4推理準(zhǔn)確性結(jié)果得到證明:
( ^4 ?, G. r% ^ a+ P, [
4 D3 j9 F/ K( e+ L+ X
ozl5hmaalel6402431748.png (114.65 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
ozl5hmaalel6402431748.png
2024-9-26 01:29 上傳
! b# g/ v5 A6 ]0 _& v
圖7:各種模型的FP4推理準(zhǔn)確性結(jié)果,比較BF16和量化FP4性能。
3 o- d: K& h5 s6 x/ x2 B) X2 {: S9 d. R
這些結(jié)果表明,即使是像Nemotron-4 340B這樣的大型語言模型,使用量化FP4也能達(dá)到出色的MMLU(大規(guī)模多任務(wù)語言理解)分?jǐn)?shù),匹配甚至略微超過BF16模型的性能。
; u f2 ~$ C* K( [, K1 c1 N
+ J" H6 H7 Y' `* q5 K0 |AI網(wǎng)絡(luò):端到端性能和功率擴(kuò)展- C [. R) J. U
隨著AI模型規(guī)模和復(fù)雜性的指數(shù)級(jí)增長(zhǎng),對(duì)大規(guī)模多GPU推理的需求變得越來越重要。Blackwell平臺(tái)通過先進(jìn)的網(wǎng)絡(luò)解決方案應(yīng)對(duì)這一挑戰(zhàn)。! b! X8 X! ^- g8 e( M1 [ v0 I, t
2jbtw32ba3z6402431848.png (117.29 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
2jbtw32ba3z6402431848.png
2024-9-26 01:29 上傳
# m. e# l0 C3 u. l4 n9 E圖8:AI模型規(guī)模隨時(shí)間的增長(zhǎng),說明參數(shù)數(shù)量的指數(shù)級(jí)增加。 M4 n# T- b* u. u! |
6 D/ ^1 k. V- q1 g6 Q
為滿足這些不斷增長(zhǎng)的模型需求,NVIDIA開發(fā)了世界級(jí)的NVLink PHY性能:
, [; R6 I T2 E
q4xfvrk3fa16402431948.png (627.99 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
q4xfvrk3fa16402431948.png
2024-9-26 01:29 上傳
, l" P5 c( F. t" v2 Z
圖9:從Ampere到Blackwell的NVLink性能演進(jìn),展示帶寬和鏈路速度的增加。% B# l+ M5 b5 \
1 A: J# K( w' s) WBlackwell平臺(tái)引入了第5代NVLink PHY,通過18個(gè)NVLink提供1800GB/s的總帶寬,每個(gè)NVLink能力達(dá)到100GB/s。/ n) P! K4 P! |% `4 F$ k1 p
9 o8 y8 R# u9 _2 o6 R, a5 _) g網(wǎng)絡(luò)解決方案的另一個(gè)關(guān)鍵組件是第4代NVLink Switch Chip和NVLink Switch Tray:8 {6 d& p% b4 g2 a9 |/ d+ V2 \
35kxgkqpwzv6402432049.png (301.81 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
35kxgkqpwzv6402432049.png
2024-9-26 01:29 上傳
( r) D8 l: B8 a! X) Q; z圖10:第4代NVLink Switch Chip和NVLink Switch Tray,突出顯示主要特性和功能。& h8 G, R4 [! H! W9 O
" s& E! {: H, D- L1 t$ X9 Z" iNVLink交換芯片的主要特點(diǎn)包括:
( y( I1 R& k; p/ H臺(tái)積電4NP工藝中>800 mm2的芯片面積在GB200 NVL72上將NVLink擴(kuò)展到72個(gè)GPU通過72個(gè)端口實(shí)現(xiàn)7.2 TB/s全雙向帶寬SHARP(可擴(kuò)展分層聚合和規(guī)約協(xié)議)網(wǎng)內(nèi)計(jì)算,3.6 TFLOPS性能) M4 s% Z- y# X3 [. Z4 w# `
+ Q, _! G* n$ _NVLink交換托盤包含兩個(gè)NVLink交換芯片,提供總計(jì)14.4 TB/s的帶寬。6 n# @ w( i* x& Y
7 O7 X& |& W3 W) m6 ]2 F, ]# O6 WGB200 NVL72和NVL36:新的計(jì)算單元
$ v2 D1 x: k: f7 T, ?Blackwell平臺(tái)引入了兩種強(qiáng)大的配置:GB200 NVL72和GB200 NVL36,在單個(gè)機(jī)架中提供前所未有的計(jì)算能力。0 U3 X; R& ^5 Q
eo3jvx51lyc6402432149.png (277.8 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
eo3jvx51lyc6402432149.png
2024-9-26 01:29 上傳
8 U- j( Q+ q5 ?" R" `. }+ h
圖11:GB200 NVL72和NVL36配置,展示每種設(shè)置中的GPU、CPU和NVLink交換托盤數(shù)量。
+ S1 c: ]7 X* w0 B
v2 |. C, g3 k+ W* C5 J5 dGB200 NVL72配置提供:
% o7 u' f& V( N% j" V36個(gè)Grace CPU72個(gè)Blackwell GPU9個(gè)NVL72 NVLink交換托盤720 PFLOPs的訓(xùn)練性能1,440 PFLOPs的推理性能支持27萬億參數(shù)的NVL模型大小130 TB/s的多節(jié)點(diǎn)帶寬260 TB/s的多節(jié)點(diǎn)全規(guī)約9 J5 t% j, H: N, E5 v& `$ n
$ L2 s& \. A: s$ S U
這種配置能夠高效擴(kuò)展大型AI模型,包括具有1.8T參數(shù)的GPT專家混合(MoE)等萬億參數(shù)架構(gòu)。
/ u U {" }4 [/ @2 ~" B# e
imtnn4vne246402432249.png (97.8 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
imtnn4vne246402432249.png
2024-9-26 01:29 上傳
( ]; F ?- b" h
圖12:GB200 NVL72在萬億參數(shù)AI模型上的性能比較,展示吞吐量和能效的改進(jìn)。8 n$ c P! N) o5 I/ s
( Z' F9 ~+ H6 t* Y9 P% ]! g/ XGB200 NVL72配置展示了令人印象深刻的性能提升:# F+ m, u- X2 c! E
與前代相比,吞吐量提高30倍能效提升25倍總擁有成本(TCO)降低25倍
, h* A m: \0 \) z* C
$ |8 K2 i: G" w結(jié)論:AI和加速計(jì)算的未來
$ }. ]1 f# j* n, D% W: M8 _NVIDIA Blackwell平臺(tái)代表了AI和加速計(jì)算領(lǐng)域的重大進(jìn)步。通過解決不斷增長(zhǎng)的模型規(guī)模、計(jì)算需求增加以及高效網(wǎng)絡(luò)需求的挑戰(zhàn),Blackwell為性能和效率設(shè)立了新標(biāo)準(zhǔn)。
* o0 W" t* l+ a$ _' h0 Y& }
k5hui4llqno6402432349.png (254.64 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
k5hui4llqno6402432349.png
2024-9-26 01:29 上傳
8 n! p4 p/ d# U: N Z- X
圖13:NVIDIA數(shù)據(jù)中心規(guī)模架構(gòu)的路線圖,展示從Hopper到Blackwell及未來的演進(jìn)。1 L" @7 ~7 S: r a9 n+ g l+ E
. D: I; F: U& |2 M# F' j! d
Blackwell平臺(tái)的主要成就包括:
+ E+ i" x) q: P: [& r全棧、數(shù)據(jù)中心規(guī)模平臺(tái),涵蓋GPU、CPU、NVSwitch、DPU、NIC和網(wǎng)絡(luò)交換機(jī)NVIDIA Quasar量化系統(tǒng)實(shí)現(xiàn)低精度AI而不犧牲準(zhǔn)確性實(shí)時(shí)萬億參數(shù)LLM推理性能提升超過一個(gè)數(shù)量級(jí)AI訓(xùn)練、推理和加速計(jì)算的性能和功耗顯著改善
! q! d: Z6 J9 L) G" }1 |+ X$ a2 Y; ^$ m" B8 ~3 g3 p1 U
通過提供必要的計(jì)算能力、內(nèi)存帶寬和網(wǎng)絡(luò)能力,Blackwell使研究人員、開發(fā)人員和企業(yè)能夠解決日益復(fù)雜的問題,在人工智能和高性能計(jì)算領(lǐng)域開啟新的可能性。3 g# @5 C: o3 x1 E+ a3 L
% \1 Y6 ]7 D9 o* O9 r7 S: p' i
參考文獻(xiàn) r, Q; a7 H) N1 ^9 j. ?. W/ b
[1] Tirumala and R. Wong, "NVIDIA Blackwell Platform: Advancing Generative AI and Accelerated Computing," Hot Chips: A Symposium on High Performance Chips, 2024., p& E% |9 q% V3 c( r( H- a5 t
% D P9 m, l& t0 ^) m- END -
5 c3 W: Y+ `0 g5 z: @2 m/ t s. n' ]6 ?. j+ U Z& E/ |% ?
軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
2 i8 M8 N* v( |點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)4 J3 M4 }% ~: x4 I6 i! t* R3 `2 B5 B
" i- G* ?+ }3 Y8 h* [歡迎轉(zhuǎn)載
6 ~! @# z: T: y0 D, v$ d' |
% r5 F# a& Z5 X2 a) x9 N) l轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!& ~1 S- S0 i1 B0 B9 w" ^- C6 T k
5 |. B7 C0 t4 o1 \ }0 g4 o, d3 F0 o- b
4 k. \# S0 r/ I2 v9 q. c9 j6 O5 q
51ru2ery2g36402432449.gif (16.04 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
51ru2ery2g36402432449.gif
2024-9-26 01:29 上傳
+ J1 d \3 @9 c+ V% ~2 j
a0 h/ A1 z9 t) f9 u! X7 Z$ P關(guān)注我們
* v; G+ p$ h, }( a1 w; i8 A9 P0 E2 A0 v
' l: y( H4 H8 r* I/ r& G" O
gslhxcf1eyg6402432549.png (31.33 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
gslhxcf1eyg6402432549.png
2024-9-26 01:29 上傳
% Z$ C4 H7 u! q# ]5 g* v | ( W3 w/ X, K5 b! ]; Q8 n
pks442qgcst6402432649.png (82.79 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
pks442qgcst6402432649.png
2024-9-26 01:29 上傳
, d0 P: W8 n; g7 s8 D |
1 ]3 m+ T# `; u
3u0h1j54xwh6402432749.png (21.52 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
3u0h1j54xwh6402432749.png
2024-9-26 01:29 上傳
5 ^) @5 q% V* Z% K
|
9 ]/ c' o- j7 L, _
) n; P$ u. t/ Q; U, [! A0 X# m5 g& W% e) z8 W. S* v
( E3 f$ M/ e* R- X4 E i# o) {4 \
關(guān)于我們:
3 _* R6 n. W; s: P+ U* |2 b% Z3 }深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
$ ~# y4 t+ x/ B2 P T& q( @0 l% _% K$ V# q+ Q0 \% X' X6 j
http://www.latitudeda.com/2 |# l! ~$ [3 q: M& c- ]
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|