|
引言
+ X$ [1 O$ A2 ~; x* @0 E E/ lNVIDIA Blackwell平臺代表了生成式AI和加速計算領(lǐng)域的重大進步。本文將討論Blackwell平臺的關(guān)鍵組件和創(chuàng)新,展示其如何應(yīng)對AI工作負載的不斷增長需求,并推動計算能力的極限[1]。
& I+ d K* n3 p, c6 |6 W5 _; d. Z) U( l% \4 L
NVIDIA Blackwell平臺簡介3 z& ~5 M2 n+ B; W/ t9 |6 ~
Blackwell平臺是NVIDIA最新推出的數(shù)據(jù)中心規(guī)模架構(gòu),旨在應(yīng)對日益復雜的AI模型和加速計算任務(wù)帶來的挑戰(zhàn)。該平臺的核心組件包括:
5 J" v- ^! C5 w( }; Z- d! g/ ~Blackwell GPUGrace CPUNVSwitch芯片BlueField-3ConnectX-7和ConnectX-8Spectrum-4和Quantum-3網(wǎng)絡(luò)解決方案
- i. c8 q5 z) ?0 n
% t1 K+ _4 V1 ]/ x
xaz3mp4sar56402431047.png (298.89 KB, 下載次數(shù): 2)
下載附件
保存到相冊
xaz3mp4sar56402431047.png
2024-9-26 01:29 上傳
4 h8 ~7 t, L& X# g J
圖1:NVIDIA Blackwell平臺組件,包括Blackwell GPU、Grace CPU、NVSwitch芯片、BlueField-3和網(wǎng)絡(luò)解決方案。
T! F- b5 V3 k4 B% R9 W3 O8 X" W0 A
這些組件協(xié)同工作,為AI和高性能計算工作負載提供全面的解決方案。該平臺建立在NVIDIA開發(fā)CUDA-X庫的豐富經(jīng)驗基礎(chǔ)上,這些庫優(yōu)化了各種應(yīng)用領(lǐng)域的性能。
: g5 G6 T& \# V2 Q6 Z* n- p4 _+ F8 H+ J( u" S7 q
# W$ k: V9 ]$ g; T. M4 K& c+ L% [5 f
Blackwell GPU:AI計算的新時代& I0 @: `0 i3 K, z+ T! V
Blackwell GPU是Blackwell平臺的核心,這項工程奇跡推動了AI計算的可能性邊界。
/ L$ k+ e, Z6 i. \/ w7 ^: ^) p: F
kvd42alc1cp6402431147.png (229.35 KB, 下載次數(shù): 2)
下載附件
保存到相冊
kvd42alc1cp6402431147.png
2024-9-26 01:29 上傳
0 F& o7 w/ d4 q" l; M圖2:NVIDIA Blackwell GPU,展示其主要特性和功能。: I- A# E7 F0 [$ G
7 U' K' i, A6 F8 g
Blackwell GPU的主要特點包括:
1 m$ M) Y! `, P8 |4 T* [使用臺積電4NP工藝制造的2080億晶體管20 PetaFLOPS FP4 AI性能8 TB/s內(nèi)存帶寬,采用8位HBM3e1.8 TB/s雙向NVLink帶寬與Grace CPU的高速NVLink-C2C連接
+ `, Y6 ~8 D7 b. e7 ]2 A y; u* w& S- \1 F; m
Blackwell GPU相比其前代產(chǎn)品有顯著進步,提供更強大的AI計算能力、內(nèi)存帶寬和互連能力。3 w) L% K, F( z1 T
hrgzto5pnn46402431247.png (240.79 KB, 下載次數(shù): 3)
下載附件
保存到相冊
hrgzto5pnn46402431247.png
2024-9-26 01:29 上傳
3 }% ~" d5 U0 L" j1 }5 l
圖3:從Volta到Blackwell的NVIDIA GPU演進,展示晶體管數(shù)量和芯片面積的增加。
* {; l" X1 |6 I. J. Z( ^3 k' d, R4 p# Y$ |
Blackwell GPU的一項關(guān)鍵創(chuàng)新是NVIDIA高帶寬接口(NV-HBI),在單邊提供10 TB/s的雙向帶寬。這個接口允許創(chuàng)建具有全面性能的統(tǒng)一GPU,不犧牲速度或效率。- r$ X- h5 Y9 V/ C
) J/ I3 I' l d: A! U9 e; [9 p
NVIDIA GB200 Grace Blackwell超級芯片: c6 U9 h$ N( K; m
GB200 Grace Blackwell超級芯片將Grace CPU和Blackwell GPU的性能結(jié)合在一個封裝中,為AI工作負載提供無與倫比的性能。
5 n- q% ^! O: p' I! g
zpjgaokcfbe6402431348.png (268.85 KB, 下載次數(shù): 2)
下載附件
保存到相冊
zpjgaokcfbe6402431348.png
2024-9-26 01:29 上傳
- Y# e F4 D- k& F
圖4:GB200 Grace Blackwell超級芯片,展示Grace CPU和Blackwell GPU的集成。
- i# n5 p2 q; ^) Z2 P
$ b( {. }9 J8 L& u3 [0 P, t! UGB200 Grace Blackwell超級芯片的主要特點包括:6 D- x5 b, B) Q1 p0 D- D. X% c
1個Grace CPU和2個Blackwell GPUNVLink-C2C互連40 PetaFLOPS FP4 | 20 PetaFLOPS FP8性能高帶寬和低延遲通信針對AI工作負載中的鍵值(KV)緩存進行了優(yōu)化
9 a5 }& r8 ]$ P- F/ h
8 U4 m" s3 r( A/ }9 o+ l, m6 t0 ^NVIDIA Quasar量化系統(tǒng):實現(xiàn)低精度AI: f ?# S* a4 e3 _2 c* L
Blackwell平臺引入了NVIDIA Quasar量化系統(tǒng),實現(xiàn)低精度AI計算而不犧牲準確性。該系統(tǒng)解決了與低精度計算相關(guān)的幾個挑戰(zhàn):
! v1 W, C: {; O+ i V精度損失非均勻?qū)用舾行?li>窄動態(tài)范圍量化噪聲
& {0 V3 B7 a0 J; ~( [9 T k- ]3 v! ?5 }$ {. Y0 i
* i4 ]8 N% V/ `( [; G
m2i32vpsv536402431448.png (270.34 KB, 下載次數(shù): 0)
下載附件
保存到相冊
m2i32vpsv536402431448.png
2024-9-26 01:29 上傳
' [: h6 S$ d1 I8 b5 U5 \4 n* C
圖5:NVIDIA Quasar量化系統(tǒng),說明組件和研究領(lǐng)域。6 z% x% G( c- u5 I
1 f/ H6 I' o0 Q2 @2 h& wQuasar量化系統(tǒng)包括幾個關(guān)鍵組件:Transformer引擎:硬件和軟件優(yōu)化庫:TensorRT、TensorRT-LLM、Megatron-Core、cuDNN等低精度數(shù)值算法:基于敏感度的層選擇、動態(tài)范圍正則化等
+ l8 }. D# N# T[/ol]
: q+ P. P4 f; \" O/ V" k+ oBlackwell GPU最顯著的創(chuàng)新之一是第5代Tensor Core,引入了新的微張量縮放FP格式,包括FP4和FP6。
! `1 U+ C0 h# R! o: o
jqzkjevoimk6402431548.png (304.83 KB, 下載次數(shù): 2)
下載附件
保存到相冊
jqzkjevoimk6402431548.png
2024-9-26 01:29 上傳
! Z, [1 i9 m2 A9 `7 h
dph0fqkmada6402431648.png (127.68 KB, 下載次數(shù): 3)
下載附件
保存到相冊
dph0fqkmada6402431648.png
2024-9-26 01:29 上傳
8 b7 k0 E6 }/ n j- D' Q4 L圖6:第5代Tensor Core支持的FP格式總結(jié),比較Hopper和Blackwell的性能。
+ E5 D9 C' h" V6 ?$ V( E; h c5 a4 m) k( B) s _
這些新格式提供了幾個優(yōu)勢:1 X) Z! }; L, K8 w% u6 I% ~/ R
更寬的FP范圍放大的帶寬更低的功耗更精細的量化粒度, q& O3 P+ b/ D% v* M6 a
r9 k6 E9 P5 A. \! s4 q$ U
Quasar量化系統(tǒng)的有效性通過令人印象深刻的FP4推理準確性結(jié)果得到證明:
5 q# m3 `+ f% ?2 {, Q, t* }& ~9 T; [
ozl5hmaalel6402431748.png (114.65 KB, 下載次數(shù): 3)
下載附件
保存到相冊
ozl5hmaalel6402431748.png
2024-9-26 01:29 上傳
5 q1 R' Q6 M9 a: k7 Z" a圖7:各種模型的FP4推理準確性結(jié)果,比較BF16和量化FP4性能。$ U7 u: g7 b. r+ v. Y: X' _- g! L, u
' q6 B( D. j2 |/ X
這些結(jié)果表明,即使是像Nemotron-4 340B這樣的大型語言模型,使用量化FP4也能達到出色的MMLU(大規(guī)模多任務(wù)語言理解)分數(shù),匹配甚至略微超過BF16模型的性能。
" P# W% _- a3 A* M8 O8 v8 a) R
; E( ~, O3 _! y4 zAI網(wǎng)絡(luò):端到端性能和功率擴展
+ \0 o, ^" J) X% x7 T隨著AI模型規(guī)模和復雜性的指數(shù)級增長,對大規(guī)模多GPU推理的需求變得越來越重要。Blackwell平臺通過先進的網(wǎng)絡(luò)解決方案應(yīng)對這一挑戰(zhàn)。
$ q* Z% A* V9 ]+ O7 i
2jbtw32ba3z6402431848.png (117.29 KB, 下載次數(shù): 3)
下載附件
保存到相冊
2jbtw32ba3z6402431848.png
2024-9-26 01:29 上傳
* {$ ?& U2 w0 ]0 `- j0 [2 o! j6 S# }
圖8:AI模型規(guī)模隨時間的增長,說明參數(shù)數(shù)量的指數(shù)級增加。0 x/ H" R! h3 C
8 ?5 Y9 A$ b6 ]3 ~2 e% t為滿足這些不斷增長的模型需求,NVIDIA開發(fā)了世界級的NVLink PHY性能:
, O. ^4 D+ o- ]: U
q4xfvrk3fa16402431948.png (627.99 KB, 下載次數(shù): 2)
下載附件
保存到相冊
q4xfvrk3fa16402431948.png
2024-9-26 01:29 上傳
, R: B2 I3 g; O/ H6 \
圖9:從Ampere到Blackwell的NVLink性能演進,展示帶寬和鏈路速度的增加。5 e2 O: A R+ Y% F: k
5 g/ C5 I7 b5 [3 X$ X
Blackwell平臺引入了第5代NVLink PHY,通過18個NVLink提供1800GB/s的總帶寬,每個NVLink能力達到100GB/s。
3 J7 n3 d4 j$ M5 v8 d. S8 R! ]$ G8 h. I" N4 }7 P' j
網(wǎng)絡(luò)解決方案的另一個關(guān)鍵組件是第4代NVLink Switch Chip和NVLink Switch Tray:$ K0 B6 h- B4 T8 {
35kxgkqpwzv6402432049.png (301.81 KB, 下載次數(shù): 2)
下載附件
保存到相冊
35kxgkqpwzv6402432049.png
2024-9-26 01:29 上傳
5 G0 O7 I/ S8 | [2 K
圖10:第4代NVLink Switch Chip和NVLink Switch Tray,突出顯示主要特性和功能。
) ?0 L0 V3 `' m7 f1 j+ \( H. Y% b1 G9 \" o \
NVLink交換芯片的主要特點包括:
K, M+ A8 o: d6 n. T( j臺積電4NP工藝中>800 mm2的芯片面積在GB200 NVL72上將NVLink擴展到72個GPU通過72個端口實現(xiàn)7.2 TB/s全雙向帶寬SHARP(可擴展分層聚合和規(guī)約協(xié)議)網(wǎng)內(nèi)計算,3.6 TFLOPS性能( ^7 |# m: K! d. S
}) ^; L ~4 P; m7 s; F4 K% VNVLink交換托盤包含兩個NVLink交換芯片,提供總計14.4 TB/s的帶寬。
, J5 c- a- y+ h2 X+ u7 n2 Z7 v+ K. l9 c/ s' B
GB200 NVL72和NVL36:新的計算單元
7 r. d' f7 _8 m" E' hBlackwell平臺引入了兩種強大的配置:GB200 NVL72和GB200 NVL36,在單個機架中提供前所未有的計算能力。6 B7 {5 h2 l; N# D
eo3jvx51lyc6402432149.png (277.8 KB, 下載次數(shù): 2)
下載附件
保存到相冊
eo3jvx51lyc6402432149.png
2024-9-26 01:29 上傳
- x. U' |( a' K; M4 m
圖11:GB200 NVL72和NVL36配置,展示每種設(shè)置中的GPU、CPU和NVLink交換托盤數(shù)量。
4 A0 U( C7 e# b8 R W0 z
K. i) N5 }; L. dGB200 NVL72配置提供:4 ^: q6 ~7 p* z. t$ @% l: s" S1 L
36個Grace CPU72個Blackwell GPU9個NVL72 NVLink交換托盤720 PFLOPs的訓練性能1,440 PFLOPs的推理性能支持27萬億參數(shù)的NVL模型大小130 TB/s的多節(jié)點帶寬260 TB/s的多節(jié)點全規(guī)約8 t4 T+ ^7 P L% s. C
1 C3 Y. C9 P3 F% \) O# q' g9 h& O; b這種配置能夠高效擴展大型AI模型,包括具有1.8T參數(shù)的GPT專家混合(MoE)等萬億參數(shù)架構(gòu)。# F" a E7 d: |- k5 c
imtnn4vne246402432249.png (97.8 KB, 下載次數(shù): 4)
下載附件
保存到相冊
imtnn4vne246402432249.png
2024-9-26 01:29 上傳
4 C5 ?6 R$ H# A9 t+ c6 o7 D# ?! d3 u圖12:GB200 NVL72在萬億參數(shù)AI模型上的性能比較,展示吞吐量和能效的改進。$ ?/ P- p' A9 g
7 A' x! \) l* e0 X- jGB200 NVL72配置展示了令人印象深刻的性能提升:
y: j' v4 |) d1 {* ?與前代相比,吞吐量提高30倍能效提升25倍總擁有成本(TCO)降低25倍
+ w' a _& Z9 ]1 y& U* W
9 {. n# U9 l0 M! G& S) ]結(jié)論:AI和加速計算的未來8 J# W( b. Y$ Y0 ~
NVIDIA Blackwell平臺代表了AI和加速計算領(lǐng)域的重大進步。通過解決不斷增長的模型規(guī)模、計算需求增加以及高效網(wǎng)絡(luò)需求的挑戰(zhàn),Blackwell為性能和效率設(shè)立了新標準。
% q- |' ~' b$ \8 z
k5hui4llqno6402432349.png (254.64 KB, 下載次數(shù): 2)
下載附件
保存到相冊
k5hui4llqno6402432349.png
2024-9-26 01:29 上傳
$ @) P/ y, y- ^- a* _' {& k4 e1 R
圖13:NVIDIA數(shù)據(jù)中心規(guī)模架構(gòu)的路線圖,展示從Hopper到Blackwell及未來的演進。
2 N5 ~; o; V. e, P
! W+ ?( R) ]: D+ r! j# \Blackwell平臺的主要成就包括:, L8 n* {6 D5 n1 N
全棧、數(shù)據(jù)中心規(guī)模平臺,涵蓋GPU、CPU、NVSwitch、DPU、NIC和網(wǎng)絡(luò)交換機NVIDIA Quasar量化系統(tǒng)實現(xiàn)低精度AI而不犧牲準確性實時萬億參數(shù)LLM推理性能提升超過一個數(shù)量級AI訓練、推理和加速計算的性能和功耗顯著改善
1 ~' F( A, M \% K, Y
; @5 {/ [: U2 F' e& W/ ]7 R通過提供必要的計算能力、內(nèi)存帶寬和網(wǎng)絡(luò)能力,Blackwell使研究人員、開發(fā)人員和企業(yè)能夠解決日益復雜的問題,在人工智能和高性能計算領(lǐng)域開啟新的可能性。
0 z; F. j- M4 o6 @: w* f" F) q P" R! ~, D
參考文獻
+ m3 ^$ Q+ d% n; F! E! m5 ][1] Tirumala and R. Wong, "NVIDIA Blackwell Platform: Advancing Generative AI and Accelerated Computing," Hot Chips: A Symposium on High Performance Chips, 2024.0 }& Y$ Z: o- c
2 t7 r# f( _0 [. w
- END -1 {5 F; |/ W0 z; E
$ D% C- B! c- K) Y& F
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
, P: X, n) e( ?5 _" ~5 o) o點擊左下角"閱讀原文"馬上申請
* W& R1 |/ |* Q6 W) u/ T' Z
" D) L' H( N$ Y6 r歡迎轉(zhuǎn)載
: g+ D9 m! q* e' t* @+ i
' S% r* \5 _% X G轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
" |% Y0 }5 f( D/ |4 {9 [3 `5 J: i- j& U# P
6 y- P; L7 `2 ?* M
- G& o& X8 ?8 t: ^1 d
51ru2ery2g36402432449.gif (16.04 KB, 下載次數(shù): 2)
下載附件
保存到相冊
51ru2ery2g36402432449.gif
2024-9-26 01:29 上傳
$ i% r0 D% E# H: G# E) @4 d
1 h; `9 b/ W( j$ H# o# V/ }$ x: T關(guān)注我們, U: s9 }4 J4 i E7 b/ P- b
: f" S) b' ]8 T. J, Y& ]( j6 p1 o
gslhxcf1eyg6402432549.png (31.33 KB, 下載次數(shù): 2)
下載附件
保存到相冊
gslhxcf1eyg6402432549.png
2024-9-26 01:29 上傳
2 g+ u& d( l1 v
|
; k1 m- k; R8 i& t% I4 C/ U/ R$ F
pks442qgcst6402432649.png (82.79 KB, 下載次數(shù): 2)
下載附件
保存到相冊
pks442qgcst6402432649.png
2024-9-26 01:29 上傳
6 a* O* {2 {) v9 u5 H& T! N | c0 G' p3 k) B
3u0h1j54xwh6402432749.png (21.52 KB, 下載次數(shù): 1)
下載附件
保存到相冊
3u0h1j54xwh6402432749.png
2024-9-26 01:29 上傳
( R4 m7 z% W: S: c
| , q, B& K+ L; \1 ^) K5 q" t
6 n0 P& Y" }( i4 g2 U5 L1 v+ F# X7 ?7 J2 H; j2 w( z+ I! t
2 M- a1 n. A4 w
關(guān)于我們:$ ]. t/ I' d+ \; x- [: H8 f6 w
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。- d4 V8 Z, z" z/ }9 g/ d- Z
0 \; r; t4 R# m+ d; \
http://www.latitudeda.com/
' F) q6 [* D; [/ v/ I+ Z(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|