|
引言! a Z8 p1 `. c; R5 i5 r
NVIDIA Blackwell平臺代表了生成式AI和加速計算領(lǐng)域的重大進(jìn)步。本文將討論Blackwell平臺的關(guān)鍵組件和創(chuàng)新,展示其如何應(yīng)對AI工作負(fù)載的不斷增長需求,并推動計算能力的極限[1]。) D8 }3 }% A5 t5 H- X
( X5 e( y; ~/ [9 vNVIDIA Blackwell平臺簡介
1 T$ l8 L) I6 w e2 \( a; [Blackwell平臺是NVIDIA最新推出的數(shù)據(jù)中心規(guī)模架構(gòu),旨在應(yīng)對日益復(fù)雜的AI模型和加速計算任務(wù)帶來的挑戰(zhàn)。該平臺的核心組件包括:* n/ c# k6 a- U; J0 g6 e0 |
Blackwell GPUGrace CPUNVSwitch芯片BlueField-3ConnectX-7和ConnectX-8Spectrum-4和Quantum-3網(wǎng)絡(luò)解決方案
# B0 v0 G9 [+ J9 A- e$ o5 m" B4 r/ T
xaz3mp4sar56402431047.png (298.89 KB, 下載次數(shù): 1)
下載附件
保存到相冊
xaz3mp4sar56402431047.png
2024-9-26 01:29 上傳
' b( U6 R/ o O' S圖1:NVIDIA Blackwell平臺組件,包括Blackwell GPU、Grace CPU、NVSwitch芯片、BlueField-3和網(wǎng)絡(luò)解決方案。
) B4 z% v! I. r. O( ?& K- _( S1 D. Q+ {: i( |; w, C. {
這些組件協(xié)同工作,為AI和高性能計算工作負(fù)載提供全面的解決方案。該平臺建立在NVIDIA開發(fā)CUDA-X庫的豐富經(jīng)驗基礎(chǔ)上,這些庫優(yōu)化了各種應(yīng)用領(lǐng)域的性能。+ f& B6 H/ |& F9 q* A& M
& Z6 U& X6 t1 F1 r3 M# l' N; P Y& k& t$ g* D
Blackwell GPU:AI計算的新時代. T0 L1 ?# p2 v% x* J7 y
Blackwell GPU是Blackwell平臺的核心,這項工程奇跡推動了AI計算的可能性邊界。3 W' {% M K# e3 d7 Y/ }+ C1 A$ \# v
kvd42alc1cp6402431147.png (229.35 KB, 下載次數(shù): 2)
下載附件
保存到相冊
kvd42alc1cp6402431147.png
2024-9-26 01:29 上傳
( c! J/ f' A( \8 x5 M* e1 u3 n圖2:NVIDIA Blackwell GPU,展示其主要特性和功能。
0 N# h# Y% O9 [9 R7 T5 G0 G
7 O0 m9 s) j+ b1 f- n3 I: |) ?( QBlackwell GPU的主要特點(diǎn)包括:( M3 Q, J2 r- S1 T
使用臺積電4NP工藝制造的2080億晶體管20 PetaFLOPS FP4 AI性能8 TB/s內(nèi)存帶寬,采用8位HBM3e1.8 TB/s雙向NVLink帶寬與Grace CPU的高速NVLink-C2C連接8 n$ ~5 n! j" z, \
: |* m" a/ C7 ?- a8 E1 \6 w: pBlackwell GPU相比其前代產(chǎn)品有顯著進(jìn)步,提供更強(qiáng)大的AI計算能力、內(nèi)存帶寬和互連能力。
/ o! u2 Y0 Q3 Q3 F$ ?$ u
hrgzto5pnn46402431247.png (240.79 KB, 下載次數(shù): 3)
下載附件
保存到相冊
hrgzto5pnn46402431247.png
2024-9-26 01:29 上傳
( }8 S. F0 M7 F8 m
圖3:從Volta到Blackwell的NVIDIA GPU演進(jìn),展示晶體管數(shù)量和芯片面積的增加。6 p6 t: u! a) R! J2 k8 b i
) ^+ S- }1 P5 X( p: C" m8 O/ F
Blackwell GPU的一項關(guān)鍵創(chuàng)新是NVIDIA高帶寬接口(NV-HBI),在單邊提供10 TB/s的雙向帶寬。這個接口允許創(chuàng)建具有全面性能的統(tǒng)一GPU,不犧牲速度或效率。
+ W) D5 o8 l2 M
$ s8 o0 O% H# \/ C ]7 ?NVIDIA GB200 Grace Blackwell超級芯片
6 q5 t. J* c2 ^GB200 Grace Blackwell超級芯片將Grace CPU和Blackwell GPU的性能結(jié)合在一個封裝中,為AI工作負(fù)載提供無與倫比的性能。2 G- l7 \) X E- j/ q% w) s4 z
zpjgaokcfbe6402431348.png (268.85 KB, 下載次數(shù): 2)
下載附件
保存到相冊
zpjgaokcfbe6402431348.png
2024-9-26 01:29 上傳
( ^% r+ x! @" F9 _* f* {: w* {9 q, g. a圖4:GB200 Grace Blackwell超級芯片,展示Grace CPU和Blackwell GPU的集成。
7 U" O# ]) I V7 M, G7 v& A, ]/ O
: R6 ]9 p# d7 f7 {# yGB200 Grace Blackwell超級芯片的主要特點(diǎn)包括:
' Z, n& j8 r. n+ R7 |1個Grace CPU和2個Blackwell GPUNVLink-C2C互連40 PetaFLOPS FP4 | 20 PetaFLOPS FP8性能高帶寬和低延遲通信針對AI工作負(fù)載中的鍵值(KV)緩存進(jìn)行了優(yōu)化/ i3 Z& j4 _' F: a* i
# f" \/ a6 R( P1 J* O: Z2 o0 M
NVIDIA Quasar量化系統(tǒng):實現(xiàn)低精度AI4 W) ?4 M+ i, z1 [3 z2 J
Blackwell平臺引入了NVIDIA Quasar量化系統(tǒng),實現(xiàn)低精度AI計算而不犧牲準(zhǔn)確性。該系統(tǒng)解決了與低精度計算相關(guān)的幾個挑戰(zhàn):& M( {( x ]* o. s6 \) ?' C2 C- `
精度損失非均勻?qū)用舾行?li>窄動態(tài)范圍量化噪聲/ G4 k5 x, L- z
0 V' w% k% g* }# A; e+ ?. }3 `8 J. G5 h3 n
m2i32vpsv536402431448.png (270.34 KB, 下載次數(shù): 0)
下載附件
保存到相冊
m2i32vpsv536402431448.png
2024-9-26 01:29 上傳
4 D O% l9 c" W" D
圖5:NVIDIA Quasar量化系統(tǒng),說明組件和研究領(lǐng)域。
: j. Z8 G, T' H8 Q3 |* w! x0 r. e
n3 d7 G( i' w. `; J0 B. LQuasar量化系統(tǒng)包括幾個關(guān)鍵組件:Transformer引擎:硬件和軟件優(yōu)化庫:TensorRT、TensorRT-LLM、Megatron-Core、cuDNN等低精度數(shù)值算法:基于敏感度的層選擇、動態(tài)范圍正則化等- ?: O4 C% @7 ~2 @
[/ol]
9 B3 c4 o6 S8 e1 gBlackwell GPU最顯著的創(chuàng)新之一是第5代Tensor Core,引入了新的微張量縮放FP格式,包括FP4和FP6。% Z4 w" [# J4 c1 K6 W
jqzkjevoimk6402431548.png (304.83 KB, 下載次數(shù): 2)
下載附件
保存到相冊
jqzkjevoimk6402431548.png
2024-9-26 01:29 上傳
* n6 D4 P) B; ?' T' J
dph0fqkmada6402431648.png (127.68 KB, 下載次數(shù): 2)
下載附件
保存到相冊
dph0fqkmada6402431648.png
2024-9-26 01:29 上傳
1 I: R# Q0 G& T+ @
圖6:第5代Tensor Core支持的FP格式總結(jié),比較Hopper和Blackwell的性能。
6 P2 @' y+ ]! \! u4 a/ B* M" e: ]" y1 U1 @% A( s; s5 A
這些新格式提供了幾個優(yōu)勢:/ W# d5 J; E: O( ?) e8 F: k
更寬的FP范圍放大的帶寬更低的功耗更精細(xì)的量化粒度3 V# j, W/ l6 S+ ~8 @% E
0 F& S: k" W. E9 L( B
Quasar量化系統(tǒng)的有效性通過令人印象深刻的FP4推理準(zhǔn)確性結(jié)果得到證明:
- O9 k1 g( Q: W% ]$ J; r
/ z! I4 ]- I8 {! j, `$ K/ t
ozl5hmaalel6402431748.png (114.65 KB, 下載次數(shù): 2)
下載附件
保存到相冊
ozl5hmaalel6402431748.png
2024-9-26 01:29 上傳
7 G; p l/ _' V3 T8 _0 X圖7:各種模型的FP4推理準(zhǔn)確性結(jié)果,比較BF16和量化FP4性能。
' u% w7 U' u# m5 t1 e) I z$ C+ d9 z5 j, H1 C$ g) \; h
這些結(jié)果表明,即使是像Nemotron-4 340B這樣的大型語言模型,使用量化FP4也能達(dá)到出色的MMLU(大規(guī)模多任務(wù)語言理解)分?jǐn)?shù),匹配甚至略微超過BF16模型的性能。
4 d) z; @; Z& s1 e* Z8 F. M' u5 Q# E4 C7 G5 ^, y" ^ P. c# v5 a9 B2 |& O
AI網(wǎng)絡(luò):端到端性能和功率擴(kuò)展
) K6 u" e: b7 [7 T8 {4 u隨著AI模型規(guī)模和復(fù)雜性的指數(shù)級增長,對大規(guī)模多GPU推理的需求變得越來越重要。Blackwell平臺通過先進(jìn)的網(wǎng)絡(luò)解決方案應(yīng)對這一挑戰(zhàn)。2 e, ~' c* `% C, @
2jbtw32ba3z6402431848.png (117.29 KB, 下載次數(shù): 2)
下載附件
保存到相冊
2jbtw32ba3z6402431848.png
2024-9-26 01:29 上傳
) K& g! p _! Y3 Q3 g
圖8:AI模型規(guī)模隨時間的增長,說明參數(shù)數(shù)量的指數(shù)級增加。
7 h. U5 H6 s$ ]; L( d7 j1 {, J9 |0 z) o/ H
為滿足這些不斷增長的模型需求,NVIDIA開發(fā)了世界級的NVLink PHY性能:
5 J: _. g' W5 i
q4xfvrk3fa16402431948.png (627.99 KB, 下載次數(shù): 2)
下載附件
保存到相冊
q4xfvrk3fa16402431948.png
2024-9-26 01:29 上傳
i2 a- |5 |4 u( B4 i, I. ~+ _圖9:從Ampere到Blackwell的NVLink性能演進(jìn),展示帶寬和鏈路速度的增加。
2 m. v3 d) |8 j4 K) L1 Z1 [# i' _( i+ \- c4 ^+ ~& g! u% ]! k
Blackwell平臺引入了第5代NVLink PHY,通過18個NVLink提供1800GB/s的總帶寬,每個NVLink能力達(dá)到100GB/s。
8 ]' h' E& \, [5 P0 X" q# E+ L. r: d) R: e9 y
網(wǎng)絡(luò)解決方案的另一個關(guān)鍵組件是第4代NVLink Switch Chip和NVLink Switch Tray:
& Z. i: U( u4 z) j
35kxgkqpwzv6402432049.png (301.81 KB, 下載次數(shù): 2)
下載附件
保存到相冊
35kxgkqpwzv6402432049.png
2024-9-26 01:29 上傳
' q% V8 @, S. t# H. L圖10:第4代NVLink Switch Chip和NVLink Switch Tray,突出顯示主要特性和功能。* s6 V/ s- P0 m/ R) C! m
0 ?6 M" {3 I& G! b6 C9 P1 Q- D
NVLink交換芯片的主要特點(diǎn)包括:7 Y# p. d/ J. X4 u/ z) m
臺積電4NP工藝中>800 mm2的芯片面積在GB200 NVL72上將NVLink擴(kuò)展到72個GPU通過72個端口實現(xiàn)7.2 TB/s全雙向帶寬SHARP(可擴(kuò)展分層聚合和規(guī)約協(xié)議)網(wǎng)內(nèi)計算,3.6 TFLOPS性能
p# N' o7 O4 z I4 k, B
2 y" v/ t& }6 e: E! G/ P' C9 Y7 ANVLink交換托盤包含兩個NVLink交換芯片,提供總計14.4 TB/s的帶寬。
$ x4 H5 t: |" {0 O, L$ r0 b, q' S, Z; k1 j
GB200 NVL72和NVL36:新的計算單元
' ~8 y5 x; J$ {. y. U F4 G9 gBlackwell平臺引入了兩種強(qiáng)大的配置:GB200 NVL72和GB200 NVL36,在單個機(jī)架中提供前所未有的計算能力。! P: r" M! C+ ^4 c. D8 V
eo3jvx51lyc6402432149.png (277.8 KB, 下載次數(shù): 2)
下載附件
保存到相冊
eo3jvx51lyc6402432149.png
2024-9-26 01:29 上傳
8 O' D% ^) v, ]圖11:GB200 NVL72和NVL36配置,展示每種設(shè)置中的GPU、CPU和NVLink交換托盤數(shù)量。1 H7 R3 @; a! d* t- u
& F! o! K9 R* J- z; V: y7 o4 MGB200 NVL72配置提供:. {% N1 P S1 S" S+ T
36個Grace CPU72個Blackwell GPU9個NVL72 NVLink交換托盤720 PFLOPs的訓(xùn)練性能1,440 PFLOPs的推理性能支持27萬億參數(shù)的NVL模型大小130 TB/s的多節(jié)點(diǎn)帶寬260 TB/s的多節(jié)點(diǎn)全規(guī)約$ R# k" }( Z( U' C" ~ a0 Y' A
% s! b9 R# i' w/ U( F' W
這種配置能夠高效擴(kuò)展大型AI模型,包括具有1.8T參數(shù)的GPT專家混合(MoE)等萬億參數(shù)架構(gòu)。
: t: o2 g. F3 I0 X! U
imtnn4vne246402432249.png (97.8 KB, 下載次數(shù): 3)
下載附件
保存到相冊
imtnn4vne246402432249.png
2024-9-26 01:29 上傳
2 K, k' c) ?8 A; R; R5 t
圖12:GB200 NVL72在萬億參數(shù)AI模型上的性能比較,展示吞吐量和能效的改進(jìn)。5 X/ o; I7 D4 j) f R
% ?; U' x2 s% z5 W- w
GB200 NVL72配置展示了令人印象深刻的性能提升:
. A0 ?, Y+ F! e7 M/ ^5 G0 O與前代相比,吞吐量提高30倍能效提升25倍總擁有成本(TCO)降低25倍
5 o" t7 L: T6 u% n) K6 S" a8 G K8 S5 u
結(jié)論:AI和加速計算的未來
* ?! P; y8 F8 A2 L$ Y2 v! }( E+ zNVIDIA Blackwell平臺代表了AI和加速計算領(lǐng)域的重大進(jìn)步。通過解決不斷增長的模型規(guī)模、計算需求增加以及高效網(wǎng)絡(luò)需求的挑戰(zhàn),Blackwell為性能和效率設(shè)立了新標(biāo)準(zhǔn)。7 R% g5 C' J% A9 Y q8 T
k5hui4llqno6402432349.png (254.64 KB, 下載次數(shù): 2)
下載附件
保存到相冊
k5hui4llqno6402432349.png
2024-9-26 01:29 上傳
7 |+ _& {! n8 f7 ~2 v' m
圖13:NVIDIA數(shù)據(jù)中心規(guī)模架構(gòu)的路線圖,展示從Hopper到Blackwell及未來的演進(jìn)。
1 l' w) }/ l& o
+ W# K% m' X$ h5 l. xBlackwell平臺的主要成就包括:
! w- U5 {: L) p/ Q全棧、數(shù)據(jù)中心規(guī)模平臺,涵蓋GPU、CPU、NVSwitch、DPU、NIC和網(wǎng)絡(luò)交換機(jī)NVIDIA Quasar量化系統(tǒng)實現(xiàn)低精度AI而不犧牲準(zhǔn)確性實時萬億參數(shù)LLM推理性能提升超過一個數(shù)量級AI訓(xùn)練、推理和加速計算的性能和功耗顯著改善- [6 e j: r' W/ |/ x5 t" I
: U) O1 `% M# h通過提供必要的計算能力、內(nèi)存帶寬和網(wǎng)絡(luò)能力,Blackwell使研究人員、開發(fā)人員和企業(yè)能夠解決日益復(fù)雜的問題,在人工智能和高性能計算領(lǐng)域開啟新的可能性。$ Y; f8 M! q6 Q& l b
( _" s; f+ o [- k; ]
參考文獻(xiàn)
% G+ w4 q+ ^: `+ H. G[1] Tirumala and R. Wong, "NVIDIA Blackwell Platform: Advancing Generative AI and Accelerated Computing," Hot Chips: A Symposium on High Performance Chips, 2024.1 _3 T' p' Q9 M6 I% u7 R% a
! W3 f, O; Y) v, ~; D
- END -
3 |) ~+ m# G9 R$ F
/ B" z$ A, _( i/ V, j8 f, v. h軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。/ s+ e& F3 G* x/ d
點(diǎn)擊左下角"閱讀原文"馬上申請* ?! W* C q9 v) l& F( Y: O
! [7 C) G4 Z! o7 M5 T( l4 a' n) g# b歡迎轉(zhuǎn)載8 Z5 }9 D( [0 E: S y1 J
3 n6 n9 Y+ @6 f! s, J3 `
轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!% @3 x; }! c! x& T/ a3 i: n
5 O0 a& G* P3 x# {, r- ^/ {
6 b9 ]# b- s6 T" h. a! A' M1 I! P# l! _) b# A g
51ru2ery2g36402432449.gif (16.04 KB, 下載次數(shù): 2)
下載附件
保存到相冊
51ru2ery2g36402432449.gif
2024-9-26 01:29 上傳
" j7 R: C2 \ f7 u8 j
8 b% q2 [# }+ d; ]2 A關(guān)注我們
# d q& S8 @- T) ]1 A- t
$ \) i) z7 z3 U" V( y( V; F' ?9 C' y
gslhxcf1eyg6402432549.png (31.33 KB, 下載次數(shù): 2)
下載附件
保存到相冊
gslhxcf1eyg6402432549.png
2024-9-26 01:29 上傳
7 n' B! q. H# q7 { | 6 {7 s- X6 b7 k. V8 ?
pks442qgcst6402432649.png (82.79 KB, 下載次數(shù): 2)
下載附件
保存到相冊
pks442qgcst6402432649.png
2024-9-26 01:29 上傳
/ l( R" N g# i/ i( F. t) ?% X1 d | 1 C+ w4 d/ N" P% b; c; m
3u0h1j54xwh6402432749.png (21.52 KB, 下載次數(shù): 1)
下載附件
保存到相冊
3u0h1j54xwh6402432749.png
2024-9-26 01:29 上傳
0 b h, y0 L3 a0 c1 |+ U
| ! i, l- z7 {( C/ o, p
6 O, ]4 P U: W& n- N8 a* f
5 y6 E5 Y0 f0 z/ P) r( P- m q/ q# {0 |1 V8 ~
關(guān)于我們:# c4 w- n8 k! G: K3 |! b8 a
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
# o$ O, L9 }* B4 G) I& e7 f: y* d, E4 \, ]
http://www.latitudeda.com/, ~- x: Q5 t: K I8 p5 S4 ?' x
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|