|
引言
. z+ I- {( H/ D, M( C; M! X, ANVIDIA Blackwell平臺代表了生成式AI和加速計算領(lǐng)域的重大進(jìn)步。本文將討論Blackwell平臺的關(guān)鍵組件和創(chuàng)新,展示其如何應(yīng)對AI工作負(fù)載的不斷增長需求,并推動計算能力的極限[1]。
; d0 Y- T) V6 D8 ?) D+ }5 W; g& w, r0 R; n3 K
NVIDIA Blackwell平臺簡介+ K$ }" S0 k( P
Blackwell平臺是NVIDIA最新推出的數(shù)據(jù)中心規(guī)模架構(gòu),旨在應(yīng)對日益復(fù)雜的AI模型和加速計算任務(wù)帶來的挑戰(zhàn)。該平臺的核心組件包括:' y4 u% T* v" s7 [# B# D* b! M7 Q$ V
Blackwell GPUGrace CPUNVSwitch芯片BlueField-3ConnectX-7和ConnectX-8Spectrum-4和Quantum-3網(wǎng)絡(luò)解決方案6 W( e: j% ?% g3 D0 o, m
% T; E6 a+ t9 O! n
xaz3mp4sar56402431047.png (298.89 KB, 下載次數(shù): 2)
下載附件
保存到相冊
xaz3mp4sar56402431047.png
2024-9-26 01:29 上傳
% F- \' X# ?5 G8 v2 n U圖1:NVIDIA Blackwell平臺組件,包括Blackwell GPU、Grace CPU、NVSwitch芯片、BlueField-3和網(wǎng)絡(luò)解決方案。
m' |$ E4 @2 P* b K, o- A, Q1 L- l; `8 _2 o' f* |
這些組件協(xié)同工作,為AI和高性能計算工作負(fù)載提供全面的解決方案。該平臺建立在NVIDIA開發(fā)CUDA-X庫的豐富經(jīng)驗基礎(chǔ)上,這些庫優(yōu)化了各種應(yīng)用領(lǐng)域的性能。
1 r) _ I( v' q+ C/ {- h4 v$ Q7 c7 d- i+ @( k: F
2 E. j0 o$ e+ A4 k$ a( JBlackwell GPU:AI計算的新時代: e' v! }' Y. L/ f9 u) c& x) M2 s
Blackwell GPU是Blackwell平臺的核心,這項工程奇跡推動了AI計算的可能性邊界。# w- i. F! N3 [8 Y" R
kvd42alc1cp6402431147.png (229.35 KB, 下載次數(shù): 3)
下載附件
保存到相冊
kvd42alc1cp6402431147.png
2024-9-26 01:29 上傳
{9 B! G! Y) S0 K% `& n \
圖2:NVIDIA Blackwell GPU,展示其主要特性和功能。# c t* n) f1 H( ^' s/ M
1 k! k& L D% ]5 c
Blackwell GPU的主要特點包括:+ m2 E' \. H2 ~4 P" z9 ]$ C% [) J* q1 O
使用臺積電4NP工藝制造的2080億晶體管20 PetaFLOPS FP4 AI性能8 TB/s內(nèi)存帶寬,采用8位HBM3e1.8 TB/s雙向NVLink帶寬與Grace CPU的高速NVLink-C2C連接 h4 ]0 z* u9 u% L& O
" { }' G, F) ] n
Blackwell GPU相比其前代產(chǎn)品有顯著進(jìn)步,提供更強(qiáng)大的AI計算能力、內(nèi)存帶寬和互連能力。
/ k# N' @* ?* n
hrgzto5pnn46402431247.png (240.79 KB, 下載次數(shù): 3)
下載附件
保存到相冊
hrgzto5pnn46402431247.png
2024-9-26 01:29 上傳
8 O n& ^: W; x圖3:從Volta到Blackwell的NVIDIA GPU演進(jìn),展示晶體管數(shù)量和芯片面積的增加。
- j( I$ T( d3 T0 u
- o. s5 k5 I+ ^Blackwell GPU的一項關(guān)鍵創(chuàng)新是NVIDIA高帶寬接口(NV-HBI),在單邊提供10 TB/s的雙向帶寬。這個接口允許創(chuàng)建具有全面性能的統(tǒng)一GPU,不犧牲速度或效率。
( h9 G$ N: _( h2 D( D. J- r# z. U* w5 s! z j ~7 U
NVIDIA GB200 Grace Blackwell超級芯片; V+ Y$ T7 ^6 O% U& w t( o+ X- N& B
GB200 Grace Blackwell超級芯片將Grace CPU和Blackwell GPU的性能結(jié)合在一個封裝中,為AI工作負(fù)載提供無與倫比的性能。
) O, R4 p/ p7 h7 y
zpjgaokcfbe6402431348.png (268.85 KB, 下載次數(shù): 2)
下載附件
保存到相冊
zpjgaokcfbe6402431348.png
2024-9-26 01:29 上傳
. L2 V0 X W5 u$ d
圖4:GB200 Grace Blackwell超級芯片,展示Grace CPU和Blackwell GPU的集成。& G6 u% _$ J$ D
7 C* f2 M1 \, Z: V4 QGB200 Grace Blackwell超級芯片的主要特點包括:3 N: B+ F c& U7 f$ D, k2 S( h$ L
1個Grace CPU和2個Blackwell GPUNVLink-C2C互連40 PetaFLOPS FP4 | 20 PetaFLOPS FP8性能高帶寬和低延遲通信針對AI工作負(fù)載中的鍵值(KV)緩存進(jìn)行了優(yōu)化
* ~0 V' G! o: W# t
+ g/ f6 h3 r3 P7 v2 S; J" D: LNVIDIA Quasar量化系統(tǒng):實現(xiàn)低精度AI
: B' Y$ _# L. lBlackwell平臺引入了NVIDIA Quasar量化系統(tǒng),實現(xiàn)低精度AI計算而不犧牲準(zhǔn)確性。該系統(tǒng)解決了與低精度計算相關(guān)的幾個挑戰(zhàn):
7 \! c8 ^8 n+ t! i5 K+ P F# d精度損失非均勻?qū)用舾行?li>窄動態(tài)范圍量化噪聲
' `4 U+ f3 S% M2 v2 S" L5 A8 R) [5 G7 H
" z1 C: ?) o) U% l
m2i32vpsv536402431448.png (270.34 KB, 下載次數(shù): 0)
下載附件
保存到相冊
m2i32vpsv536402431448.png
2024-9-26 01:29 上傳
+ |& i- U' H, \! d* Y
圖5:NVIDIA Quasar量化系統(tǒng),說明組件和研究領(lǐng)域。- l5 n. h- u5 A/ j
0 b0 V8 X/ q c$ O( f3 \$ d! lQuasar量化系統(tǒng)包括幾個關(guān)鍵組件:Transformer引擎:硬件和軟件優(yōu)化庫:TensorRT、TensorRT-LLM、Megatron-Core、cuDNN等低精度數(shù)值算法:基于敏感度的層選擇、動態(tài)范圍正則化等
, a$ m1 L- a) x[/ol]9 X# O( x) Y6 a) p/ Y9 h
Blackwell GPU最顯著的創(chuàng)新之一是第5代Tensor Core,引入了新的微張量縮放FP格式,包括FP4和FP6。
" z; \: g. n. s+ d, N# f. P; P
jqzkjevoimk6402431548.png (304.83 KB, 下載次數(shù): 2)
下載附件
保存到相冊
jqzkjevoimk6402431548.png
2024-9-26 01:29 上傳
' I1 ^* `2 f$ m5 ?1 E/ I' M" p
dph0fqkmada6402431648.png (127.68 KB, 下載次數(shù): 3)
下載附件
保存到相冊
dph0fqkmada6402431648.png
2024-9-26 01:29 上傳
7 n8 K0 U: z) N+ H+ f$ w' T3 J圖6:第5代Tensor Core支持的FP格式總結(jié),比較Hopper和Blackwell的性能。
% Y! c' ], i; g' l6 m1 u$ A; k$ n- m5 v
這些新格式提供了幾個優(yōu)勢:
# |. T, h! b. e0 C8 B; o更寬的FP范圍放大的帶寬更低的功耗更精細(xì)的量化粒度3 w: x+ S# f; c
& r& v+ u( D% ] W* O1 m5 F
Quasar量化系統(tǒng)的有效性通過令人印象深刻的FP4推理準(zhǔn)確性結(jié)果得到證明:" T3 G9 l9 A: T4 @8 x
1 T# A/ J$ N! J# o p2 [
ozl5hmaalel6402431748.png (114.65 KB, 下載次數(shù): 4)
下載附件
保存到相冊
ozl5hmaalel6402431748.png
2024-9-26 01:29 上傳
' Q8 }, h9 n3 @# ?% `" | k1 k* n! i
圖7:各種模型的FP4推理準(zhǔn)確性結(jié)果,比較BF16和量化FP4性能。
# U1 d9 i% k/ Z# ~$ g+ H; w' D
* }" Y1 U; r9 p# o- V: s; P i這些結(jié)果表明,即使是像Nemotron-4 340B這樣的大型語言模型,使用量化FP4也能達(dá)到出色的MMLU(大規(guī)模多任務(wù)語言理解)分?jǐn)?shù),匹配甚至略微超過BF16模型的性能。
' r( _3 Y8 ~4 z+ B' b& y& v8 o. T/ u. y5 y
AI網(wǎng)絡(luò):端到端性能和功率擴(kuò)展
0 ~ c' g" _) E隨著AI模型規(guī)模和復(fù)雜性的指數(shù)級增長,對大規(guī)模多GPU推理的需求變得越來越重要。Blackwell平臺通過先進(jìn)的網(wǎng)絡(luò)解決方案應(yīng)對這一挑戰(zhàn)。2 `6 |2 g# \$ ^& b4 O' E! A+ U
2jbtw32ba3z6402431848.png (117.29 KB, 下載次數(shù): 3)
下載附件
保存到相冊
2jbtw32ba3z6402431848.png
2024-9-26 01:29 上傳
- N6 K% Q% a5 Q$ Q1 I- T: |8 f; p
圖8:AI模型規(guī)模隨時間的增長,說明參數(shù)數(shù)量的指數(shù)級增加。
4 c+ R* Q5 K4 ^2 K# n
4 \5 O4 O" H9 l為滿足這些不斷增長的模型需求,NVIDIA開發(fā)了世界級的NVLink PHY性能:
2 P9 T, u8 p3 U
q4xfvrk3fa16402431948.png (627.99 KB, 下載次數(shù): 2)
下載附件
保存到相冊
q4xfvrk3fa16402431948.png
2024-9-26 01:29 上傳
" s( i7 N ]4 ^6 N圖9:從Ampere到Blackwell的NVLink性能演進(jìn),展示帶寬和鏈路速度的增加。. H4 Y# v: i U
. c, c6 D% D' M: `6 ~& \Blackwell平臺引入了第5代NVLink PHY,通過18個NVLink提供1800GB/s的總帶寬,每個NVLink能力達(dá)到100GB/s。
7 m2 l7 `! d! h {+ K/ M: s" a: [" p9 G8 y9 ~& u, i
網(wǎng)絡(luò)解決方案的另一個關(guān)鍵組件是第4代NVLink Switch Chip和NVLink Switch Tray:
; V4 l1 _( O: p
35kxgkqpwzv6402432049.png (301.81 KB, 下載次數(shù): 2)
下載附件
保存到相冊
35kxgkqpwzv6402432049.png
2024-9-26 01:29 上傳
. O% ^% f4 `2 d6 ]5 j& }
圖10:第4代NVLink Switch Chip和NVLink Switch Tray,突出顯示主要特性和功能。
o% l# ~" @8 f$ p h X8 _+ S* \8 W2 T* X: L* d, W
NVLink交換芯片的主要特點包括:
5 _# T3 Q y! L* e/ u2 S臺積電4NP工藝中>800 mm2的芯片面積在GB200 NVL72上將NVLink擴(kuò)展到72個GPU通過72個端口實現(xiàn)7.2 TB/s全雙向帶寬SHARP(可擴(kuò)展分層聚合和規(guī)約協(xié)議)網(wǎng)內(nèi)計算,3.6 TFLOPS性能# x `8 V: S% ~" C
; s" T/ T, b- L( [NVLink交換托盤包含兩個NVLink交換芯片,提供總計14.4 TB/s的帶寬。
/ ?3 {6 S" R4 R6 e9 f# G* s7 [) k& }& g# }
GB200 NVL72和NVL36:新的計算單元
6 m4 ~* d& }6 L" i6 vBlackwell平臺引入了兩種強(qiáng)大的配置:GB200 NVL72和GB200 NVL36,在單個機(jī)架中提供前所未有的計算能力。. J. [ n8 H$ M/ B" m* Y- |
eo3jvx51lyc6402432149.png (277.8 KB, 下載次數(shù): 2)
下載附件
保存到相冊
eo3jvx51lyc6402432149.png
2024-9-26 01:29 上傳
* `! O) Z I. E& x: y0 G) |圖11:GB200 NVL72和NVL36配置,展示每種設(shè)置中的GPU、CPU和NVLink交換托盤數(shù)量。, N3 U! B4 V {( }( v5 x, A7 X& ?7 ]
. L+ N+ j% e7 a0 }/ J$ N C0 f
GB200 NVL72配置提供:
+ X- b8 n' ~9 Q4 D& I l36個Grace CPU72個Blackwell GPU9個NVL72 NVLink交換托盤720 PFLOPs的訓(xùn)練性能1,440 PFLOPs的推理性能支持27萬億參數(shù)的NVL模型大小130 TB/s的多節(jié)點帶寬260 TB/s的多節(jié)點全規(guī)約9 P7 x+ f: T. l1 O% t7 n: h) t
' v3 M- ^# f9 V這種配置能夠高效擴(kuò)展大型AI模型,包括具有1.8T參數(shù)的GPT專家混合(MoE)等萬億參數(shù)架構(gòu)。
* [- ^3 _, W* i) t; [& U
imtnn4vne246402432249.png (97.8 KB, 下載次數(shù): 4)
下載附件
保存到相冊
imtnn4vne246402432249.png
2024-9-26 01:29 上傳
' g, k& I$ y0 J9 s# }) k圖12:GB200 NVL72在萬億參數(shù)AI模型上的性能比較,展示吞吐量和能效的改進(jìn)。
# Y* E {( p; M; \! T7 f. d
, z" C" t; U6 U& _ Q1 O8 EGB200 NVL72配置展示了令人印象深刻的性能提升:& v7 p4 {( P+ @
與前代相比,吞吐量提高30倍能效提升25倍總擁有成本(TCO)降低25倍0 Q0 I4 C8 r% N( L( H1 [
) A; w! l$ Q, v" K2 @) F1 r結(jié)論:AI和加速計算的未來3 |+ ]+ H9 T# ^! z! d k0 x
NVIDIA Blackwell平臺代表了AI和加速計算領(lǐng)域的重大進(jìn)步。通過解決不斷增長的模型規(guī)模、計算需求增加以及高效網(wǎng)絡(luò)需求的挑戰(zhàn),Blackwell為性能和效率設(shè)立了新標(biāo)準(zhǔn)。
- m# T7 `. ~/ ~: M& X: Z) R
k5hui4llqno6402432349.png (254.64 KB, 下載次數(shù): 2)
下載附件
保存到相冊
k5hui4llqno6402432349.png
2024-9-26 01:29 上傳
3 K: }( Z) e# O4 h# l0 [
圖13:NVIDIA數(shù)據(jù)中心規(guī)模架構(gòu)的路線圖,展示從Hopper到Blackwell及未來的演進(jìn)。+ I, F1 n: a: ]. n9 v: E
& L9 V/ k* H4 E0 [" U' e; [) k
Blackwell平臺的主要成就包括:1 M9 n# v$ V0 T0 G
全棧、數(shù)據(jù)中心規(guī)模平臺,涵蓋GPU、CPU、NVSwitch、DPU、NIC和網(wǎng)絡(luò)交換機(jī)NVIDIA Quasar量化系統(tǒng)實現(xiàn)低精度AI而不犧牲準(zhǔn)確性實時萬億參數(shù)LLM推理性能提升超過一個數(shù)量級AI訓(xùn)練、推理和加速計算的性能和功耗顯著改善3 ~7 u0 X: o) ^( b2 j6 j" ?5 }4 X
! Z3 H4 {- j6 o4 i# {7 d* v通過提供必要的計算能力、內(nèi)存帶寬和網(wǎng)絡(luò)能力,Blackwell使研究人員、開發(fā)人員和企業(yè)能夠解決日益復(fù)雜的問題,在人工智能和高性能計算領(lǐng)域開啟新的可能性。
5 ?& P3 j5 W* Q) C. k+ f! R1 r7 F% w* V5 `& m i% K( _ q7 E
參考文獻(xiàn)
. i) ~" ~1 s4 ]' f$ F u1 Y[1] Tirumala and R. Wong, "NVIDIA Blackwell Platform: Advancing Generative AI and Accelerated Computing," Hot Chips: A Symposium on High Performance Chips, 2024.+ R- b/ j4 ?6 k# E
3 w. e1 Y* t. R5 `
- END -
& ?) o# _+ d" Z1 f4 e' g X6 y. _4 \; P# ]) p
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
" e0 o7 O. P& G/ r點擊左下角"閱讀原文"馬上申請- b4 G# E! w% r1 S
( K/ A; I5 F- k) ^
歡迎轉(zhuǎn)載- A e+ ]! T! y* C; f
4 E2 y/ E7 {5 G( }轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
$ T* v" S2 g: [7 R0 d0 X- D) y2 b) Z! D% T
& ~7 C+ y9 U) ]/ F5 H3 P, n+ l+ I- ]) E! `/ B9 K
51ru2ery2g36402432449.gif (16.04 KB, 下載次數(shù): 3)
下載附件
保存到相冊
51ru2ery2g36402432449.gif
2024-9-26 01:29 上傳
# k( ^( d# t8 L. n
2 \. _' \1 ~1 F& t4 S9 B3 i
關(guān)注我們
+ i: @: _. V' K! g" s2 D/ _1 g0 |7 Y
( p B7 t8 v8 w! `1 D! }- h$ J" i7 b6 Z
gslhxcf1eyg6402432549.png (31.33 KB, 下載次數(shù): 2)
下載附件
保存到相冊
gslhxcf1eyg6402432549.png
2024-9-26 01:29 上傳
! x3 s q u. b
|
/ b5 R+ t) i q, H
pks442qgcst6402432649.png (82.79 KB, 下載次數(shù): 3)
下載附件
保存到相冊
pks442qgcst6402432649.png
2024-9-26 01:29 上傳
, O3 c" \6 C p5 `4 @: y; i |
+ r8 q) k# J0 P- ?& Y; r
3u0h1j54xwh6402432749.png (21.52 KB, 下載次數(shù): 1)
下載附件
保存到相冊
3u0h1j54xwh6402432749.png
2024-9-26 01:29 上傳
0 H5 w+ ]& h7 K* K& U7 {& W. ~ |
; G! T; L) {4 [4 z# `2 A# A, u( l, D0 D* B7 B9 b
; H; P3 \. {6 y- f# E
5 S( T# E; t- w# E關(guān)于我們:
8 [" ~" a; G6 U' v6 U y) {深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
6 Z% T! @2 _6 l; }; h
1 D! ]9 a; r2 t4 d/ dhttp://www.latitudeda.com/
4 z! s* f8 s+ E5 W! T! i' |6 Q(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|