電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 59|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | NVIDIA Blackwell平臺推進(jìn)生成式AI和加速計算

[復(fù)制鏈接]

552

主題

552

帖子

4418

積分

四級會員

Rank: 4

積分
4418
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-9-23 08:01:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言! a  Z8 p1 `. c; R5 i5 r
NVIDIA Blackwell平臺代表了生成式AI和加速計算領(lǐng)域的重大進(jìn)步。本文將討論Blackwell平臺的關(guān)鍵組件和創(chuàng)新,展示其如何應(yīng)對AI工作負(fù)載的不斷增長需求,并推動計算能力的極限[1]。) D8 }3 }% A5 t5 H- X

( X5 e( y; ~/ [9 vNVIDIA Blackwell平臺簡介
1 T$ l8 L) I6 w  e2 \( a; [Blackwell平臺是NVIDIA最新推出的數(shù)據(jù)中心規(guī)模架構(gòu),旨在應(yīng)對日益復(fù)雜的AI模型和加速計算任務(wù)帶來的挑戰(zhàn)。該平臺的核心組件包括:* n/ c# k6 a- U; J0 g6 e0 |
  • Blackwell GPU
  • Grace CPU
  • NVSwitch芯片
  • BlueField-3
  • ConnectX-7和ConnectX-8
  • Spectrum-4和Quantum-3網(wǎng)絡(luò)解決方案
    # B0 v0 G9 [+ J
    9 A- e$ o5 m" B4 r/ T

    ' b( U6 R/ o  O' S圖1:NVIDIA Blackwell平臺組件,包括Blackwell GPU、Grace CPU、NVSwitch芯片、BlueField-3和網(wǎng)絡(luò)解決方案。
    ) B4 z% v! I. r. O( ?& K- _( S1 D. Q+ {: i( |; w, C. {
    這些組件協(xié)同工作,為AI和高性能計算工作負(fù)載提供全面的解決方案。該平臺建立在NVIDIA開發(fā)CUDA-X庫的豐富經(jīng)驗基礎(chǔ)上,這些庫優(yōu)化了各種應(yīng)用領(lǐng)域的性能。+ f& B6 H/ |& F9 q* A& M

    & Z6 U& X6 t1 F1 r3 M# l' N
    ; P  Y& k& t$ g* D
    Blackwell GPU:AI計算的新時代. T0 L1 ?# p2 v% x* J7 y
    Blackwell GPU是Blackwell平臺的核心,這項工程奇跡推動了AI計算的可能性邊界。3 W' {% M  K# e3 d7 Y/ }+ C1 A$ \# v

    ( c! J/ f' A( \8 x5 M* e1 u3 n圖2:NVIDIA Blackwell GPU,展示其主要特性和功能。
    0 N# h# Y% O9 [9 R7 T5 G0 G
    7 O0 m9 s) j+ b1 f- n3 I: |) ?( QBlackwell GPU的主要特點(diǎn)包括:( M3 Q, J2 r- S1 T
  • 使用臺積電4NP工藝制造的2080億晶體管
  • 20 PetaFLOPS FP4 AI性能
  • 8 TB/s內(nèi)存帶寬,采用8位HBM3e
  • 1.8 TB/s雙向NVLink帶寬
  • 與Grace CPU的高速NVLink-C2C連接8 n$ ~5 n! j" z, \

    : |* m" a/ C7 ?- a8 E1 \6 w: pBlackwell GPU相比其前代產(chǎn)品有顯著進(jìn)步,提供更強(qiáng)大的AI計算能力、內(nèi)存帶寬和互連能力。
    / o! u2 Y0 Q3 Q3 F$ ?$ u ( }8 S. F0 M7 F8 m
    圖3:從Volta到Blackwell的NVIDIA GPU演進(jìn),展示晶體管數(shù)量和芯片面積的增加。6 p6 t: u! a) R! J2 k8 b  i
    ) ^+ S- }1 P5 X( p: C" m8 O/ F
    Blackwell GPU的一項關(guān)鍵創(chuàng)新是NVIDIA高帶寬接口(NV-HBI),在單邊提供10 TB/s的雙向帶寬。這個接口允許創(chuàng)建具有全面性能的統(tǒng)一GPU,不犧牲速度或效率。
    + W) D5 o8 l2 M
    $ s8 o0 O% H# \/ C  ]7 ?NVIDIA GB200 Grace Blackwell超級芯片
    6 q5 t. J* c2 ^GB200 Grace Blackwell超級芯片將Grace CPU和Blackwell GPU的性能結(jié)合在一個封裝中,為AI工作負(fù)載提供無與倫比的性能。2 G- l7 \) X  E- j/ q% w) s4 z

    ( ^% r+ x! @" F9 _* f* {: w* {9 q, g. a圖4:GB200 Grace Blackwell超級芯片,展示Grace CPU和Blackwell GPU的集成。
    7 U" O# ]) I  V7 M, G7 v& A, ]/ O
    : R6 ]9 p# d7 f7 {# yGB200 Grace Blackwell超級芯片的主要特點(diǎn)包括:
    ' Z, n& j8 r. n+ R7 |
  • 1個Grace CPU和2個Blackwell GPU
  • NVLink-C2C互連
  • 40 PetaFLOPS FP4 | 20 PetaFLOPS FP8性能
  • 高帶寬和低延遲通信
  • 針對AI工作負(fù)載中的鍵值(KV)緩存進(jìn)行了優(yōu)化/ i3 Z& j4 _' F: a* i
    # f" \/ a6 R( P1 J* O: Z2 o0 M
    NVIDIA Quasar量化系統(tǒng):實現(xiàn)低精度AI4 W) ?4 M+ i, z1 [3 z2 J
    Blackwell平臺引入了NVIDIA Quasar量化系統(tǒng),實現(xiàn)低精度AI計算而不犧牲準(zhǔn)確性。該系統(tǒng)解決了與低精度計算相關(guān)的幾個挑戰(zhàn):& M( {( x  ]* o. s6 \) ?' C2 C- `
  • 精度損失
  • 非均勻?qū)用舾行?li>窄動態(tài)范圍
  • 量化噪聲/ G4 k5 x, L- z

    0 V' w% k% g* }# A; e+ ?. }3 `8 J. G5 h3 n
    4 D  O% l9 c" W" D
    圖5:NVIDIA Quasar量化系統(tǒng),說明組件和研究領(lǐng)域。
    : j. Z8 G, T' H8 Q3 |* w! x0 r. e
      n3 d7 G( i' w. `; J0 B. LQuasar量化系統(tǒng)包括幾個關(guān)鍵組件:
  • Transformer引擎:硬件和軟件優(yōu)化
  • :TensorRT、TensorRT-LLM、Megatron-Core、cuDNN等
  • 低精度數(shù)值算法:基于敏感度的層選擇、動態(tài)范圍正則化等- ?: O4 C% @7 ~2 @
    [/ol]
    9 B3 c4 o6 S8 e1 gBlackwell GPU最顯著的創(chuàng)新之一是第5代Tensor Core,引入了新的微張量縮放FP格式,包括FP4和FP6。% Z4 w" [# J4 c1 K6 W
    * n6 D4 P) B; ?' T' J
    1 I: R# Q0 G& T+ @
    圖6:第5代Tensor Core支持的FP格式總結(jié),比較Hopper和Blackwell的性能。
    6 P2 @' y+ ]! \! u4 a/ B* M" e: ]" y1 U1 @% A( s; s5 A
    這些新格式提供了幾個優(yōu)勢:/ W# d5 J; E: O( ?) e8 F: k
  • 更寬的FP范圍
  • 放大的帶寬
  • 更低的功耗
  • 更精細(xì)的量化粒度3 V# j, W/ l6 S+ ~8 @% E
    0 F& S: k" W. E9 L( B
    Quasar量化系統(tǒng)的有效性通過令人印象深刻的FP4推理準(zhǔn)確性結(jié)果得到證明:
    - O9 k1 g( Q: W% ]$ J; r
    / z! I4 ]- I8 {! j, `$ K/ t
    7 G; p  l/ _' V3 T8 _0 X圖7:各種模型的FP4推理準(zhǔn)確性結(jié)果,比較BF16和量化FP4性能。
    ' u% w7 U' u# m5 t1 e) I  z$ C+ d9 z5 j, H1 C$ g) \; h
    這些結(jié)果表明,即使是像Nemotron-4 340B這樣的大型語言模型,使用量化FP4也能達(dá)到出色的MMLU(大規(guī)模多任務(wù)語言理解)分?jǐn)?shù),匹配甚至略微超過BF16模型的性能。
    4 d) z; @; Z& s1 e* Z8 F. M' u5 Q# E4 C7 G5 ^, y" ^  P. c# v5 a9 B2 |& O
    AI網(wǎng)絡(luò):端到端性能和功率擴(kuò)展
    ) K6 u" e: b7 [7 T8 {4 u隨著AI模型規(guī)模和復(fù)雜性的指數(shù)級增長,對大規(guī)模多GPU推理的需求變得越來越重要。Blackwell平臺通過先進(jìn)的網(wǎng)絡(luò)解決方案應(yīng)對這一挑戰(zhàn)。2 e, ~' c* `% C, @
    ) K& g! p  _! Y3 Q3 g
    圖8:AI模型規(guī)模隨時間的增長,說明參數(shù)數(shù)量的指數(shù)級增加。
    7 h. U5 H6 s$ ]; L( d7 j1 {, J9 |0 z) o/ H
    為滿足這些不斷增長的模型需求,NVIDIA開發(fā)了世界級的NVLink PHY性能:
    5 J: _. g' W5 i
      i2 a- |5 |4 u( B4 i, I. ~+ _圖9:從Ampere到Blackwell的NVLink性能演進(jìn),展示帶寬和鏈路速度的增加。
    2 m. v3 d) |8 j4 K) L1 Z1 [# i' _( i+ \- c4 ^+ ~& g! u% ]! k
    Blackwell平臺引入了第5代NVLink PHY,通過18個NVLink提供1800GB/s的總帶寬,每個NVLink能力達(dá)到100GB/s。
    8 ]' h' E& \, [5 P0 X" q# E+ L. r: d) R: e9 y
    網(wǎng)絡(luò)解決方案的另一個關(guān)鍵組件是第4代NVLink Switch Chip和NVLink Switch Tray:
    & Z. i: U( u4 z) j
    ' q% V8 @, S. t# H. L圖10:第4代NVLink Switch Chip和NVLink Switch Tray,突出顯示主要特性和功能。* s6 V/ s- P0 m/ R) C! m
    0 ?6 M" {3 I& G! b6 C9 P1 Q- D
    NVLink交換芯片的主要特點(diǎn)包括:7 Y# p. d/ J. X4 u/ z) m
  • 臺積電4NP工藝中>800 mm2的芯片面積
  • 在GB200 NVL72上將NVLink擴(kuò)展到72個GPU
  • 通過72個端口實現(xiàn)7.2 TB/s全雙向帶寬
  • SHARP(可擴(kuò)展分層聚合和規(guī)約協(xié)議)網(wǎng)內(nèi)計算,3.6 TFLOPS性能
      p# N' o7 O4 z  I4 k, B

    2 y" v/ t& }6 e: E! G/ P' C9 Y7 ANVLink交換托盤包含兩個NVLink交換芯片,提供總計14.4 TB/s的帶寬。
    $ x4 H5 t: |" {0 O, L$ r0 b, q' S, Z; k1 j
    GB200 NVL72和NVL36:新的計算單元
    ' ~8 y5 x; J$ {. y. U  F4 G9 gBlackwell平臺引入了兩種強(qiáng)大的配置:GB200 NVL72和GB200 NVL36,在單個機(jī)架中提供前所未有的計算能力。! P: r" M! C+ ^4 c. D8 V

    8 O' D% ^) v, ]圖11:GB200 NVL72和NVL36配置,展示每種設(shè)置中的GPU、CPU和NVLink交換托盤數(shù)量。1 H7 R3 @; a! d* t- u

    & F! o! K9 R* J- z; V: y7 o4 MGB200 NVL72配置提供:. {% N1 P  S1 S" S+ T
  • 36個Grace CPU
  • 72個Blackwell GPU
  • 9個NVL72 NVLink交換托盤
  • 720 PFLOPs的訓(xùn)練性能
  • 1,440 PFLOPs的推理性能
  • 支持27萬億參數(shù)的NVL模型大小
  • 130 TB/s的多節(jié)點(diǎn)帶寬
  • 260 TB/s的多節(jié)點(diǎn)全規(guī)約$ R# k" }( Z( U' C" ~  a0 Y' A
    % s! b9 R# i' w/ U( F' W
    這種配置能夠高效擴(kuò)展大型AI模型,包括具有1.8T參數(shù)的GPT專家混合(MoE)等萬億參數(shù)架構(gòu)。
    : t: o2 g. F3 I0 X! U 2 K, k' c) ?8 A; R; R5 t
    圖12:GB200 NVL72在萬億參數(shù)AI模型上的性能比較,展示吞吐量和能效的改進(jìn)。5 X/ o; I7 D4 j) f  R
    % ?; U' x2 s% z5 W- w
    GB200 NVL72配置展示了令人印象深刻的性能提升:
    . A0 ?, Y+ F! e7 M/ ^5 G0 O
  • 與前代相比,吞吐量提高30倍
  • 能效提升25倍
  • 總擁有成本(TCO)降低25倍
    5 o" t7 L: T6 u% n
    ) K6 S" a8 G  K8 S5 u
    結(jié)論:AI和加速計算的未來
    * ?! P; y8 F8 A2 L$ Y2 v! }( E+ zNVIDIA Blackwell平臺代表了AI和加速計算領(lǐng)域的重大進(jìn)步。通過解決不斷增長的模型規(guī)模、計算需求增加以及高效網(wǎng)絡(luò)需求的挑戰(zhàn),Blackwell為性能和效率設(shè)立了新標(biāo)準(zhǔn)。7 R% g5 C' J% A9 Y  q8 T
    7 |+ _& {! n8 f7 ~2 v' m
    圖13:NVIDIA數(shù)據(jù)中心規(guī)模架構(gòu)的路線圖,展示從Hopper到Blackwell及未來的演進(jìn)。
    1 l' w) }/ l& o
    + W# K% m' X$ h5 l. xBlackwell平臺的主要成就包括:
    ! w- U5 {: L) p/ Q
  • 全棧、數(shù)據(jù)中心規(guī)模平臺,涵蓋GPU、CPU、NVSwitch、DPU、NIC和網(wǎng)絡(luò)交換機(jī)
  • NVIDIA Quasar量化系統(tǒng)實現(xiàn)低精度AI而不犧牲準(zhǔn)確性
  • 實時萬億參數(shù)LLM推理性能提升超過一個數(shù)量級
  • AI訓(xùn)練、推理和加速計算的性能和功耗顯著改善- [6 e  j: r' W/ |/ x5 t" I

    : U) O1 `% M# h通過提供必要的計算能力、內(nèi)存帶寬和網(wǎng)絡(luò)能力,Blackwell使研究人員、開發(fā)人員和企業(yè)能夠解決日益復(fù)雜的問題,在人工智能和高性能計算領(lǐng)域開啟新的可能性。$ Y; f8 M! q6 Q& l  b
    ( _" s; f+ o  [- k; ]
    參考文獻(xiàn)
    % G+ w4 q+ ^: `+ H. G[1] Tirumala and R. Wong, "NVIDIA Blackwell Platform: Advancing Generative AI and Accelerated Computing," Hot Chips: A Symposium on High Performance Chips, 2024.1 _3 T' p' Q9 M6 I% u7 R% a
    ! W3 f, O; Y) v, ~; D
    - END -
    3 |) ~+ m# G9 R$ F
    / B" z$ A, _( i/ V, j8 f, v. h軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。/ s+ e& F3 G* x/ d
    點(diǎn)擊左下角"閱讀原文"馬上申請* ?! W* C  q9 v) l& F( Y: O

    ! [7 C) G4 Z! o7 M5 T( l4 a' n) g# b歡迎轉(zhuǎn)載8 Z5 }9 D( [0 E: S  y1 J
    3 n6 n9 Y+ @6 f! s, J3 `
    轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!% @3 x; }! c! x& T/ a3 i: n

    5 O0 a& G* P3 x# {, r- ^/ {
    6 b9 ]# b- s6 T" h. a! A
    ' M1 I! P# l! _) b# A  g
    " j7 R: C2 \  f7 u8 j

    8 b% q2 [# }+ d; ]2 A關(guān)注我們
    # d  q& S8 @- T) ]1 A- t
    $ \) i) z7 z3 U
    " V( y( V; F' ?9 C' y

    7 n' B! q. H# q7 {
    6 {7 s- X6 b7 k. V8 ?

    / l( R" N  g# i/ i( F. t) ?% X1 d
    1 C+ w4 d/ N" P% b; c; m
    0 b  h, y0 L3 a0 c1 |+ U
                          ! i, l- z7 {( C/ o, p

    6 O, ]4 P  U: W& n- N8 a* f

    5 y6 E5 Y0 f0 z/ P) r( P- m  q/ q# {0 |1 V8 ~
    關(guān)于我們:# c4 w- n8 k! G: K3 |! b8 a
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
    # o$ O, L9 }* B4 G) I& e7 f: y* d, E4 \, ]
    http://www.latitudeda.com/, ~- x: Q5 t: K  I8 p5 S4 ?' x
    (點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 回復(fù)

    使用道具 舉報

    發(fā)表回復(fù)

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表