電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 60|回復: 0
收起左側(cè)

Hot Chips 2024 | NVIDIA Blackwell平臺推進生成式AI和加速計算

[復制鏈接]

552

主題

552

帖子

4418

積分

四級會員

Rank: 4

積分
4418
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-9-23 08:01:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言
+ X$ [1 O$ A2 ~; x* @0 E  E/ lNVIDIA Blackwell平臺代表了生成式AI和加速計算領(lǐng)域的重大進步。本文將討論Blackwell平臺的關(guān)鍵組件和創(chuàng)新,展示其如何應(yīng)對AI工作負載的不斷增長需求,并推動計算能力的極限[1]。
& I+ d  K* n3 p, c6 |6 W5 _; d. Z) U( l% \4 L
NVIDIA Blackwell平臺簡介3 z& ~5 M2 n+ B; W/ t9 |6 ~
Blackwell平臺是NVIDIA最新推出的數(shù)據(jù)中心規(guī)模架構(gòu),旨在應(yīng)對日益復雜的AI模型和加速計算任務(wù)帶來的挑戰(zhàn)。該平臺的核心組件包括:
5 J" v- ^! C5 w( }; Z- d! g/ ~
  • Blackwell GPU
  • Grace CPU
  • NVSwitch芯片
  • BlueField-3
  • ConnectX-7和ConnectX-8
  • Spectrum-4和Quantum-3網(wǎng)絡(luò)解決方案
    - i. c8 q5 z) ?0 n

    % t1 K+ _4 V1 ]/ x 4 h8 ~7 t, L& X# g  J
    圖1:NVIDIA Blackwell平臺組件,包括Blackwell GPU、Grace CPU、NVSwitch芯片、BlueField-3和網(wǎng)絡(luò)解決方案。
      T! F- b5 V3 k4 B% R9 W3 O8 X" W0 A
    這些組件協(xié)同工作,為AI和高性能計算工作負載提供全面的解決方案。該平臺建立在NVIDIA開發(fā)CUDA-X庫的豐富經(jīng)驗基礎(chǔ)上,這些庫優(yōu)化了各種應(yīng)用領(lǐng)域的性能。
    : g5 G6 T& \# V2 Q6 Z* n- p4 _+ F8 H+ J( u" S7 q
    # W$ k: V9 ]$ g; T. M4 K& c+ L% [5 f
    Blackwell GPU:AI計算的新時代& I0 @: `0 i3 K, z+ T! V
    Blackwell GPU是Blackwell平臺的核心,這項工程奇跡推動了AI計算的可能性邊界。
    / L$ k+ e, Z6 i. \/ w7 ^: ^) p: F
    0 F& o7 w/ d4 q" l; M圖2:NVIDIA Blackwell GPU,展示其主要特性和功能。: I- A# E7 F0 [$ G
    7 U' K' i, A6 F8 g
    Blackwell GPU的主要特點包括:
    1 m$ M) Y! `, P8 |4 T* [
  • 使用臺積電4NP工藝制造的2080億晶體管
  • 20 PetaFLOPS FP4 AI性能
  • 8 TB/s內(nèi)存帶寬,采用8位HBM3e
  • 1.8 TB/s雙向NVLink帶寬
  • 與Grace CPU的高速NVLink-C2C連接
    + `, Y6 ~8 D7 b
    . e7 ]2 A  y; u* w& S- \1 F; m
    Blackwell GPU相比其前代產(chǎn)品有顯著進步,提供更強大的AI計算能力、內(nèi)存帶寬和互連能力。3 w) L% K, F( z1 T
    3 }% ~" d5 U0 L" j1 }5 l
    圖3:從Volta到Blackwell的NVIDIA GPU演進,展示晶體管數(shù)量和芯片面積的增加。
    * {; l" X1 |6 I. J. Z( ^3 k' d, R4 p# Y$ |
    Blackwell GPU的一項關(guān)鍵創(chuàng)新是NVIDIA高帶寬接口(NV-HBI),在單邊提供10 TB/s的雙向帶寬。這個接口允許創(chuàng)建具有全面性能的統(tǒng)一GPU,不犧牲速度或效率。- r$ X- h5 Y9 V/ C
    ) J/ I3 I' l  d: A! U9 e; [9 p
    NVIDIA GB200 Grace Blackwell超級芯片: c6 U9 h$ N( K; m
    GB200 Grace Blackwell超級芯片將Grace CPU和Blackwell GPU的性能結(jié)合在一個封裝中,為AI工作負載提供無與倫比的性能。
    5 n- q% ^! O: p' I! g - Y# e  F4 D- k& F
    圖4:GB200 Grace Blackwell超級芯片,展示Grace CPU和Blackwell GPU的集成。
    - i# n5 p2 q; ^) Z2 P
    $ b( {. }9 J8 L& u3 [0 P, t! UGB200 Grace Blackwell超級芯片的主要特點包括:6 D- x5 b, B) Q1 p0 D- D. X% c
  • 1個Grace CPU和2個Blackwell GPU
  • NVLink-C2C互連
  • 40 PetaFLOPS FP4 | 20 PetaFLOPS FP8性能
  • 高帶寬和低延遲通信
  • 針對AI工作負載中的鍵值(KV)緩存進行了優(yōu)化
    9 a5 }& r8 ]$ P- F/ h

    8 U4 m" s3 r( A/ }9 o+ l, m6 t0 ^NVIDIA Quasar量化系統(tǒng):實現(xiàn)低精度AI: f  ?# S* a4 e3 _2 c* L
    Blackwell平臺引入了NVIDIA Quasar量化系統(tǒng),實現(xiàn)低精度AI計算而不犧牲準確性。該系統(tǒng)解決了與低精度計算相關(guān)的幾個挑戰(zhàn):
    ! v1 W, C: {; O+ i  V
  • 精度損失
  • 非均勻?qū)用舾行?li>窄動態(tài)范圍
  • 量化噪聲
    & {0 V3 B7 a0 J; ~( [9 T
      k- ]3 v! ?5 }$ {. Y0 i

    * i4 ]8 N% V/ `( [; G ' [: h6 S$ d1 I8 b5 U5 \4 n* C
    圖5:NVIDIA Quasar量化系統(tǒng),說明組件和研究領(lǐng)域。6 z% x% G( c- u5 I

    1 f/ H6 I' o0 Q2 @2 h& wQuasar量化系統(tǒng)包括幾個關(guān)鍵組件:
  • Transformer引擎:硬件和軟件優(yōu)化
  • :TensorRT、TensorRT-LLM、Megatron-Core、cuDNN等
  • 低精度數(shù)值算法:基于敏感度的層選擇、動態(tài)范圍正則化等
    + l8 }. D# N# T[/ol]
    : q+ P. P4 f; \" O/ V" k+ oBlackwell GPU最顯著的創(chuàng)新之一是第5代Tensor Core,引入了新的微張量縮放FP格式,包括FP4和FP6。
    ! `1 U+ C0 h# R! o: o
    ! Z, [1 i9 m2 A9 `7 h
    8 b7 k0 E6 }/ n  j- D' Q4 L圖6:第5代Tensor Core支持的FP格式總結(jié),比較Hopper和Blackwell的性能。
    + E5 D9 C' h" V6 ?$ V( E; h  c5 a4 m) k( B) s  _
    這些新格式提供了幾個優(yōu)勢:1 X) Z! }; L, K8 w% u6 I% ~/ R
  • 更寬的FP范圍
  • 放大的帶寬
  • 更低的功耗
  • 更精細的量化粒度, q& O3 P+ b/ D% v* M6 a
      r9 k6 E9 P5 A. \! s4 q$ U
    Quasar量化系統(tǒng)的有效性通過令人印象深刻的FP4推理準確性結(jié)果得到證明:
    5 q# m3 `+ f% ?2 {, Q, t* }& ~9 T; [

    5 q1 R' Q6 M9 a: k7 Z" a圖7:各種模型的FP4推理準確性結(jié)果,比較BF16和量化FP4性能。$ U7 u: g7 b. r+ v. Y: X' _- g! L, u
    ' q6 B( D. j2 |/ X
    這些結(jié)果表明,即使是像Nemotron-4 340B這樣的大型語言模型,使用量化FP4也能達到出色的MMLU(大規(guī)模多任務(wù)語言理解)分數(shù),匹配甚至略微超過BF16模型的性能。
    " P# W% _- a3 A* M8 O8 v8 a) R
    ; E( ~, O3 _! y4 zAI網(wǎng)絡(luò):端到端性能和功率擴展
    + \0 o, ^" J) X% x7 T隨著AI模型規(guī)模和復雜性的指數(shù)級增長,對大規(guī)模多GPU推理的需求變得越來越重要。Blackwell平臺通過先進的網(wǎng)絡(luò)解決方案應(yīng)對這一挑戰(zhàn)。
    $ q* Z% A* V9 ]+ O7 i * {$ ?& U2 w0 ]0 `- j0 [2 o! j6 S# }
    圖8:AI模型規(guī)模隨時間的增長,說明參數(shù)數(shù)量的指數(shù)級增加。0 x/ H" R! h3 C

    8 ?5 Y9 A$ b6 ]3 ~2 e% t為滿足這些不斷增長的模型需求,NVIDIA開發(fā)了世界級的NVLink PHY性能:
    , O. ^4 D+ o- ]: U , R: B2 I3 g; O/ H6 \
    圖9:從Ampere到Blackwell的NVLink性能演進,展示帶寬和鏈路速度的增加。5 e2 O: A  R+ Y% F: k
    5 g/ C5 I7 b5 [3 X$ X
    Blackwell平臺引入了第5代NVLink PHY,通過18個NVLink提供1800GB/s的總帶寬,每個NVLink能力達到100GB/s。
    3 J7 n3 d4 j$ M5 v8 d. S8 R! ]$ G8 h. I" N4 }7 P' j
    網(wǎng)絡(luò)解決方案的另一個關(guān)鍵組件是第4代NVLink Switch Chip和NVLink Switch Tray:$ K0 B6 h- B4 T8 {
    5 G0 O7 I/ S8 |  [2 K
    圖10:第4代NVLink Switch Chip和NVLink Switch Tray,突出顯示主要特性和功能。
    ) ?0 L0 V3 `' m7 f1 j+ \( H. Y% b1 G9 \" o  \
    NVLink交換芯片的主要特點包括:
      K, M+ A8 o: d6 n. T( j
  • 臺積電4NP工藝中>800 mm2的芯片面積
  • 在GB200 NVL72上將NVLink擴展到72個GPU
  • 通過72個端口實現(xiàn)7.2 TB/s全雙向帶寬
  • SHARP(可擴展分層聚合和規(guī)約協(xié)議)網(wǎng)內(nèi)計算,3.6 TFLOPS性能( ^7 |# m: K! d. S

      }) ^; L  ~4 P; m7 s; F4 K% VNVLink交換托盤包含兩個NVLink交換芯片,提供總計14.4 TB/s的帶寬。
    , J5 c- a- y+ h2 X+ u7 n2 Z7 v+ K. l9 c/ s' B
    GB200 NVL72和NVL36:新的計算單元
    7 r. d' f7 _8 m" E' hBlackwell平臺引入了兩種強大的配置:GB200 NVL72和GB200 NVL36,在單個機架中提供前所未有的計算能力。6 B7 {5 h2 l; N# D
    - x. U' |( a' K; M4 m
    圖11:GB200 NVL72和NVL36配置,展示每種設(shè)置中的GPU、CPU和NVLink交換托盤數(shù)量。
    4 A0 U( C7 e# b8 R  W0 z
      K. i) N5 }; L. dGB200 NVL72配置提供:4 ^: q6 ~7 p* z. t$ @% l: s" S1 L
  • 36個Grace CPU
  • 72個Blackwell GPU
  • 9個NVL72 NVLink交換托盤
  • 720 PFLOPs的訓練性能
  • 1,440 PFLOPs的推理性能
  • 支持27萬億參數(shù)的NVL模型大小
  • 130 TB/s的多節(jié)點帶寬
  • 260 TB/s的多節(jié)點全規(guī)約8 t4 T+ ^7 P  L% s. C

    1 C3 Y. C9 P3 F% \) O# q' g9 h& O; b這種配置能夠高效擴展大型AI模型,包括具有1.8T參數(shù)的GPT專家混合(MoE)等萬億參數(shù)架構(gòu)。# F" a  E7 d: |- k5 c

    4 C5 ?6 R$ H# A9 t+ c6 o7 D# ?! d3 u圖12:GB200 NVL72在萬億參數(shù)AI模型上的性能比較,展示吞吐量和能效的改進。$ ?/ P- p' A9 g

    7 A' x! \) l* e0 X- jGB200 NVL72配置展示了令人印象深刻的性能提升:
      y: j' v4 |) d1 {* ?
  • 與前代相比,吞吐量提高30倍
  • 能效提升25倍
  • 總擁有成本(TCO)降低25倍
    + w' a  _& Z9 ]1 y& U* W

    9 {. n# U9 l0 M! G& S) ]結(jié)論:AI和加速計算的未來8 J# W( b. Y$ Y0 ~
    NVIDIA Blackwell平臺代表了AI和加速計算領(lǐng)域的重大進步。通過解決不斷增長的模型規(guī)模、計算需求增加以及高效網(wǎng)絡(luò)需求的挑戰(zhàn),Blackwell為性能和效率設(shè)立了新標準。
    % q- |' ~' b$ \8 z $ @) P/ y, y- ^- a* _' {& k4 e1 R
    圖13:NVIDIA數(shù)據(jù)中心規(guī)模架構(gòu)的路線圖,展示從Hopper到Blackwell及未來的演進。
    2 N5 ~; o; V. e, P
    ! W+ ?( R) ]: D+ r! j# \Blackwell平臺的主要成就包括:, L8 n* {6 D5 n1 N
  • 全棧、數(shù)據(jù)中心規(guī)模平臺,涵蓋GPU、CPU、NVSwitch、DPU、NIC和網(wǎng)絡(luò)交換機
  • NVIDIA Quasar量化系統(tǒng)實現(xiàn)低精度AI而不犧牲準確性
  • 實時萬億參數(shù)LLM推理性能提升超過一個數(shù)量級
  • AI訓練、推理和加速計算的性能和功耗顯著改善
    1 ~' F( A, M  \% K, Y

    ; @5 {/ [: U2 F' e& W/ ]7 R通過提供必要的計算能力、內(nèi)存帶寬和網(wǎng)絡(luò)能力,Blackwell使研究人員、開發(fā)人員和企業(yè)能夠解決日益復雜的問題,在人工智能和高性能計算領(lǐng)域開啟新的可能性。
    0 z; F. j- M4 o6 @: w* f" F) q  P" R! ~, D
    參考文獻
    + m3 ^$ Q+ d% n; F! E! m5 ][1] Tirumala and R. Wong, "NVIDIA Blackwell Platform: Advancing Generative AI and Accelerated Computing," Hot Chips: A Symposium on High Performance Chips, 2024.0 }& Y$ Z: o- c
    2 t7 r# f( _0 [. w
    - END -1 {5 F; |/ W0 z; E
    $ D% C- B! c- K) Y& F
    軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
    , P: X, n) e( ?5 _" ~5 o) o點擊左下角"閱讀原文"馬上申請
    * W& R1 |/ |* Q6 W) u/ T' Z
    " D) L' H( N$ Y6 r歡迎轉(zhuǎn)載
    : g+ D9 m! q* e' t* @+ i
    ' S% r* \5 _% X  G轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
    " |% Y0 }5 f( D/ |4 {9 [3 `5 J: i- j& U# P
    6 y- P; L7 `2 ?* M
    - G& o& X8 ?8 t: ^1 d
    $ i% r0 D% E# H: G# E) @4 d

    1 h; `9 b/ W( j$ H# o# V/ }$ x: T關(guān)注我們, U: s9 }4 J4 i  E7 b/ P- b

    : f" S) b' ]8 T. J
    , Y& ]( j6 p1 o
    2 g+ u& d( l1 v

    ; k1 m- k; R8 i& t% I4 C/ U/ R$ F
    6 a* O* {2 {) v9 u5 H& T! N
      c0 G' p3 k) B
    ( R4 m7 z% W: S: c
                          , q, B& K+ L; \1 ^) K5 q" t

    6 n0 P& Y" }( i4 g2 U5 L1 v
    + F# X7 ?7 J2 H; j2 w( z+ I! t
    2 M- a1 n. A4 w
    關(guān)于我們:$ ]. t/ I' d+ \; x- [: H8 f6 w
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。- d4 V8 Z, z" z/ }9 g/ d- Z
    0 \; r; t4 R# m+ d; \
    http://www.latitudeda.com/
    ' F) q6 [* D; [/ v/ I+ Z(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 回復

    使用道具 舉報

    發(fā)表回復

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表