電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 57|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | NVIDIA Blackwell平臺(tái)推進(jìn)生成式AI和加速計(jì)算

[復(fù)制鏈接]

552

主題

552

帖子

4418

積分

四級(jí)會(huì)員

Rank: 4

積分
4418
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-9-23 08:01:00 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
引言8 H. R" I% @& {% o
NVIDIA Blackwell平臺(tái)代表了生成式AI和加速計(jì)算領(lǐng)域的重大進(jìn)步。本文將討論Blackwell平臺(tái)的關(guān)鍵組件和創(chuàng)新,展示其如何應(yīng)對(duì)AI工作負(fù)載的不斷增長(zhǎng)需求,并推動(dòng)計(jì)算能力的極限[1]。
8 [! M0 {; h* K0 s. b/ v6 x+ T. p0 v+ i
NVIDIA Blackwell平臺(tái)簡(jiǎn)介1 A. o5 y5 f+ d5 x
Blackwell平臺(tái)是NVIDIA最新推出的數(shù)據(jù)中心規(guī)模架構(gòu),旨在應(yīng)對(duì)日益復(fù)雜的AI模型和加速計(jì)算任務(wù)帶來的挑戰(zhàn)。該平臺(tái)的核心組件包括:
4 _, X( C2 t7 }* x
  • Blackwell GPU
  • Grace CPU
  • NVSwitch芯片
  • BlueField-3
  • ConnectX-7和ConnectX-8
  • Spectrum-4和Quantum-3網(wǎng)絡(luò)解決方案
    ' c" g  R; n5 m+ ]

    + N+ n  r. M: Z! e! B
    8 e5 ^7 \: o: z& `7 s- i圖1:NVIDIA Blackwell平臺(tái)組件,包括Blackwell GPU、Grace CPU、NVSwitch芯片、BlueField-3和網(wǎng)絡(luò)解決方案。/ n) t. @0 S) q6 o! A
    ; l) s3 d) l, a% r, L* Z  i+ H
    這些組件協(xié)同工作,為AI和高性能計(jì)算工作負(fù)載提供全面的解決方案。該平臺(tái)建立在NVIDIA開發(fā)CUDA-X庫(kù)的豐富經(jīng)驗(yàn)基礎(chǔ)上,這些庫(kù)優(yōu)化了各種應(yīng)用領(lǐng)域的性能。+ C. i  l& ]0 E# }& B

    ' h& T$ w3 o$ V/ H" }+ X2 v

    : c$ _5 w2 A' i( C8 W& X2 HBlackwell GPU:AI計(jì)算的新時(shí)代
    : ^. E* d8 X$ M# k' tBlackwell GPU是Blackwell平臺(tái)的核心,這項(xiàng)工程奇跡推動(dòng)了AI計(jì)算的可能性邊界。
    ! p0 W0 E4 h8 G# M* ]+ E : @5 O( p( Q$ \) l
    圖2:NVIDIA Blackwell GPU,展示其主要特性和功能。
    8 K0 G9 l2 b- I; J$ Z4 l5 t( v
      I+ J! Z' I& i6 aBlackwell GPU的主要特點(diǎn)包括:6 H, D2 g% Z) ?% }$ k
  • 使用臺(tái)積電4NP工藝制造的2080億晶體管
  • 20 PetaFLOPS FP4 AI性能
  • 8 TB/s內(nèi)存帶寬,采用8位HBM3e
  • 1.8 TB/s雙向NVLink帶寬
  • 與Grace CPU的高速NVLink-C2C連接& b9 u2 m4 ~. Z& c( z; M' j
    8 o7 r, D- c- _- J
    Blackwell GPU相比其前代產(chǎn)品有顯著進(jìn)步,提供更強(qiáng)大的AI計(jì)算能力、內(nèi)存帶寬和互連能力。* B5 H  Y% @& b! b2 K. X  e

    * V3 i* x  B! J/ W1 L圖3:從Volta到Blackwell的NVIDIA GPU演進(jìn),展示晶體管數(shù)量和芯片面積的增加。
    0 m- I- T8 K2 }$ G
    * S8 f$ R8 A! X  f/ R$ ^Blackwell GPU的一項(xiàng)關(guān)鍵創(chuàng)新是NVIDIA高帶寬接口(NV-HBI),在單邊提供10 TB/s的雙向帶寬。這個(gè)接口允許創(chuàng)建具有全面性能的統(tǒng)一GPU,不犧牲速度或效率。3 v; X( w7 K" x2 E

    / }# y  G  p1 _: r, ~- N9 b, CNVIDIA GB200 Grace Blackwell超級(jí)芯片( U" e( i3 v4 \/ z3 w. c! i6 G
    GB200 Grace Blackwell超級(jí)芯片將Grace CPU和Blackwell GPU的性能結(jié)合在一個(gè)封裝中,為AI工作負(fù)載提供無與倫比的性能。
    ! J' `+ x0 @8 O0 p) @6 A( T6 y + r& D# B  Z8 ]. O0 E6 x
    圖4:GB200 Grace Blackwell超級(jí)芯片,展示Grace CPU和Blackwell GPU的集成。! A3 d/ e, [8 v: b' p
    & X7 p2 d4 M* i6 p$ g3 N
    GB200 Grace Blackwell超級(jí)芯片的主要特點(diǎn)包括:
    / D5 v- x/ |, q5 o
  • 1個(gè)Grace CPU和2個(gè)Blackwell GPU
  • NVLink-C2C互連
  • 40 PetaFLOPS FP4 | 20 PetaFLOPS FP8性能
  • 高帶寬和低延遲通信
  • 針對(duì)AI工作負(fù)載中的鍵值(KV)緩存進(jìn)行了優(yōu)化
      K( s0 `- g6 o4 C5 k8 |# L, \  O

    7 a$ `6 ^6 C8 ]- a1 mNVIDIA Quasar量化系統(tǒng):實(shí)現(xiàn)低精度AI' ]( V$ G0 O8 p+ X# I" V
    Blackwell平臺(tái)引入了NVIDIA Quasar量化系統(tǒng),實(shí)現(xiàn)低精度AI計(jì)算而不犧牲準(zhǔn)確性。該系統(tǒng)解決了與低精度計(jì)算相關(guān)的幾個(gè)挑戰(zhàn):8 ~1 E2 t% l* R3 @3 O' T% [2 L
  • 精度損失
  • 非均勻?qū)用舾行?li>窄動(dòng)態(tài)范圍
  • 量化噪聲
    7 T$ Z) H7 t+ S6 ]% {

    ; o3 o0 @! J2 I+ |( k
    6 v9 u# Z) [$ b( A8 G4 R8 Z) ? + H' b/ M+ A) w5 [* T8 ]
    圖5:NVIDIA Quasar量化系統(tǒng),說明組件和研究領(lǐng)域。
    # k9 P3 n6 h  m9 b: c9 U. R: i  \1 t- l) d/ u" t/ J: Z3 E- m
    Quasar量化系統(tǒng)包括幾個(gè)關(guān)鍵組件:
  • Transformer引擎:硬件和軟件優(yōu)化
  • 庫(kù):TensorRT、TensorRT-LLM、Megatron-Core、cuDNN等
  • 低精度數(shù)值算法:基于敏感度的層選擇、動(dòng)態(tài)范圍正則化等% U$ s$ X, f3 n! ~
    [/ol]1 c/ X+ V' j; n' W8 v% }  x
    Blackwell GPU最顯著的創(chuàng)新之一是第5代Tensor Core,引入了新的微張量縮放FP格式,包括FP4和FP6。. n5 \( G  O+ l# A+ H2 C4 P

    5 A0 m0 A+ x6 O9 k' _% m- h5 N ; O' s! P) S+ {( k5 U0 N
    圖6:第5代Tensor Core支持的FP格式總結(jié),比較Hopper和Blackwell的性能。6 X: ~- i2 y1 U) c& {- J1 q+ u6 \

    5 x( ~: g" u' P6 x8 `; Z這些新格式提供了幾個(gè)優(yōu)勢(shì):3 H0 W3 N9 u: i1 \/ d; f" ?" |9 ]+ i4 d
  • 更寬的FP范圍
  • 放大的帶寬
  • 更低的功耗
  • 更精細(xì)的量化粒度& c) b1 u- g* \! a* }

    % }( ~/ T, l; O6 S, q% bQuasar量化系統(tǒng)的有效性通過令人印象深刻的FP4推理準(zhǔn)確性結(jié)果得到證明:
    ( ^4 ?, G. r% ^  a+ P, [
    4 D3 j9 F/ K( e+ L+ X ! b# g/ v5 A6 ]0 _& v
    圖7:各種模型的FP4推理準(zhǔn)確性結(jié)果,比較BF16和量化FP4性能。
    3 o- d: K& h5 s6 x/ x2 B) X2 {: S9 d. R
    這些結(jié)果表明,即使是像Nemotron-4 340B這樣的大型語言模型,使用量化FP4也能達(dá)到出色的MMLU(大規(guī)模多任務(wù)語言理解)分?jǐn)?shù),匹配甚至略微超過BF16模型的性能。
    ; u  f2 ~$ C* K( [, K1 c1 N
    + J" H6 H7 Y' `* q5 K0 |AI網(wǎng)絡(luò):端到端性能和功率擴(kuò)展- C  [. R) J. U
    隨著AI模型規(guī)模和復(fù)雜性的指數(shù)級(jí)增長(zhǎng),對(duì)大規(guī)模多GPU推理的需求變得越來越重要。Blackwell平臺(tái)通過先進(jìn)的網(wǎng)絡(luò)解決方案應(yīng)對(duì)這一挑戰(zhàn)。! b! X8 X! ^- g8 e( M1 [  v0 I, t

    # m. e# l0 C3 u. l4 n9 E圖8:AI模型規(guī)模隨時(shí)間的增長(zhǎng),說明參數(shù)數(shù)量的指數(shù)級(jí)增加。  M4 n# T- b* u. u! |
    6 D/ ^1 k. V- q1 g6 Q
    為滿足這些不斷增長(zhǎng)的模型需求,NVIDIA開發(fā)了世界級(jí)的NVLink PHY性能:
    , [; R6 I  T2 E , l" P5 c( F. t" v2 Z
    圖9:從Ampere到Blackwell的NVLink性能演進(jìn),展示帶寬和鏈路速度的增加。% B# l+ M5 b5 \

    1 A: J# K( w' s) WBlackwell平臺(tái)引入了第5代NVLink PHY,通過18個(gè)NVLink提供1800GB/s的總帶寬,每個(gè)NVLink能力達(dá)到100GB/s。/ n) P! K4 P! |% `4 F$ k1 p

    9 o8 y8 R# u9 _2 o6 R, a5 _) g網(wǎng)絡(luò)解決方案的另一個(gè)關(guān)鍵組件是第4代NVLink Switch Chip和NVLink Switch Tray:8 {6 d& p% b4 g2 a9 |/ d+ V2 \

    ( r) D8 l: B8 a! X) Q; z圖10:第4代NVLink Switch Chip和NVLink Switch Tray,突出顯示主要特性和功能。& h8 G, R4 [! H! W9 O

    " s& E! {: H, D- L1 t$ X9 Z" iNVLink交換芯片的主要特點(diǎn)包括:
    ( y( I1 R& k; p/ H
  • 臺(tái)積電4NP工藝中>800 mm2的芯片面積
  • 在GB200 NVL72上將NVLink擴(kuò)展到72個(gè)GPU
  • 通過72個(gè)端口實(shí)現(xiàn)7.2 TB/s全雙向帶寬
  • SHARP(可擴(kuò)展分層聚合和規(guī)約協(xié)議)網(wǎng)內(nèi)計(jì)算,3.6 TFLOPS性能) M4 s% Z- y# X3 [. Z4 w# `

    + Q, _! G* n$ _NVLink交換托盤包含兩個(gè)NVLink交換芯片,提供總計(jì)14.4 TB/s的帶寬。6 n# @  w( i* x& Y

    7 O7 X& |& W3 W) m6 ]2 F, ]# O6 WGB200 NVL72和NVL36:新的計(jì)算單元
    $ v2 D1 x: k: f7 T, ?Blackwell平臺(tái)引入了兩種強(qiáng)大的配置:GB200 NVL72和GB200 NVL36,在單個(gè)機(jī)架中提供前所未有的計(jì)算能力。0 U3 X; R& ^5 Q
    8 U- j( Q+ q5 ?" R" `. }+ h
    圖11:GB200 NVL72和NVL36配置,展示每種設(shè)置中的GPU、CPU和NVLink交換托盤數(shù)量。
    + S1 c: ]7 X* w0 B
      v2 |. C, g3 k+ W* C5 J5 dGB200 NVL72配置提供:
    % o7 u' f& V( N% j" V
  • 36個(gè)Grace CPU
  • 72個(gè)Blackwell GPU
  • 9個(gè)NVL72 NVLink交換托盤
  • 720 PFLOPs的訓(xùn)練性能
  • 1,440 PFLOPs的推理性能
  • 支持27萬億參數(shù)的NVL模型大小
  • 130 TB/s的多節(jié)點(diǎn)帶寬
  • 260 TB/s的多節(jié)點(diǎn)全規(guī)約9 J5 t% j, H: N, E5 v& `$ n
    $ L2 s& \. A: s$ S  U
    這種配置能夠高效擴(kuò)展大型AI模型,包括具有1.8T參數(shù)的GPT專家混合(MoE)等萬億參數(shù)架構(gòu)。
    / u  U  {" }4 [/ @2 ~" B# e ( ]; F  ?- b" h
    圖12:GB200 NVL72在萬億參數(shù)AI模型上的性能比較,展示吞吐量和能效的改進(jìn)。8 n$ c  P! N) o5 I/ s

    ( Z' F9 ~+ H6 t* Y9 P% ]! g/ XGB200 NVL72配置展示了令人印象深刻的性能提升:# F+ m, u- X2 c! E
  • 與前代相比,吞吐量提高30倍
  • 能效提升25倍
  • 總擁有成本(TCO)降低25倍
    , h* A  m: \0 \) z* C

    $ |8 K2 i: G" w結(jié)論:AI和加速計(jì)算的未來
    $ }. ]1 f# j* n, D% W: M8 _NVIDIA Blackwell平臺(tái)代表了AI和加速計(jì)算領(lǐng)域的重大進(jìn)步。通過解決不斷增長(zhǎng)的模型規(guī)模、計(jì)算需求增加以及高效網(wǎng)絡(luò)需求的挑戰(zhàn),Blackwell為性能和效率設(shè)立了新標(biāo)準(zhǔn)。
    * o0 W" t* l+ a$ _' h0 Y& } 8 n! p4 p/ d# U: N  Z- X
    圖13:NVIDIA數(shù)據(jù)中心規(guī)模架構(gòu)的路線圖,展示從Hopper到Blackwell及未來的演進(jìn)。1 L" @7 ~7 S: r  a9 n+ g  l+ E
    . D: I; F: U& |2 M# F' j! d
    Blackwell平臺(tái)的主要成就包括:
    + E+ i" x) q: P: [& r
  • 全棧、數(shù)據(jù)中心規(guī)模平臺(tái),涵蓋GPU、CPU、NVSwitch、DPU、NIC和網(wǎng)絡(luò)交換機(jī)
  • NVIDIA Quasar量化系統(tǒng)實(shí)現(xiàn)低精度AI而不犧牲準(zhǔn)確性
  • 實(shí)時(shí)萬億參數(shù)LLM推理性能提升超過一個(gè)數(shù)量級(jí)
  • AI訓(xùn)練、推理和加速計(jì)算的性能和功耗顯著改善
    ! q! d: Z6 J9 L) G" }
    1 |+ X$ a2 Y; ^$ m" B8 ~3 g3 p1 U
    通過提供必要的計(jì)算能力、內(nèi)存帶寬和網(wǎng)絡(luò)能力,Blackwell使研究人員、開發(fā)人員和企業(yè)能夠解決日益復(fù)雜的問題,在人工智能和高性能計(jì)算領(lǐng)域開啟新的可能性。3 g# @5 C: o3 x1 E+ a3 L
    % \1 Y6 ]7 D9 o* O9 r7 S: p' i
    參考文獻(xiàn)  r, Q; a7 H) N1 ^9 j. ?. W/ b
    [1] Tirumala and R. Wong, "NVIDIA Blackwell Platform: Advancing Generative AI and Accelerated Computing," Hot Chips: A Symposium on High Performance Chips, 2024., p& E% |9 q% V3 c( r( H- a5 t

    % D  P9 m, l& t0 ^) m- END -
    5 c3 W: Y+ `0 g5 z: @2 m/ t  s. n' ]6 ?. j+ U  Z& E/ |% ?
    軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
    2 i8 M8 N* v( |點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)4 J3 M4 }% ~: x4 I6 i! t* R3 `2 B5 B

    " i- G* ?+ }3 Y8 h* [歡迎轉(zhuǎn)載
    6 ~! @# z: T: y0 D, v$ d' |
    % r5 F# a& Z5 X2 a) x9 N) l轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!& ~1 S- S0 i1 B0 B9 w" ^- C6 T  k

    5 |. B7 C0 t4 o1 \  }0 g4 o, d3 F0 o- b

    4 k. \# S0 r/ I2 v9 q. c9 j6 O5 q + J1 d  \3 @9 c+ V% ~2 j

      a0 h/ A1 z9 t) f9 u! X7 Z$ P關(guān)注我們
    * v; G+ p$ h, }( a1 w; i8 A9 P0 E2 A0 v

    ' l: y( H4 H8 r* I/ r& G" O
    % Z$ C4 H7 u! q# ]5 g* v
    ( W3 w/ X, K5 b! ]; Q8 n

    , d0 P: W8 n; g7 s8 D

    1 ]3 m+ T# `; u 5 ^) @5 q% V* Z% K
                         
    9 ]/ c' o- j7 L, _
    ) n; P$ u. t/ Q; U
    , [! A0 X# m5 g& W% e) z8 W. S* v
    ( E3 f$ M/ e* R- X4 E  i# o) {4 \
    關(guān)于我們:
    3 _* R6 n. W; s: P+ U* |2 b% Z3 }深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
    $ ~# y4 t+ x/ B2 P  T& q( @0 l% _% K$ V# q+ Q0 \% X' X6 j
    http://www.latitudeda.com/2 |# l! ~$ [3 q: M& c- ]
    (點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 發(fā)表回復(fù)

    本版積分規(guī)則


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表