電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 61|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | NVIDIA Blackwell平臺推進(jìn)生成式AI和加速計算

[復(fù)制鏈接]

552

主題

552

帖子

4418

積分

四級會員

Rank: 4

積分
4418
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-9-23 08:01:00 | 只看該作者 |只看大圖 回帖獎勵 |正序瀏覽 |閱讀模式
引言
. z+ I- {( H/ D, M( C; M! X, ANVIDIA Blackwell平臺代表了生成式AI和加速計算領(lǐng)域的重大進(jìn)步。本文將討論Blackwell平臺的關(guān)鍵組件和創(chuàng)新,展示其如何應(yīng)對AI工作負(fù)載的不斷增長需求,并推動計算能力的極限[1]。
; d0 Y- T) V6 D8 ?) D+ }5 W; g& w, r0 R; n3 K
NVIDIA Blackwell平臺簡介+ K$ }" S0 k( P
Blackwell平臺是NVIDIA最新推出的數(shù)據(jù)中心規(guī)模架構(gòu),旨在應(yīng)對日益復(fù)雜的AI模型和加速計算任務(wù)帶來的挑戰(zhàn)。該平臺的核心組件包括:' y4 u% T* v" s7 [# B# D* b! M7 Q$ V
  • Blackwell GPU
  • Grace CPU
  • NVSwitch芯片
  • BlueField-3
  • ConnectX-7和ConnectX-8
  • Spectrum-4和Quantum-3網(wǎng)絡(luò)解決方案6 W( e: j% ?% g3 D0 o, m

    % T; E6 a+ t9 O! n
    % F- \' X# ?5 G8 v2 n  U圖1:NVIDIA Blackwell平臺組件,包括Blackwell GPU、Grace CPU、NVSwitch芯片、BlueField-3和網(wǎng)絡(luò)解決方案。
      m' |$ E4 @2 P* b  K, o- A, Q1 L- l; `8 _2 o' f* |
    這些組件協(xié)同工作,為AI和高性能計算工作負(fù)載提供全面的解決方案。該平臺建立在NVIDIA開發(fā)CUDA-X庫的豐富經(jīng)驗基礎(chǔ)上,這些庫優(yōu)化了各種應(yīng)用領(lǐng)域的性能。
    1 r) _  I( v' q+ C/ {- h4 v$ Q7 c7 d- i+ @( k: F

    2 E. j0 o$ e+ A4 k$ a( JBlackwell GPU:AI計算的新時代: e' v! }' Y. L/ f9 u) c& x) M2 s
    Blackwell GPU是Blackwell平臺的核心,這項工程奇跡推動了AI計算的可能性邊界。# w- i. F! N3 [8 Y" R
      {9 B! G! Y) S0 K% `& n  \
    圖2:NVIDIA Blackwell GPU,展示其主要特性和功能。# c  t* n) f1 H( ^' s/ M
    1 k! k& L  D% ]5 c
    Blackwell GPU的主要特點包括:+ m2 E' \. H2 ~4 P" z9 ]$ C% [) J* q1 O
  • 使用臺積電4NP工藝制造的2080億晶體管
  • 20 PetaFLOPS FP4 AI性能
  • 8 TB/s內(nèi)存帶寬,采用8位HBM3e
  • 1.8 TB/s雙向NVLink帶寬
  • 與Grace CPU的高速NVLink-C2C連接  h4 ]0 z* u9 u% L& O
    " {  }' G, F) ]  n
    Blackwell GPU相比其前代產(chǎn)品有顯著進(jìn)步,提供更強(qiáng)大的AI計算能力、內(nèi)存帶寬和互連能力。
    / k# N' @* ?* n
    8 O  n& ^: W; x圖3:從Volta到Blackwell的NVIDIA GPU演進(jìn),展示晶體管數(shù)量和芯片面積的增加。
    - j( I$ T( d3 T0 u
    - o. s5 k5 I+ ^Blackwell GPU的一項關(guān)鍵創(chuàng)新是NVIDIA高帶寬接口(NV-HBI),在單邊提供10 TB/s的雙向帶寬。這個接口允許創(chuàng)建具有全面性能的統(tǒng)一GPU,不犧牲速度或效率。
    ( h9 G$ N: _( h2 D( D. J- r# z. U* w5 s! z  j  ~7 U
    NVIDIA GB200 Grace Blackwell超級芯片; V+ Y$ T7 ^6 O% U& w  t( o+ X- N& B
    GB200 Grace Blackwell超級芯片將Grace CPU和Blackwell GPU的性能結(jié)合在一個封裝中,為AI工作負(fù)載提供無與倫比的性能。
    ) O, R4 p/ p7 h7 y . L2 V0 X  W5 u$ d
    圖4:GB200 Grace Blackwell超級芯片,展示Grace CPU和Blackwell GPU的集成。& G6 u% _$ J$ D

    7 C* f2 M1 \, Z: V4 QGB200 Grace Blackwell超級芯片的主要特點包括:3 N: B+ F  c& U7 f$ D, k2 S( h$ L
  • 1個Grace CPU和2個Blackwell GPU
  • NVLink-C2C互連
  • 40 PetaFLOPS FP4 | 20 PetaFLOPS FP8性能
  • 高帶寬和低延遲通信
  • 針對AI工作負(fù)載中的鍵值(KV)緩存進(jìn)行了優(yōu)化
    * ~0 V' G! o: W# t

    + g/ f6 h3 r3 P7 v2 S; J" D: LNVIDIA Quasar量化系統(tǒng):實現(xiàn)低精度AI
    : B' Y$ _# L. lBlackwell平臺引入了NVIDIA Quasar量化系統(tǒng),實現(xiàn)低精度AI計算而不犧牲準(zhǔn)確性。該系統(tǒng)解決了與低精度計算相關(guān)的幾個挑戰(zhàn):
    7 \! c8 ^8 n+ t! i5 K+ P  F# d
  • 精度損失
  • 非均勻?qū)用舾行?li>窄動態(tài)范圍
  • 量化噪聲
    ' `4 U+ f3 S% M
    2 v2 S" L5 A8 R) [5 G7 H
    " z1 C: ?) o) U% l
    + |& i- U' H, \! d* Y
    圖5:NVIDIA Quasar量化系統(tǒng),說明組件和研究領(lǐng)域。- l5 n. h- u5 A/ j

    0 b0 V8 X/ q  c$ O( f3 \$ d! lQuasar量化系統(tǒng)包括幾個關(guān)鍵組件:
  • Transformer引擎:硬件和軟件優(yōu)化
  • :TensorRT、TensorRT-LLM、Megatron-Core、cuDNN等
  • 低精度數(shù)值算法:基于敏感度的層選擇、動態(tài)范圍正則化等
    , a$ m1 L- a) x[/ol]9 X# O( x) Y6 a) p/ Y9 h
    Blackwell GPU最顯著的創(chuàng)新之一是第5代Tensor Core,引入了新的微張量縮放FP格式,包括FP4和FP6。
    " z; \: g. n. s+ d, N# f. P; P
    ' I1 ^* `2 f$ m5 ?1 E/ I' M" p
    7 n8 K0 U: z) N+ H+ f$ w' T3 J圖6:第5代Tensor Core支持的FP格式總結(jié),比較Hopper和Blackwell的性能。
    % Y! c' ], i; g' l6 m1 u$ A; k$ n- m5 v
    這些新格式提供了幾個優(yōu)勢:
    # |. T, h! b. e0 C8 B; o
  • 更寬的FP范圍
  • 放大的帶寬
  • 更低的功耗
  • 更精細(xì)的量化粒度3 w: x+ S# f; c
    & r& v+ u( D% ]  W* O1 m5 F
    Quasar量化系統(tǒng)的有效性通過令人印象深刻的FP4推理準(zhǔn)確性結(jié)果得到證明:" T3 G9 l9 A: T4 @8 x
    1 T# A/ J$ N! J# o  p2 [
    ' Q8 }, h9 n3 @# ?% `" |  k1 k* n! i
    圖7:各種模型的FP4推理準(zhǔn)確性結(jié)果,比較BF16和量化FP4性能。
    # U1 d9 i% k/ Z# ~$ g+ H; w' D
    * }" Y1 U; r9 p# o- V: s; P  i這些結(jié)果表明,即使是像Nemotron-4 340B這樣的大型語言模型,使用量化FP4也能達(dá)到出色的MMLU(大規(guī)模多任務(wù)語言理解)分?jǐn)?shù),匹配甚至略微超過BF16模型的性能。
    ' r( _3 Y8 ~4 z+ B' b& y& v8 o. T/ u. y5 y
    AI網(wǎng)絡(luò):端到端性能和功率擴(kuò)展
    0 ~  c' g" _) E隨著AI模型規(guī)模和復(fù)雜性的指數(shù)級增長,對大規(guī)模多GPU推理的需求變得越來越重要。Blackwell平臺通過先進(jìn)的網(wǎng)絡(luò)解決方案應(yīng)對這一挑戰(zhàn)。2 `6 |2 g# \$ ^& b4 O' E! A+ U
    - N6 K% Q% a5 Q$ Q1 I- T: |8 f; p
    圖8:AI模型規(guī)模隨時間的增長,說明參數(shù)數(shù)量的指數(shù)級增加。
    4 c+ R* Q5 K4 ^2 K# n
    4 \5 O4 O" H9 l為滿足這些不斷增長的模型需求,NVIDIA開發(fā)了世界級的NVLink PHY性能:
    2 P9 T, u8 p3 U
    " s( i7 N  ]4 ^6 N圖9:從Ampere到Blackwell的NVLink性能演進(jìn),展示帶寬和鏈路速度的增加。. H4 Y# v: i  U

    . c, c6 D% D' M: `6 ~& \Blackwell平臺引入了第5代NVLink PHY,通過18個NVLink提供1800GB/s的總帶寬,每個NVLink能力達(dá)到100GB/s。
    7 m2 l7 `! d! h  {+ K/ M: s" a: [" p9 G8 y9 ~& u, i
    網(wǎng)絡(luò)解決方案的另一個關(guān)鍵組件是第4代NVLink Switch Chip和NVLink Switch Tray:
    ; V4 l1 _( O: p . O% ^% f4 `2 d6 ]5 j& }
    圖10:第4代NVLink Switch Chip和NVLink Switch Tray,突出顯示主要特性和功能。
      o% l# ~" @8 f$ p  h  X8 _+ S* \8 W2 T* X: L* d, W
    NVLink交換芯片的主要特點包括:
    5 _# T3 Q  y! L* e/ u2 S
  • 臺積電4NP工藝中>800 mm2的芯片面積
  • 在GB200 NVL72上將NVLink擴(kuò)展到72個GPU
  • 通過72個端口實現(xiàn)7.2 TB/s全雙向帶寬
  • SHARP(可擴(kuò)展分層聚合和規(guī)約協(xié)議)網(wǎng)內(nèi)計算,3.6 TFLOPS性能# x  `8 V: S% ~" C

    ; s" T/ T, b- L( [NVLink交換托盤包含兩個NVLink交換芯片,提供總計14.4 TB/s的帶寬。
    / ?3 {6 S" R4 R6 e9 f# G* s7 [) k& }& g# }
    GB200 NVL72和NVL36:新的計算單元
    6 m4 ~* d& }6 L" i6 vBlackwell平臺引入了兩種強(qiáng)大的配置:GB200 NVL72和GB200 NVL36,在單個機(jī)架中提供前所未有的計算能力。. J. [  n8 H$ M/ B" m* Y- |

    * `! O) Z  I. E& x: y0 G) |圖11:GB200 NVL72和NVL36配置,展示每種設(shè)置中的GPU、CPU和NVLink交換托盤數(shù)量。, N3 U! B4 V  {( }( v5 x, A7 X& ?7 ]
    . L+ N+ j% e7 a0 }/ J$ N  C0 f
    GB200 NVL72配置提供:
    + X- b8 n' ~9 Q4 D& I  l
  • 36個Grace CPU
  • 72個Blackwell GPU
  • 9個NVL72 NVLink交換托盤
  • 720 PFLOPs的訓(xùn)練性能
  • 1,440 PFLOPs的推理性能
  • 支持27萬億參數(shù)的NVL模型大小
  • 130 TB/s的多節(jié)點帶寬
  • 260 TB/s的多節(jié)點全規(guī)約9 P7 x+ f: T. l1 O% t7 n: h) t

    ' v3 M- ^# f9 V這種配置能夠高效擴(kuò)展大型AI模型,包括具有1.8T參數(shù)的GPT專家混合(MoE)等萬億參數(shù)架構(gòu)。
    * [- ^3 _, W* i) t; [& U
    ' g, k& I$ y0 J9 s# }) k圖12:GB200 NVL72在萬億參數(shù)AI模型上的性能比較,展示吞吐量和能效的改進(jìn)。
    # Y* E  {( p; M; \! T7 f. d
    , z" C" t; U6 U& _  Q1 O8 EGB200 NVL72配置展示了令人印象深刻的性能提升:& v7 p4 {( P+ @
  • 與前代相比,吞吐量提高30倍
  • 能效提升25倍
  • 總擁有成本(TCO)降低25倍0 Q0 I4 C8 r% N( L( H1 [

    ) A; w! l$ Q, v" K2 @) F1 r結(jié)論:AI和加速計算的未來3 |+ ]+ H9 T# ^! z! d  k0 x
    NVIDIA Blackwell平臺代表了AI和加速計算領(lǐng)域的重大進(jìn)步。通過解決不斷增長的模型規(guī)模、計算需求增加以及高效網(wǎng)絡(luò)需求的挑戰(zhàn),Blackwell為性能和效率設(shè)立了新標(biāo)準(zhǔn)。
    - m# T7 `. ~/ ~: M& X: Z) R 3 K: }( Z) e# O4 h# l0 [
    圖13:NVIDIA數(shù)據(jù)中心規(guī)模架構(gòu)的路線圖,展示從Hopper到Blackwell及未來的演進(jìn)。+ I, F1 n: a: ]. n9 v: E
    & L9 V/ k* H4 E0 [" U' e; [) k
    Blackwell平臺的主要成就包括:1 M9 n# v$ V0 T0 G
  • 全棧、數(shù)據(jù)中心規(guī)模平臺,涵蓋GPU、CPU、NVSwitch、DPU、NIC和網(wǎng)絡(luò)交換機(jī)
  • NVIDIA Quasar量化系統(tǒng)實現(xiàn)低精度AI而不犧牲準(zhǔn)確性
  • 實時萬億參數(shù)LLM推理性能提升超過一個數(shù)量級
  • AI訓(xùn)練、推理和加速計算的性能和功耗顯著改善3 ~7 u0 X: o) ^( b2 j6 j" ?5 }4 X

    ! Z3 H4 {- j6 o4 i# {7 d* v通過提供必要的計算能力、內(nèi)存帶寬和網(wǎng)絡(luò)能力,Blackwell使研究人員、開發(fā)人員和企業(yè)能夠解決日益復(fù)雜的問題,在人工智能和高性能計算領(lǐng)域開啟新的可能性。
    5 ?& P3 j5 W* Q) C. k+ f! R1 r7 F% w* V5 `& m  i% K( _  q7 E
    參考文獻(xiàn)
    . i) ~" ~1 s4 ]' f$ F  u1 Y[1] Tirumala and R. Wong, "NVIDIA Blackwell Platform: Advancing Generative AI and Accelerated Computing," Hot Chips: A Symposium on High Performance Chips, 2024.+ R- b/ j4 ?6 k# E
    3 w. e1 Y* t. R5 `
    - END -
    & ?) o# _+ d" Z1 f4 e' g  X6 y. _4 \; P# ]) p
    軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
    " e0 o7 O. P& G/ r點擊左下角"閱讀原文"馬上申請- b4 G# E! w% r1 S
    ( K/ A; I5 F- k) ^
    歡迎轉(zhuǎn)載- A  e+ ]! T! y* C; f

    4 E2 y/ E7 {5 G( }轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
    $ T* v" S2 g: [7 R0 d0 X- D) y2 b) Z! D% T

    & ~7 C+ y9 U) ]/ F5 H
    3 P, n+ l+ I- ]) E! `/ B9 K
    # k( ^( d# t8 L. n
    2 \. _' \1 ~1 F& t4 S9 B3 i
    關(guān)注我們
    + i: @: _. V' K! g" s2 D/ _1 g0 |7 Y
    ( p  B7 t8 v8 w! `1 D
    ! }- h$ J" i7 b6 Z
    ! x3 s  q  u. b

    / b5 R+ t) i  q, H
    , O3 c" \6 C  p5 `4 @: y; i

    + r8 q) k# J0 P- ?& Y; r
    0 H5 w+ ]& h7 K* K& U7 {& W. ~
                         
    ; G! T; L) {4 [4 z# `2 A# A, u( l, D0 D* B7 B9 b
    ; H; P3 \. {6 y- f# E

    5 S( T# E; t- w# E關(guān)于我們:
    8 [" ~" a; G6 U' v6 U  y) {深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
    6 Z% T! @2 _6 l; }; h
    1 D! ]9 a; r2 t4 d/ dhttp://www.latitudeda.com/
    4 z! s* f8 s+ E5 W! T! i' |6 Q(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 回復(fù)

    使用道具 舉報

    發(fā)表回復(fù)

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表