電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 60|回復(fù): 0
收起左側(cè)

晶圓級引擎革新生成AI推理技術(shù)

[復(fù)制鏈接]

552

主題

552

帖子

4418

積分

四級會員

Rank: 4

積分
4418
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-10-15 08:00:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言
. m; K4 w0 ?+ w- F. f# X4 X. o  U在人工智能領(lǐng)域快速發(fā)展的今天,生成式AI已成為熱點話題。本文旨在幫助讀者了解晶圓級AI技術(shù)如何推動生成推理的革新。我們將深入探討Cerebras Systems公司的突破性技術(shù),看它如何通過晶圓級引擎(Wafer-Scale Engine,WSE)實現(xiàn)超越GPU的驚人性能[1]。
! |, T3 H" M, v+ h9 D6 w' x% e' k6 E
9 b4 J( {  m, X3 ICerebras晶圓級引擎5 t8 r- U; M  @$ q
Cerebras的核心創(chuàng)新在于其晶圓級引擎,這是迄今為止生產(chǎn)的最大芯片。
" S% t; ^% f* P% i6 R) r$ S8 j ! ]8 j* U4 p* I  k
圖1:Cerebras晶圓級引擎與傳統(tǒng)GPU的尺寸對比,展示了其巨大規(guī)模。3 X5 x  X' n% N2 O8 {3 r, b
- M" K- w" J' ?
最新的WSE-3具有以下令人印象深刻的規(guī)格:
" t! [/ k, n7 ]& D. z5 }
  • 4萬億晶體管
  • 46,225平方毫米的硅面積
  • 900,000個AI核心
  • 125 Petaflops的AI計算能力
  • 44 GB片上內(nèi)存
  • 21 PB/s內(nèi)存帶寬
  • 214 Pbit/s架構(gòu)帶寬
  • 采用臺積電5nm工藝
    $ j# C. Q! O' i) q2 [2 r
    ; Q2 D" V8 k7 Z+ F1 y% r3 b. H
    這些規(guī)格遠(yuǎn)超最先進的GPU。與NVIDIA的H100相比,WSE-3具備:
    4 X2 K4 [8 |* ^, |  r5 T
  • 57倍的芯片面積
  • 52倍的核心數(shù)量
  • 880倍的片上內(nèi)存
  • 7,000倍的內(nèi)存帶寬
    9 f; A. n$ O4 M& x! f" v- g

    , l1 [: \1 M& c

    - O) C; l. V- {0 g內(nèi)存帶寬優(yōu)勢
    ! l! T( l3 e' E% }( i+ d6 H限制生成推理速度的一個關(guān)鍵因素是內(nèi)存帶寬。傳統(tǒng)GPU架構(gòu)在這方面面臨瓶頸,因為生成令牌需要多次通過模型,每次都要從內(nèi)存中讀取所有參數(shù)。0 m" F; y6 e; a6 {2 S1 q5 w6 O

    9 p" }# `; Q6 l
      Y3 s; M; D1 Z圖2:Cerebras WSE-3與Nvidia H100的內(nèi)存帶寬對比,突顯了巨大差異。( \9 f/ A# x, [' M6 v: w: G1 w8 g
    - p0 j# d9 [4 s+ Z1 W
    Cerebras的晶圓級架構(gòu)提供了巨大的內(nèi)存帶寬優(yōu)勢:; \: F6 P8 [0 ]2 V* ?
  • WSE-3:21 PB/s
  • H100:0.003 PB/s' i" r1 y2 `. S. |, e

    6 Q5 X# F; T: t% n' b( ?8 @7 i0 ~這7,000倍的內(nèi)存帶寬增加對生成推理性能產(chǎn)生了革命性影響。+ N% w' d  \1 @
    7 @8 o! j3 b: @5 L0 v* ~
    晶圓級集成vs多GPU解決方案雖然多GPU解決方案試圖通過在單個服務(wù)器中集成多個GPU來聚合內(nèi)存帶寬,但這種方法存在顯著缺點:
    " R0 A; D- Y4 `% m' G
    # T% E8 k" Z4 [$ M0 l: h1 z' C- V0 A ) K- i  a! x4 C: j
    圖3:多GPU和晶圓級集成的對比,展示了內(nèi)存帶寬、IO帶寬和功耗的差異。
    ) ^' r+ J1 Q2 ~% ]  G# S
    ( g2 w, a! i1 b/ N& d晶圓級方法提供:
    & Q/ U% B5 K; `+ i. u  ]" X) R
  • 800倍的內(nèi)存帶寬
  • 33倍的跨芯片IO
  • 6倍低的功耗
    % v7 B  n. J3 }5 k. ~) e; n

    3 p: `2 k5 d+ s; B此外,多GPU解決方案由于互連帶寬和延遲開銷而存在擴展效率問題。隨著GPU數(shù)量的增加,內(nèi)存帶寬利用率顯著下降。
    # M$ \" ^+ }+ L5 m. L* \8 [* I/ C. D. w7 z' o2 i* D6 I7 v* [# [) ^
    ; i; [9 q& L, n
    圖4:圖表顯示了在DGX系統(tǒng)中增加GPU數(shù)量時內(nèi)存帶寬利用率的下降。
    " H: M' X% c& i( u; c. }$ c* c! f  D, p# m2 w+ P
    單芯片上的流水線執(zhí)行
    1 u! P$ K  F6 S$ k1 }5 \3 E4 s8 ~Cerebras的巨大內(nèi)存帶寬實現(xiàn)了獨特的執(zhí)行模型:
    3 B5 G5 y0 S$ Z7 d! }! ?
    # C. O3 w% |$ O圖5:晶圓級引擎上流水線執(zhí)行的圖示,展示了模型的不同層如何映射到芯片的各個區(qū)域。- W0 s0 Z. v/ ?& {9 u

    $ [+ _, K! C0 P% d( O2 M2 l7 z在這個模型中:
  • 模型層被映射到特定的晶圓區(qū)域
  • 權(quán)重和KV緩存存儲在區(qū)域內(nèi)存中
  • 每個晶圓區(qū)域一次處理一個令牌
  • 相鄰區(qū)域?qū)崿F(xiàn)流水線階段之間的低延遲通信7 {: d7 M% |6 f  C' s7 Q
    [/ol]) J- ]! n" ^$ w; C( Y! [) c
    這種方法允許極快的令牌生成,因為整個過程發(fā)生在單個芯片上,階段之間的延遲最小。/ Z* j8 L9 v0 w8 [! Y  K+ ?
    1 ?) m8 i  t! {* O! X
    6 y4 Z% g, `! f
    大型模型的可擴展性2 k' L3 B! O" s
    對于超出單個WSE容量的模型,Cerebras提供了可擴展解決方案:; B. U; o3 l' |' y: O4 [
    + ~9 G# J4 p0 G( H( F
    圖6:圖表展示了如何將較大的模型映射到多個晶圓級引擎上。. f' u" F" c: |8 L% C6 f  i0 f
    + i+ A. l8 ?. j' c/ g! b! a9 A, ^4 B# `
    通過將模型層分布在多個WSE上,Cerebras可以容納最大的語言模型,同時保持高性能。晶圓間通信經(jīng)過優(yōu)化,以最小化延遲和帶寬需求。
    0 _: `6 B* C) _$ a! N& }! m7 R/ A3 f5 |! }+ F! ]2 ^
    高吞吐量和低延遲. d; G  S' r, b8 R( l
    與GPU面臨延遲和吞吐量之間的權(quán)衡不同,Cerebras的架構(gòu)能夠同時實現(xiàn)高單用戶速度和高多用戶吞吐量:; x2 P* P. v( j5 `

    . ?$ {6 Q/ E2 d1 Y% v% O2 y& Z. c 4 l) K- |0 {0 h4 V0 S) |
    圖7:GPU和Cerebras系統(tǒng)的延遲vs吞吐量權(quán)衡對比圖,顯示了Cerebras在這兩個指標(biāo)上的卓越性能。
    * z5 P) Z# S% K3 [, S9 n/ ^% K: _& i- E2 C' o: a! C
    WSE可以同時支持多個用戶,每個用戶并行訪問模型,而不會犧牲個人性能。這得益于晶圓上可用的大量內(nèi)存帶寬。
    / U7 e  x; c2 w: T& K
    / W, l* ?* a- w7 b提示處理優(yōu)化; R7 x& \) T- S7 f& _+ S/ u! }
    Cerebras通過高效的提示處理進一步優(yōu)化性能:5 y5 s9 W3 n/ {4 h' b/ ^

    % x$ d+ z; U  p3 R! b. N圖8:圖示展示了Cerebras如何通過同時利用多個流水線階段來優(yōu)化提示處理。& i' l1 F- ]- A% o% n+ D
    , c- |/ x& m0 M& H6 o' _. @
    通過在不同流水線階段并行處理多個提示令牌,Cerebras實現(xiàn)了更高的單用戶提示速度并最大化吞吐量。5 k- D6 L5 H+ {3 Z4 d
    # N5 J2 U- R2 k0 k/ R8 w
    未來改進
    8 v1 @; s& s3 o- y' D" TCerebras正在持續(xù)研究技術(shù)以改善性能并支持更大的模型:
    1 U; `& |, T! q. J) T1 C
  • 推測性解碼
  • KV緩存優(yōu)化
  • 量化
  • 稀疏性
  • 更多即將到來的技術(shù)1 E! m* o8 \' Q9 \& }# M1 L' T) `
    ! c+ F+ l8 l! q
    這些改進有望進一步推動AI性能的邊界。
    9 O7 `5 z2 l2 d3 |) J$ H( B0 c+ f7 h0 \! g# g% M# O- w
    8 r6 K) M) w0 Z4 d# B; I
    Cerebras推理服務(wù)% f& E  B% B' K$ p. y1 I
    為使這一突破性技術(shù)更易獲取,Cerebras推出了推理服務(wù):
    ! a7 o2 N" \+ N! ~0 w " l1 X' b" _1 r' N
    圖9:Cerebras推理服務(wù)界面的截圖,顯示可用模型和定價層級。! [4 K) n2 B5 o# H& g2 L
    * m- @8 m; }9 ?0 y( X
    該服務(wù)提供:6 x4 [5 g* O1 ^3 b: R- i; h
  • Llama3.1-8B,速度為1,800令牌/秒
  • Llama3.1-70B,速度為450令牌/秒
  • 免費層每分鐘30個請求,每日100萬令牌限制
  • 付費層提供有競爭力的定價  F7 g2 K+ \' A% B* s

    9 ~1 o$ K8 _1 Z+ E3 d未來服務(wù)將增加更大的模型,如Llama-405B、Mistral Large 2、Cohere Command R,以及定制微調(diào)模型。: x4 W! Z; _; e  G& N7 J

    / D9 i5 P1 J; }8 V" L結(jié)論
    9 W! Y0 Y3 q" S! m% u/ T: {2 YCerebras的晶圓級引擎技術(shù)代表了AI硬件的范式轉(zhuǎn)變,為生成推理提供了前所未有的性能。通過解決內(nèi)存帶寬瓶頸并在大規(guī)模上實現(xiàn)高效的流水線執(zhí)行,Cerebras正在為AI應(yīng)用開啟新的可能性。隨著技術(shù)的不斷發(fā)展,我們可以期待AI性能的進一步提升,為各行各業(yè)的更復(fù)雜和響應(yīng)更快的AI系統(tǒng)奠定基礎(chǔ)。
    " z! G; B. K; o, [
    ; G# R" i$ d) w) M1 R: f" R* R參考文獻/ q6 q: s% E' _6 l
    [1] S. Lie, "Wafer-Scale AI: GPU Impossible Performance," in Hot Chips 2024, 2024.& s! n9 A' d0 N2 ^8 I

      R, L3 F# J! H% ?- END -
    8 E/ U2 V& w& y; j. B- I: \$ [2 ]
    - ~& n& q) X* a$ [3 g! u# V6 l2 T
    軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
    ' g( c% |( c3 x* g" b3 n! J點擊左下角"閱讀原文"馬上申請- P# k+ C- |5 Z4 I& A- e2 j1 E

    # `6 f( v) W" h% }歡迎轉(zhuǎn)載
    5 z' N. W) B- d" K
    . t+ m& J/ z; A( i轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
    % j/ N+ l% s: X) j, r/ c0 t1 l1 }4 a8 ?) o, M" d2 G1 I
    7 }' T4 f- _& S" d3 x' C  k& g
    " r. J& M2 S# Q5 a) ^

    - b0 r' ?* c5 f# _! ?2 O' |5 X9 B$ {& P8 F. p
    關(guān)注我們
    # g7 r& g, J; S6 d" q) J) M" w" E' W1 A. @" }2 U

    . j$ H; q- Y+ _
    % a6 K# t) W4 R9 @. D

    - z) S/ |$ R# r# b2 }0 Y, ?
    ( B! M$ W) {& W1 i
    * W5 l2 K0 A, t0 F
    ( t# S' O; S# t  ^5 P+ ]
                          8 ^" e: l! u% D+ H4 U) l
      i$ i8 n4 D4 U1 ?9 e

    ; F. O( w/ J  \1 ]% F. c. V# d3 o8 O# Q) l) [7 K2 l% n
    關(guān)于我們:6 D+ M1 y5 l( ]( j/ f* L! `* L
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
    * e  W2 H: v0 @! W; g' |# l: I' ^' l( A. ?
    http://www.latitudeda.com/; x/ L. _' ^+ r' [3 d2 A
    (點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 回復(fù)

    使用道具 舉報

    發(fā)表回復(fù)

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表