電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 59|回復: 0
收起左側

晶圓級引擎革新生成AI推理技術

[復制鏈接]

552

主題

552

帖子

4418

積分

四級會員

Rank: 4

積分
4418
跳轉到指定樓層
樓主
發(fā)表于 2024-10-15 08:00:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言
/ t" r& _$ s3 m5 L  ?: A在人工智能領域快速發(fā)展的今天,生成式AI已成為熱點話題。本文旨在幫助讀者了解晶圓級AI技術如何推動生成推理的革新。我們將深入探討Cerebras Systems公司的突破性技術,看它如何通過晶圓級引擎(Wafer-Scale Engine,WSE)實現(xiàn)超越GPU的驚人性能[1]。" E- }( t: L6 J4 n2 ?0 s5 h) ], d

+ l$ x/ i, R1 y8 {* C6 WCerebras晶圓級引擎
4 T. h, @3 S+ V1 p+ |( |Cerebras的核心創(chuàng)新在于其晶圓級引擎,這是迄今為止生產(chǎn)的最大芯片。0 p( Z6 L5 W8 k

) i: [" j+ p+ r; [. _圖1:Cerebras晶圓級引擎與傳統(tǒng)GPU的尺寸對比,展示了其巨大規(guī)模。
% d4 q$ L/ e) A7 q* o8 d
7 o- `; g- D$ s最新的WSE-3具有以下令人印象深刻的規(guī)格:! ?# V7 }5 U' x2 [$ k% F, p3 H
  • 4萬億晶體管
  • 46,225平方毫米的硅面積
  • 900,000個AI核心
  • 125 Petaflops的AI計算能力
  • 44 GB片上內(nèi)存
  • 21 PB/s內(nèi)存帶寬
  • 214 Pbit/s架構帶寬
  • 采用臺積電5nm工藝
    * k/ |7 c/ l  a

    4 m$ U3 J) o& X  R0 N( ~- j這些規(guī)格遠超最先進的GPU。與NVIDIA的H100相比,WSE-3具備:
    & u% K, [. X2 [: Q0 B
  • 57倍的芯片面積
  • 52倍的核心數(shù)量
  • 880倍的片上內(nèi)存
  • 7,000倍的內(nèi)存帶寬
    7 ]! A+ X% b; T9 u

    ; r* i8 w8 k2 c. P/ l" X/ p

    9 \# y, ]- k; |. o內(nèi)存帶寬優(yōu)勢/ N7 z( H7 q  o* {$ t/ F/ [
    限制生成推理速度的一個關鍵因素是內(nèi)存帶寬。傳統(tǒng)GPU架構在這方面面臨瓶頸,因為生成令牌需要多次通過模型,每次都要從內(nèi)存中讀取所有參數(shù)。
    ' j9 S$ `  V. \6 q) X$ {. S/ b! ~3 l1 b+ y

    % `1 F" S* i1 x! F' a& g4 q& \* r圖2:Cerebras WSE-3與Nvidia H100的內(nèi)存帶寬對比,突顯了巨大差異。
    & }: X( E  T* k4 T" U% F8 w$ v. ]  G
    Cerebras的晶圓級架構提供了巨大的內(nèi)存帶寬優(yōu)勢:* ^4 p0 c& d- ^) o
  • WSE-3:21 PB/s
  • H100:0.003 PB/s
    0 \4 [. q, {  r4 V: a( T5 M

    7 g$ a3 M) C$ Q& y1 D/ r' B8 r8 h這7,000倍的內(nèi)存帶寬增加對生成推理性能產(chǎn)生了革命性影響。1 d. K# C+ k( C
    8 }# ?% m% N! _* }, i. [" m0 }
    晶圓級集成vs多GPU解決方案雖然多GPU解決方案試圖通過在單個服務器中集成多個GPU來聚合內(nèi)存帶寬,但這種方法存在顯著缺點:9 _9 o: _* d4 X- V: F
    2 ]" G3 L$ S- H2 m  m

    , }2 e3 I1 K: S9 J圖3:多GPU和晶圓級集成的對比,展示了內(nèi)存帶寬、IO帶寬和功耗的差異。$ a& S) k6 B' w" X8 g
    - H' n6 C  i% `
    晶圓級方法提供:
      A. ^0 L+ V- B! R
  • 800倍的內(nèi)存帶寬
  • 33倍的跨芯片IO
  • 6倍低的功耗! [) w% q& k# j: N5 a0 [9 h( `$ n
    + d( S3 r, c# i  ]5 G+ i' O
    此外,多GPU解決方案由于互連帶寬和延遲開銷而存在擴展效率問題。隨著GPU數(shù)量的增加,內(nèi)存帶寬利用率顯著下降。6 H+ Y. t. H+ U9 v: t

    & {; U( B$ z- f% N 1 N8 m! i' d3 Y7 E! [9 h* V
    圖4:圖表顯示了在DGX系統(tǒng)中增加GPU數(shù)量時內(nèi)存帶寬利用率的下降。8 t( h: ?9 k+ [! [
    4 i8 b# I: L+ o; B. k: Y3 a& l
    單芯片上的流水線執(zhí)行- A7 F8 N* u1 V1 I7 C2 W$ h8 ~
    Cerebras的巨大內(nèi)存帶寬實現(xiàn)了獨特的執(zhí)行模型:! X- d. g5 |# y$ ?' I& T& R

    6 y9 R/ G4 @  O9 J! l- X+ C圖5:晶圓級引擎上流水線執(zhí)行的圖示,展示了模型的不同層如何映射到芯片的各個區(qū)域。
    ; g# _( p/ p/ b0 }$ K- O8 Y8 ?, v+ I" M
    在這個模型中:
  • 模型層被映射到特定的晶圓區(qū)域
  • 權重和KV緩存存儲在區(qū)域內(nèi)存中
  • 每個晶圓區(qū)域一次處理一個令牌
  • 相鄰區(qū)域?qū)崿F(xiàn)流水線階段之間的低延遲通信
    8 I, T9 h9 ~' L6 I9 D+ y$ q[/ol]
    % C' }. W9 P& B* E+ a! L' H這種方法允許極快的令牌生成,因為整個過程發(fā)生在單個芯片上,階段之間的延遲最小。
    2 `9 v0 _" d7 g# n% s8 K2 \7 }; K$ _! w- D1 z
    ) `/ t4 B- H: g; x) q! H# u
    大型模型的可擴展性
    4 j4 m% `: R6 E* N( G3 X對于超出單個WSE容量的模型,Cerebras提供了可擴展解決方案:
    6 w; M, [) o3 b# G% s6 l 5 G& G6 f+ ~0 a1 e
    圖6:圖表展示了如何將較大的模型映射到多個晶圓級引擎上。. F0 A0 _4 a# m
    ! `( e5 Y; j' R8 h; n6 t& j3 G1 A
    通過將模型層分布在多個WSE上,Cerebras可以容納最大的語言模型,同時保持高性能。晶圓間通信經(jīng)過優(yōu)化,以最小化延遲和帶寬需求。
      n- |6 ?) n& b$ s3 E6 m
    ( ~1 Q, N( N" L; a高吞吐量和低延遲
    ! A: P6 [/ E/ U0 C3 Z% z與GPU面臨延遲和吞吐量之間的權衡不同,Cerebras的架構能夠同時實現(xiàn)高單用戶速度和高多用戶吞吐量:
    . o9 ]3 J9 E5 l# _4 ~
    " C/ P; @$ i0 a/ d7 g7 E " H/ o2 e' X8 k2 z
    圖7:GPU和Cerebras系統(tǒng)的延遲vs吞吐量權衡對比圖,顯示了Cerebras在這兩個指標上的卓越性能。  ?2 i2 O" @4 g) \
    % }1 F; k/ k: r/ h* |
    WSE可以同時支持多個用戶,每個用戶并行訪問模型,而不會犧牲個人性能。這得益于晶圓上可用的大量內(nèi)存帶寬。
    % k1 Y' m1 X5 x& _
    ; s2 {/ b- [( e" K+ e提示處理優(yōu)化0 T4 S0 Y$ X' x& `' m/ Z( x- u: J
    Cerebras通過高效的提示處理進一步優(yōu)化性能:0 x) a9 ?4 p* }! i1 _
    " j: c3 x# e# ~3 @/ w1 T& Q9 s
    圖8:圖示展示了Cerebras如何通過同時利用多個流水線階段來優(yōu)化提示處理。
    , I. K, R' q5 C0 y# i% Q" u* |+ w; P" I1 S4 K$ L. B: R3 m1 Z$ t; G, K# w
    通過在不同流水線階段并行處理多個提示令牌,Cerebras實現(xiàn)了更高的單用戶提示速度并最大化吞吐量。$ M$ t6 s( E, x- h' N* \$ p. h

    5 K: U$ f$ q% v  F0 y未來改進
    9 K% l9 }% @; r3 G; xCerebras正在持續(xù)研究技術以改善性能并支持更大的模型:" k  }# r" m$ H, z2 O  v. T3 L
  • 推測性解碼
  • KV緩存優(yōu)化
  • 量化
  • 稀疏性
  • 更多即將到來的技術
    4 b" l$ o1 B( u9 P  f9 J

    0 S8 s* s! D  k4 y8 x9 V; r( g! x這些改進有望進一步推動AI性能的邊界。
    3 S( h% S) a: B' |7 B5 ]: I
    ! p2 R) J" K+ \0 A, U* m
    ' g* F( G6 v5 G! [. I+ _
    Cerebras推理服務
    6 A" \3 f. S6 b7 D- c: d! L4 p& Y為使這一突破性技術更易獲取,Cerebras推出了推理服務:
    " Z; R+ [# R" S4 o+ x' z - c) A# q4 E* {1 H
    圖9:Cerebras推理服務界面的截圖,顯示可用模型和定價層級。
    / X. O/ D+ v) z% B& B) M& h; r+ b8 K' X. m3 S; ]( P7 Q; e
    該服務提供:7 }# k1 \1 A4 @; H
  • Llama3.1-8B,速度為1,800令牌/秒
  • Llama3.1-70B,速度為450令牌/秒
  • 免費層每分鐘30個請求,每日100萬令牌限制
  • 付費層提供有競爭力的定價
    . s% H! F$ C8 U1 K% p% e

    ; x, E% T8 s5 N, H# C. i& o未來服務將增加更大的模型,如Llama-405B、Mistral Large 2、Cohere Command R,以及定制微調(diào)模型。' w# p$ G$ i0 K8 K& ]6 _
    ! S+ ]# I1 T5 ~$ ?* o9 U
    結論
    1 i. g; l! ^/ m, W! SCerebras的晶圓級引擎技術代表了AI硬件的范式轉變,為生成推理提供了前所未有的性能。通過解決內(nèi)存帶寬瓶頸并在大規(guī)模上實現(xiàn)高效的流水線執(zhí)行,Cerebras正在為AI應用開啟新的可能性。隨著技術的不斷發(fā)展,我們可以期待AI性能的進一步提升,為各行各業(yè)的更復雜和響應更快的AI系統(tǒng)奠定基礎。
    : v7 k$ ^6 W! K4 B9 I2 L# |) o  L) V/ A2 ^2 W% J- \
    參考文獻
    5 t; M6 [8 [) g) T5 C2 A3 _[1] S. Lie, "Wafer-Scale AI: GPU Impossible Performance," in Hot Chips 2024, 2024." o" D5 Z5 e  D2 m, L# s6 u9 \

    9 L: O. S3 L& F2 I; C( G- END -
    4 B! j5 _( y4 v: [* I. J1 X
    ) q' H+ g) V5 a& B6 s; u& c# p- o2 i( n4 C% I/ O5 n" w
    軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用,PIC Studio都可提升您的工作效能。
    2 @# }. {# _/ |7 {- I+ S$ b( y" K. `點擊左下角"閱讀原文"馬上申請' _" Y" D  q  X' l3 `1 a5 z# K
    ; P; y! ^) ]0 S2 ~0 b9 z
    歡迎轉載1 H5 @2 U. O7 [
    , w5 A- [+ h( q" p
    轉載請注明出處,請勿修改內(nèi)容和刪除作者信息!7 u4 a/ S5 ]  o
    # [' g4 y* [7 ~2 C0 n6 k5 Y, Y( p

    , V" R8 Y/ w; _. E) F

    . V* u5 R6 B( \# A1 R; j 6 U" g. _: k  k
    ! z8 q2 ]$ L( m) |# g9 `; X) n
    關注我們
    4 S& F5 m. s6 v  c! L/ Y4 c, ^* Q( Y" C, K

    3 |* s: x( ^* N 4 q0 _' W. ?: ]: g& Z
    5 v2 M# t: z! A
    3 s# M0 N5 y; J6 r- S

    ; g7 O0 ^2 D' s0 p
    / x' R+ I$ Y* x! W  e3 [! Z
                          8 w' v4 x' a. P; c" \( ^
    4 m8 z* ]$ D/ n

    4 W! c" I+ T4 C. v+ s
    1 k8 [1 x' j7 `$ a關于我們:
    6 ~6 O8 [/ ~' j. Y1 L* o深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設計和仿真軟件,提供成熟的設計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務,廣泛服務于光通訊、光計算、光量子通信和微納光子器件領域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術與服務。1 B1 a+ u1 [0 Y& I/ r

    3 p1 \2 ]8 y3 E: ]' m" d) khttp://www.latitudeda.com/
    9 l: y8 g8 O- s& C9 G(點擊上方名片關注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 回復

    使用道具 舉報

    發(fā)表回復

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則


    聯(lián)系客服 關注微信 下載APP 返回頂部 返回列表