|
引言
/ t" r& _$ s3 m5 L ?: A在人工智能領域快速發(fā)展的今天,生成式AI已成為熱點話題。本文旨在幫助讀者了解晶圓級AI技術如何推動生成推理的革新。我們將深入探討Cerebras Systems公司的突破性技術,看它如何通過晶圓級引擎(Wafer-Scale Engine,WSE)實現(xiàn)超越GPU的驚人性能[1]。" E- }( t: L6 J4 n2 ?0 s5 h) ], d
+ l$ x/ i, R1 y8 {* C6 WCerebras晶圓級引擎
4 T. h, @3 S+ V1 p+ |( |Cerebras的核心創(chuàng)新在于其晶圓級引擎,這是迄今為止生產(chǎn)的最大芯片。0 p( Z6 L5 W8 k
zkb54uhwt0d6403229216.png (422.32 KB, 下載次數(shù): 0)
下載附件
保存到相冊
zkb54uhwt0d6403229216.png
2024-10-16 03:02 上傳
) i: [" j+ p+ r; [. _圖1:Cerebras晶圓級引擎與傳統(tǒng)GPU的尺寸對比,展示了其巨大規(guī)模。
% d4 q$ L/ e) A7 q* o8 d
7 o- `; g- D$ s最新的WSE-3具有以下令人印象深刻的規(guī)格:! ?# V7 }5 U' x2 [$ k% F, p3 H
4萬億晶體管46,225平方毫米的硅面積900,000個AI核心125 Petaflops的AI計算能力44 GB片上內(nèi)存21 PB/s內(nèi)存帶寬214 Pbit/s架構帶寬采用臺積電5nm工藝
* k/ |7 c/ l a
4 m$ U3 J) o& X R0 N( ~- j這些規(guī)格遠超最先進的GPU。與NVIDIA的H100相比,WSE-3具備:
& u% K, [. X2 [: Q0 B57倍的芯片面積52倍的核心數(shù)量880倍的片上內(nèi)存7,000倍的內(nèi)存帶寬
7 ]! A+ X% b; T9 u
; r* i8 w8 k2 c. P/ l" X/ p
9 \# y, ]- k; |. o內(nèi)存帶寬優(yōu)勢/ N7 z( H7 q o* {$ t/ F/ [
限制生成推理速度的一個關鍵因素是內(nèi)存帶寬。傳統(tǒng)GPU架構在這方面面臨瓶頸,因為生成令牌需要多次通過模型,每次都要從內(nèi)存中讀取所有參數(shù)。
' j9 S$ ` V. \6 q) X$ {. S/ b! ~3 l1 b+ y
unfwfoirn3l6403229316.png (98.01 KB, 下載次數(shù): 0)
下載附件
保存到相冊
unfwfoirn3l6403229316.png
2024-10-16 03:02 上傳
% `1 F" S* i1 x! F' a& g4 q& \* r圖2:Cerebras WSE-3與Nvidia H100的內(nèi)存帶寬對比,突顯了巨大差異。
& }: X( E T* k4 T" U% F8 w$ v. ] G
Cerebras的晶圓級架構提供了巨大的內(nèi)存帶寬優(yōu)勢:* ^4 p0 c& d- ^) o
WSE-3:21 PB/sH100:0.003 PB/s
0 \4 [. q, { r4 V: a( T5 M
7 g$ a3 M) C$ Q& y1 D/ r' B8 r8 h這7,000倍的內(nèi)存帶寬增加對生成推理性能產(chǎn)生了革命性影響。1 d. K# C+ k( C
8 }# ?% m% N! _* }, i. [" m0 }
晶圓級集成vs多GPU解決方案雖然多GPU解決方案試圖通過在單個服務器中集成多個GPU來聚合內(nèi)存帶寬,但這種方法存在顯著缺點:9 _9 o: _* d4 X- V: F
2 ]" G3 L$ S- H2 m m
ueauuoctfhh6403229416.png (215.67 KB, 下載次數(shù): 0)
下載附件
保存到相冊
ueauuoctfhh6403229416.png
2024-10-16 03:02 上傳
, }2 e3 I1 K: S9 J圖3:多GPU和晶圓級集成的對比,展示了內(nèi)存帶寬、IO帶寬和功耗的差異。$ a& S) k6 B' w" X8 g
- H' n6 C i% `
晶圓級方法提供:
A. ^0 L+ V- B! R800倍的內(nèi)存帶寬33倍的跨芯片IO6倍低的功耗! [) w% q& k# j: N5 a0 [9 h( `$ n
+ d( S3 r, c# i ]5 G+ i' O
此外,多GPU解決方案由于互連帶寬和延遲開銷而存在擴展效率問題。隨著GPU數(shù)量的增加,內(nèi)存帶寬利用率顯著下降。6 H+ Y. t. H+ U9 v: t
& {; U( B$ z- f% N
puwxlghwcac6403229517.png (195.66 KB, 下載次數(shù): 0)
下載附件
保存到相冊
puwxlghwcac6403229517.png
2024-10-16 03:02 上傳
1 N8 m! i' d3 Y7 E! [9 h* V
圖4:圖表顯示了在DGX系統(tǒng)中增加GPU數(shù)量時內(nèi)存帶寬利用率的下降。8 t( h: ?9 k+ [! [
4 i8 b# I: L+ o; B. k: Y3 a& l
單芯片上的流水線執(zhí)行- A7 F8 N* u1 V1 I7 C2 W$ h8 ~
Cerebras的巨大內(nèi)存帶寬實現(xiàn)了獨特的執(zhí)行模型:! X- d. g5 |# y$ ?' I& T& R
p0d3zkjhjxk6403229617.png (298.38 KB, 下載次數(shù): 0)
下載附件
保存到相冊
p0d3zkjhjxk6403229617.png
2024-10-16 03:02 上傳
6 y9 R/ G4 @ O9 J! l- X+ C圖5:晶圓級引擎上流水線執(zhí)行的圖示,展示了模型的不同層如何映射到芯片的各個區(qū)域。
; g# _( p/ p/ b0 }$ K- O8 Y8 ?, v+ I" M
在這個模型中:模型層被映射到特定的晶圓區(qū)域權重和KV緩存存儲在區(qū)域內(nèi)存中每個晶圓區(qū)域一次處理一個令牌相鄰區(qū)域?qū)崿F(xiàn)流水線階段之間的低延遲通信
8 I, T9 h9 ~' L6 I9 D+ y$ q[/ol]
% C' }. W9 P& B* E+ a! L' H這種方法允許極快的令牌生成,因為整個過程發(fā)生在單個芯片上,階段之間的延遲最小。
2 `9 v0 _" d7 g# n% s8 K2 \7 }; K$ _! w- D1 z
) `/ t4 B- H: g; x) q! H# u
大型模型的可擴展性
4 j4 m% `: R6 E* N( G3 X對于超出單個WSE容量的模型,Cerebras提供了可擴展解決方案:
6 w; M, [) o3 b# G% s6 l
g53nkapi2bs6403229717.png (257.28 KB, 下載次數(shù): 1)
下載附件
保存到相冊
g53nkapi2bs6403229717.png
2024-10-16 03:02 上傳
5 G& G6 f+ ~0 a1 e
圖6:圖表展示了如何將較大的模型映射到多個晶圓級引擎上。. F0 A0 _4 a# m
! `( e5 Y; j' R8 h; n6 t& j3 G1 A
通過將模型層分布在多個WSE上,Cerebras可以容納最大的語言模型,同時保持高性能。晶圓間通信經(jīng)過優(yōu)化,以最小化延遲和帶寬需求。
n- |6 ?) n& b$ s3 E6 m
( ~1 Q, N( N" L; a高吞吐量和低延遲
! A: P6 [/ E/ U0 C3 Z% z與GPU面臨延遲和吞吐量之間的權衡不同,Cerebras的架構能夠同時實現(xiàn)高單用戶速度和高多用戶吞吐量:
. o9 ]3 J9 E5 l# _4 ~
" C/ P; @$ i0 a/ d7 g7 E
bjdhrdmhb1j6403229817.png (233.26 KB, 下載次數(shù): 0)
下載附件
保存到相冊
bjdhrdmhb1j6403229817.png
2024-10-16 03:02 上傳
" H/ o2 e' X8 k2 z
圖7:GPU和Cerebras系統(tǒng)的延遲vs吞吐量權衡對比圖,顯示了Cerebras在這兩個指標上的卓越性能。 ?2 i2 O" @4 g) \
% }1 F; k/ k: r/ h* |
WSE可以同時支持多個用戶,每個用戶并行訪問模型,而不會犧牲個人性能。這得益于晶圓上可用的大量內(nèi)存帶寬。
% k1 Y' m1 X5 x& _
; s2 {/ b- [( e" K+ e提示處理優(yōu)化0 T4 S0 Y$ X' x& `' m/ Z( x- u: J
Cerebras通過高效的提示處理進一步優(yōu)化性能:0 x) a9 ?4 p* }! i1 _
o2lfgd0c0s06403229918.png (327.23 KB, 下載次數(shù): 0)
下載附件
保存到相冊
o2lfgd0c0s06403229918.png
2024-10-16 03:02 上傳
" j: c3 x# e# ~3 @/ w1 T& Q9 s
圖8:圖示展示了Cerebras如何通過同時利用多個流水線階段來優(yōu)化提示處理。
, I. K, R' q5 C0 y# i% Q" u* |+ w; P" I1 S4 K$ L. B: R3 m1 Z$ t; G, K# w
通過在不同流水線階段并行處理多個提示令牌,Cerebras實現(xiàn)了更高的單用戶提示速度并最大化吞吐量。$ M$ t6 s( E, x- h' N* \$ p. h
5 K: U$ f$ q% v F0 y未來改進
9 K% l9 }% @; r3 G; xCerebras正在持續(xù)研究技術以改善性能并支持更大的模型:" k }# r" m$ H, z2 O v. T3 L
推測性解碼KV緩存優(yōu)化量化稀疏性更多即將到來的技術
4 b" l$ o1 B( u9 P f9 J
0 S8 s* s! D k4 y8 x9 V; r( g! x這些改進有望進一步推動AI性能的邊界。
3 S( h% S) a: B' |7 B5 ]: I
! p2 R) J" K+ \0 A, U* m' g* F( G6 v5 G! [. I+ _
Cerebras推理服務
6 A" \3 f. S6 b7 D- c: d! L4 p& Y為使這一突破性技術更易獲取,Cerebras推出了推理服務:
" Z; R+ [# R" S4 o+ x' z
oy5hig40yq36403230018.png (178.63 KB, 下載次數(shù): 0)
下載附件
保存到相冊
oy5hig40yq36403230018.png
2024-10-16 03:02 上傳
- c) A# q4 E* {1 H
圖9:Cerebras推理服務界面的截圖,顯示可用模型和定價層級。
/ X. O/ D+ v) z% B& B) M& h; r+ b8 K' X. m3 S; ]( P7 Q; e
該服務提供:7 }# k1 \1 A4 @; H
Llama3.1-8B,速度為1,800令牌/秒Llama3.1-70B,速度為450令牌/秒免費層每分鐘30個請求,每日100萬令牌限制付費層提供有競爭力的定價
. s% H! F$ C8 U1 K% p% e
; x, E% T8 s5 N, H# C. i& o未來服務將增加更大的模型,如Llama-405B、Mistral Large 2、Cohere Command R,以及定制微調(diào)模型。' w# p$ G$ i0 K8 K& ]6 _
! S+ ]# I1 T5 ~$ ?* o9 U
結論
1 i. g; l! ^/ m, W! SCerebras的晶圓級引擎技術代表了AI硬件的范式轉變,為生成推理提供了前所未有的性能。通過解決內(nèi)存帶寬瓶頸并在大規(guī)模上實現(xiàn)高效的流水線執(zhí)行,Cerebras正在為AI應用開啟新的可能性。隨著技術的不斷發(fā)展,我們可以期待AI性能的進一步提升,為各行各業(yè)的更復雜和響應更快的AI系統(tǒng)奠定基礎。
: v7 k$ ^6 W! K4 B9 I2 L# |) o L) V/ A2 ^2 W% J- \
參考文獻
5 t; M6 [8 [) g) T5 C2 A3 _[1] S. Lie, "Wafer-Scale AI: GPU Impossible Performance," in Hot Chips 2024, 2024." o" D5 Z5 e D2 m, L# s6 u9 \
9 L: O. S3 L& F2 I; C( G- END -
4 B! j5 _( y4 v: [* I. J1 X
) q' H+ g) V5 a& B6 s; u& c# p- o2 i( n4 C% I/ O5 n" w
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用,PIC Studio都可提升您的工作效能。
2 @# }. {# _/ |7 {- I+ S$ b( y" K. `點擊左下角"閱讀原文"馬上申請' _" Y" D q X' l3 `1 a5 z# K
; P; y! ^) ]0 S2 ~0 b9 z
歡迎轉載1 H5 @2 U. O7 [
, w5 A- [+ h( q" p
轉載請注明出處,請勿修改內(nèi)容和刪除作者信息!7 u4 a/ S5 ] o
# [' g4 y* [7 ~2 C0 n6 k5 Y, Y( p
, V" R8 Y/ w; _. E) F
. V* u5 R6 B( \# A1 R; j
xdsmq4ljvvw6403230118.gif (16.04 KB, 下載次數(shù): 1)
下載附件
保存到相冊
xdsmq4ljvvw6403230118.gif
2024-10-16 03:02 上傳
6 U" g. _: k k
! z8 q2 ]$ L( m) |# g9 `; X) n
關注我們
4 S& F5 m. s6 v c! L/ Y4 c, ^* Q( Y" C, K
3 |* s: x( ^* N
ageyh1452lr6403230218.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊
ageyh1452lr6403230218.png
2024-10-16 03:02 上傳
4 q0 _' W. ?: ]: g& Z
| 5 v2 M# t: z! A
34vohyi4mvw6403230318.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊
34vohyi4mvw6403230318.png
2024-10-16 03:02 上傳
3 s# M0 N5 y; J6 r- S
|
; g7 O0 ^2 D' s0 p
0tpz35msta16403230418.png (21.52 KB, 下載次數(shù): 1)
下載附件
保存到相冊
0tpz35msta16403230418.png
2024-10-16 03:02 上傳
/ x' R+ I$ Y* x! W e3 [! Z | 8 w' v4 x' a. P; c" \( ^
4 m8 z* ]$ D/ n
4 W! c" I+ T4 C. v+ s
1 k8 [1 x' j7 `$ a關于我們:
6 ~6 O8 [/ ~' j. Y1 L* o深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設計和仿真軟件,提供成熟的設計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務,廣泛服務于光通訊、光計算、光量子通信和微納光子器件領域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術與服務。1 B1 a+ u1 [0 Y& I/ r
3 p1 \2 ]8 y3 E: ]' m" d) khttp://www.latitudeda.com/
9 l: y8 g8 O- s& C9 G(點擊上方名片關注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|