|
引言
. m; K4 w0 ?+ w- F. f# X4 X. o U在人工智能領(lǐng)域快速發(fā)展的今天,生成式AI已成為熱點話題。本文旨在幫助讀者了解晶圓級AI技術(shù)如何推動生成推理的革新。我們將深入探討Cerebras Systems公司的突破性技術(shù),看它如何通過晶圓級引擎(Wafer-Scale Engine,WSE)實現(xiàn)超越GPU的驚人性能[1]。
! |, T3 H" M, v+ h9 D6 w' x% e' k6 E
9 b4 J( { m, X3 ICerebras晶圓級引擎5 t8 r- U; M @$ q
Cerebras的核心創(chuàng)新在于其晶圓級引擎,這是迄今為止生產(chǎn)的最大芯片。
" S% t; ^% f* P% i6 R) r$ S8 j
zkb54uhwt0d6403229216.png (422.32 KB, 下載次數(shù): 0)
下載附件
保存到相冊
zkb54uhwt0d6403229216.png
2024-10-16 03:02 上傳
! ]8 j* U4 p* I k
圖1:Cerebras晶圓級引擎與傳統(tǒng)GPU的尺寸對比,展示了其巨大規(guī)模。3 X5 x X' n% N2 O8 {3 r, b
- M" K- w" J' ?
最新的WSE-3具有以下令人印象深刻的規(guī)格:
" t! [/ k, n7 ]& D. z5 }4萬億晶體管46,225平方毫米的硅面積900,000個AI核心125 Petaflops的AI計算能力44 GB片上內(nèi)存21 PB/s內(nèi)存帶寬214 Pbit/s架構(gòu)帶寬采用臺積電5nm工藝
$ j# C. Q! O' i) q2 [2 r; Q2 D" V8 k7 Z+ F1 y% r3 b. H
這些規(guī)格遠(yuǎn)超最先進的GPU。與NVIDIA的H100相比,WSE-3具備:
4 X2 K4 [8 |* ^, | r5 T57倍的芯片面積52倍的核心數(shù)量880倍的片上內(nèi)存7,000倍的內(nèi)存帶寬
9 f; A. n$ O4 M& x! f" v- g
, l1 [: \1 M& c
- O) C; l. V- {0 g內(nèi)存帶寬優(yōu)勢
! l! T( l3 e' E% }( i+ d6 H限制生成推理速度的一個關(guān)鍵因素是內(nèi)存帶寬。傳統(tǒng)GPU架構(gòu)在這方面面臨瓶頸,因為生成令牌需要多次通過模型,每次都要從內(nèi)存中讀取所有參數(shù)。0 m" F; y6 e; a6 {2 S1 q5 w6 O
9 p" }# `; Q6 l
unfwfoirn3l6403229316.png (98.01 KB, 下載次數(shù): 0)
下載附件
保存到相冊
unfwfoirn3l6403229316.png
2024-10-16 03:02 上傳
Y3 s; M; D1 Z圖2:Cerebras WSE-3與Nvidia H100的內(nèi)存帶寬對比,突顯了巨大差異。( \9 f/ A# x, [' M6 v: w: G1 w8 g
- p0 j# d9 [4 s+ Z1 W
Cerebras的晶圓級架構(gòu)提供了巨大的內(nèi)存帶寬優(yōu)勢:; \: F6 P8 [0 ]2 V* ?
WSE-3:21 PB/sH100:0.003 PB/s' i" r1 y2 `. S. |, e
6 Q5 X# F; T: t% n' b( ?8 @7 i0 ~這7,000倍的內(nèi)存帶寬增加對生成推理性能產(chǎn)生了革命性影響。+ N% w' d \1 @
7 @8 o! j3 b: @5 L0 v* ~
晶圓級集成vs多GPU解決方案雖然多GPU解決方案試圖通過在單個服務(wù)器中集成多個GPU來聚合內(nèi)存帶寬,但這種方法存在顯著缺點:
" R0 A; D- Y4 `% m' G
# T% E8 k" Z4 [$ M0 l: h1 z' C- V0 A
ueauuoctfhh6403229416.png (215.67 KB, 下載次數(shù): 0)
下載附件
保存到相冊
ueauuoctfhh6403229416.png
2024-10-16 03:02 上傳
) K- i a! x4 C: j
圖3:多GPU和晶圓級集成的對比,展示了內(nèi)存帶寬、IO帶寬和功耗的差異。
) ^' r+ J1 Q2 ~% ] G# S
( g2 w, a! i1 b/ N& d晶圓級方法提供:
& Q/ U% B5 K; `+ i. u ]" X) R800倍的內(nèi)存帶寬33倍的跨芯片IO6倍低的功耗
% v7 B n. J3 }5 k. ~) e; n
3 p: `2 k5 d+ s; B此外,多GPU解決方案由于互連帶寬和延遲開銷而存在擴展效率問題。隨著GPU數(shù)量的增加,內(nèi)存帶寬利用率顯著下降。
# M$ \" ^+ }+ L5 m. L* \8 [* I/ C. D. w7 z' o2 i* D6 I7 v* [# [) ^
puwxlghwcac6403229517.png (195.66 KB, 下載次數(shù): 0)
下載附件
保存到相冊
puwxlghwcac6403229517.png
2024-10-16 03:02 上傳
; i; [9 q& L, n
圖4:圖表顯示了在DGX系統(tǒng)中增加GPU數(shù)量時內(nèi)存帶寬利用率的下降。
" H: M' X% c& i( u; c. }$ c* c! f D, p# m2 w+ P
單芯片上的流水線執(zhí)行
1 u! P$ K F6 S$ k1 }5 \3 E4 s8 ~Cerebras的巨大內(nèi)存帶寬實現(xiàn)了獨特的執(zhí)行模型:
3 B5 G5 y0 S$ Z7 d! }! ?
p0d3zkjhjxk6403229617.png (298.38 KB, 下載次數(shù): 0)
下載附件
保存到相冊
p0d3zkjhjxk6403229617.png
2024-10-16 03:02 上傳
# C. O3 w% |$ O圖5:晶圓級引擎上流水線執(zhí)行的圖示,展示了模型的不同層如何映射到芯片的各個區(qū)域。- W0 s0 Z. v/ ?& {9 u
$ [+ _, K! C0 P% d( O2 M2 l7 z在這個模型中:模型層被映射到特定的晶圓區(qū)域權(quán)重和KV緩存存儲在區(qū)域內(nèi)存中每個晶圓區(qū)域一次處理一個令牌相鄰區(qū)域?qū)崿F(xiàn)流水線階段之間的低延遲通信7 {: d7 M% |6 f C' s7 Q
[/ol]) J- ]! n" ^$ w; C( Y! [) c
這種方法允許極快的令牌生成,因為整個過程發(fā)生在單個芯片上,階段之間的延遲最小。/ Z* j8 L9 v0 w8 [! Y K+ ?
1 ?) m8 i t! {* O! X
6 y4 Z% g, `! f
大型模型的可擴展性2 k' L3 B! O" s
對于超出單個WSE容量的模型,Cerebras提供了可擴展解決方案:; B. U; o3 l' |' y: O4 [
g53nkapi2bs6403229717.png (257.28 KB, 下載次數(shù): 1)
下載附件
保存到相冊
g53nkapi2bs6403229717.png
2024-10-16 03:02 上傳
+ ~9 G# J4 p0 G( H( F
圖6:圖表展示了如何將較大的模型映射到多個晶圓級引擎上。. f' u" F" c: |8 L% C6 f i0 f
+ i+ A. l8 ?. j' c/ g! b! a9 A, ^4 B# `
通過將模型層分布在多個WSE上,Cerebras可以容納最大的語言模型,同時保持高性能。晶圓間通信經(jīng)過優(yōu)化,以最小化延遲和帶寬需求。
0 _: `6 B* C) _$ a! N& }! m7 R/ A3 f5 |! }+ F! ]2 ^
高吞吐量和低延遲. d; G S' r, b8 R( l
與GPU面臨延遲和吞吐量之間的權(quán)衡不同,Cerebras的架構(gòu)能夠同時實現(xiàn)高單用戶速度和高多用戶吞吐量:; x2 P* P. v( j5 `
. ?$ {6 Q/ E2 d1 Y% v% O2 y& Z. c
bjdhrdmhb1j6403229817.png (233.26 KB, 下載次數(shù): 0)
下載附件
保存到相冊
bjdhrdmhb1j6403229817.png
2024-10-16 03:02 上傳
4 l) K- |0 {0 h4 V0 S) |
圖7:GPU和Cerebras系統(tǒng)的延遲vs吞吐量權(quán)衡對比圖,顯示了Cerebras在這兩個指標(biāo)上的卓越性能。
* z5 P) Z# S% K3 [, S9 n/ ^% K: _& i- E2 C' o: a! C
WSE可以同時支持多個用戶,每個用戶并行訪問模型,而不會犧牲個人性能。這得益于晶圓上可用的大量內(nèi)存帶寬。
/ U7 e x; c2 w: T& K
/ W, l* ?* a- w7 b提示處理優(yōu)化; R7 x& \) T- S7 f& _+ S/ u! }
Cerebras通過高效的提示處理進一步優(yōu)化性能:5 y5 s9 W3 n/ {4 h' b/ ^
o2lfgd0c0s06403229918.png (327.23 KB, 下載次數(shù): 0)
下載附件
保存到相冊
o2lfgd0c0s06403229918.png
2024-10-16 03:02 上傳
% x$ d+ z; U p3 R! b. N圖8:圖示展示了Cerebras如何通過同時利用多個流水線階段來優(yōu)化提示處理。& i' l1 F- ]- A% o% n+ D
, c- |/ x& m0 M& H6 o' _. @
通過在不同流水線階段并行處理多個提示令牌,Cerebras實現(xiàn)了更高的單用戶提示速度并最大化吞吐量。5 k- D6 L5 H+ {3 Z4 d
# N5 J2 U- R2 k0 k/ R8 w
未來改進
8 v1 @; s& s3 o- y' D" TCerebras正在持續(xù)研究技術(shù)以改善性能并支持更大的模型:
1 U; `& |, T! q. J) T1 C推測性解碼KV緩存優(yōu)化量化稀疏性更多即將到來的技術(shù)1 E! m* o8 \' Q9 \& }# M1 L' T) `
! c+ F+ l8 l! q
這些改進有望進一步推動AI性能的邊界。
9 O7 `5 z2 l2 d3 |) J$ H( B0 c+ f7 h0 \! g# g% M# O- w
8 r6 K) M) w0 Z4 d# B; I
Cerebras推理服務(wù)% f& E B% B' K$ p. y1 I
為使這一突破性技術(shù)更易獲取,Cerebras推出了推理服務(wù):
! a7 o2 N" \+ N! ~0 w
oy5hig40yq36403230018.png (178.63 KB, 下載次數(shù): 0)
下載附件
保存到相冊
oy5hig40yq36403230018.png
2024-10-16 03:02 上傳
" l1 X' b" _1 r' N
圖9:Cerebras推理服務(wù)界面的截圖,顯示可用模型和定價層級。! [4 K) n2 B5 o# H& g2 L
* m- @8 m; }9 ?0 y( X
該服務(wù)提供:6 x4 [5 g* O1 ^3 b: R- i; h
Llama3.1-8B,速度為1,800令牌/秒Llama3.1-70B,速度為450令牌/秒免費層每分鐘30個請求,每日100萬令牌限制付費層提供有競爭力的定價 F7 g2 K+ \' A% B* s
9 ~1 o$ K8 _1 Z+ E3 d未來服務(wù)將增加更大的模型,如Llama-405B、Mistral Large 2、Cohere Command R,以及定制微調(diào)模型。: x4 W! Z; _; e G& N7 J
/ D9 i5 P1 J; }8 V" L結(jié)論
9 W! Y0 Y3 q" S! m% u/ T: {2 YCerebras的晶圓級引擎技術(shù)代表了AI硬件的范式轉(zhuǎn)變,為生成推理提供了前所未有的性能。通過解決內(nèi)存帶寬瓶頸并在大規(guī)模上實現(xiàn)高效的流水線執(zhí)行,Cerebras正在為AI應(yīng)用開啟新的可能性。隨著技術(shù)的不斷發(fā)展,我們可以期待AI性能的進一步提升,為各行各業(yè)的更復(fù)雜和響應(yīng)更快的AI系統(tǒng)奠定基礎(chǔ)。
" z! G; B. K; o, [
; G# R" i$ d) w) M1 R: f" R* R參考文獻/ q6 q: s% E' _6 l
[1] S. Lie, "Wafer-Scale AI: GPU Impossible Performance," in Hot Chips 2024, 2024.& s! n9 A' d0 N2 ^8 I
R, L3 F# J! H% ?- END -
8 E/ U2 V& w& y; j. B- I: \$ [2 ]
- ~& n& q) X* a$ [3 g! u# V6 l2 T
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
' g( c% |( c3 x* g" b3 n! J點擊左下角"閱讀原文"馬上申請- P# k+ C- |5 Z4 I& A- e2 j1 E
# `6 f( v) W" h% }歡迎轉(zhuǎn)載
5 z' N. W) B- d" K
. t+ m& J/ z; A( i轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
% j/ N+ l% s: X) j, r/ c0 t1 l1 }4 a8 ?) o, M" d2 G1 I
7 }' T4 f- _& S" d3 x' C k& g
" r. J& M2 S# Q5 a) ^
xdsmq4ljvvw6403230118.gif (16.04 KB, 下載次數(shù): 1)
下載附件
保存到相冊
xdsmq4ljvvw6403230118.gif
2024-10-16 03:02 上傳
- b0 r' ?* c5 f# _! ?2 O' |5 X9 B$ {& P8 F. p
關(guān)注我們
# g7 r& g, J; S6 d" q) J) M" w" E' W1 A. @" }2 U
. j$ H; q- Y+ _
ageyh1452lr6403230218.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊
ageyh1452lr6403230218.png
2024-10-16 03:02 上傳
% a6 K# t) W4 R9 @. D |
- z) S/ |$ R# r# b2 }0 Y, ?
34vohyi4mvw6403230318.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊
34vohyi4mvw6403230318.png
2024-10-16 03:02 上傳
( B! M$ W) {& W1 i | * W5 l2 K0 A, t0 F
0tpz35msta16403230418.png (21.52 KB, 下載次數(shù): 1)
下載附件
保存到相冊
0tpz35msta16403230418.png
2024-10-16 03:02 上傳
( t# S' O; S# t ^5 P+ ]
| 8 ^" e: l! u% D+ H4 U) l
i$ i8 n4 D4 U1 ?9 e
; F. O( w/ J \1 ]% F. c. V# d3 o8 O# Q) l) [7 K2 l% n
關(guān)于我們:6 D+ M1 y5 l( ]( j/ f* L! `* L
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
* e W2 H: v0 @! W; g' |# l: I' ^' l( A. ?
http://www.latitudeda.com/; x/ L. _' ^+ r' [3 d2 A
(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|