|
引言& i" h; ?1 p7 I+ z9 v
在人工智能領(lǐng)域快速發(fā)展的今天,對(duì)高效且強(qiáng)大的計(jì)算解決方案的需求前所未有地高漲。本文FuriosaAI開發(fā)的RNGD張量收縮處理器,這是突破性技術(shù),旨在應(yīng)對(duì)大語(yǔ)言模型(LLMs)和生成式AI時(shí)代的可持續(xù)AI計(jì)算挑戰(zhàn)。! O7 o( o1 a- r5 |7 X) ?
yawrfnvugic64042710159.png (398.06 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
yawrfnvugic64042710159.png
9 小時(shí)前 上傳
5 ]" l2 }) @8 }9 {圖1:顯示FuriosaAI成立、RNGD開發(fā)里程碑和首次LLM演示的時(shí)間線。( w8 \7 S, k) `* k
" z# C* c7 r, C: n* C% i5 CRNGD處理器代表了AI加速技術(shù)的重大進(jìn)步。FuriosaAI的使命是"使AI計(jì)算可持續(xù),讓地球上的每個(gè)人都能接觸到強(qiáng)大的AI"。為實(shí)現(xiàn)這一目標(biāo),他們創(chuàng)造了一款在保持能源效率的同時(shí)還能提供出色性能的芯片。1 S- [8 U6 O+ }! h
/ V) j& t8 {; F# W
讓我們深入了解RNGD處理器的主要特性:/ C( H3 @6 l! D6 a' u* H
fa3mtsaanqd64042710259.png (345.61 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
fa3mtsaanqd64042710259.png
9 小時(shí)前 上傳
1 C) ^" j' Z' V1 q圖2:RNGD處理器的詳細(xì)規(guī)格,包括FLOPS、內(nèi)存容量和功耗。, W3 U. Q+ V7 z2 e. u) L5 _( _
4 f/ d0 I) s# M v9 x6 N# xRNGD擁有512 TFLOPS的計(jì)算能力,這是通過(guò)8個(gè)處理元件實(shí)現(xiàn)的,每個(gè)元件能夠達(dá)到64 TFLOPS(FP8)。處理器配備了48 GB的內(nèi)存,其中包括256 MB的SRAM,并提供令人印象深刻的384 TB/s片上帶寬。借助兩個(gè)HBM3模塊,內(nèi)存帶寬達(dá)到1.5 TB/s。
; ?2 R/ P6 S. Z0 _+ N4 k+ ]: P. Y; j* Q. t: |: s2 B
RNGD的突出特點(diǎn)是能夠在150瓦功率范圍內(nèi)處理高性能LLM工作負(fù)載。這使得其適用于空氣冷卻的數(shù)據(jù)中心,有效解決了AI計(jì)算中日益增長(zhǎng)的能源消耗問(wèn)題。
6 l( }2 A: M O
l1zgyzhyiam64042710300.png (198.15 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
l1zgyzhyiam64042710300.png
9 小時(shí)前 上傳
/ ~+ v$ R5 z# K. F6 i% A6 _& o
圖3:RNGD芯片架構(gòu)的詳細(xì)視圖,包括SoC和HBM3組件。
8 T6 ~& Z# E$ w# g
& h$ @) x( F, z; D) o3 VRNGD采用臺(tái)積電5nm工藝技術(shù),芯片面積為653 mm2,晶體管數(shù)量達(dá)400億。芯片設(shè)計(jì)使用了CoWoS-S(Chip-on-Wafer-on-Substrate with Silicon interposer)封裝技術(shù),這種技術(shù)允許將SoC與兩個(gè)HBM3內(nèi)存堆棧集成在一起。 y" C' O6 @- Y1 d; V
& c! G2 w. s6 w7 U# h& t早期性能數(shù)據(jù)顯示了令人鼓舞的結(jié)果:
5 h; f4 d/ N6 L$ Z$ d
pvfpbbxxet464042710400.png (121.42 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
pvfpbbxxet464042710400.png
9 小時(shí)前 上傳
) D; l. ?7 \. |+ T. \; x9 [% l
圖4:比較RNGD與NVIDIA L40S、Intel Gaudi 2和Google TPU v5e性能的表格。; `3 j3 m9 D* ?' F0 |! u
! [6 E$ R [: I6 B7 j; R. D; h- S
根據(jù)這些初步基準(zhǔn)測(cè)試,在運(yùn)行GPT-J 6B MLPerf基準(zhǔn)測(cè)試場(chǎng)景時(shí),RNGD的每瓦性能比NVIDIA L40S高出60%。
& F I3 B; z% Y7 G4 o1 {5 `; E
. h3 c, D* n% I2 N0 vRNGD效率的關(guān)鍵在于其創(chuàng)新的張量收縮方法,這是深度學(xué)習(xí)模型中的核心計(jì)算。大多數(shù)商用深度學(xué)習(xí)加速器使用固定大小的矩陣乘法作為原語(yǔ),而RNGD提高了硬件-軟件接口的層次,將整個(gè)張量收縮作為原語(yǔ)來(lái)加速。" ]! H: M# F9 y" C/ U N% D2 t+ P
ljkximxkhz364042710500.png (150.14 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
ljkximxkhz364042710500.png
9 小時(shí)前 上傳
+ L, [0 U m4 B8 S, r' |, |+ S) h
圖5:圖解說(shuō)明張量收縮是深度學(xué)習(xí)中的核心計(jì)算。; W! n. w8 Q' E! E! Z. N' J, n
9 z0 _( Y& f; i0 P# b, Z這種方法實(shí)現(xiàn)了更高的性能和能源效率,同時(shí)提供了支持所有深度學(xué)習(xí)模型的靈活性。RNGD引入了低級(jí)einsum記法作為原語(yǔ),將張量收縮與顯式內(nèi)存布局和調(diào)度相結(jié)合。
2 p" Q; M& {0 e, ~
uz1ir0nypzi64042710600.png (136.3 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
uz1ir0nypzi64042710600.png
9 小時(shí)前 上傳
! M' a& D! [, N# G# l; [圖6:說(shuō)明RNGD如何將整個(gè)張量收縮作為單個(gè)原語(yǔ)操作處理。
) n; W0 ]1 a( s* c7 l# [ v7 O3 @/ t q6 h3 s1 m* n& X$ B7 S
RNGD的架構(gòu)能夠高效地進(jìn)行計(jì)算的空間和時(shí)間編排,提高了利用率和效率。這對(duì)推理任務(wù)尤為重要,因?yàn)橥评砣蝿?wù)的批處理大小可能會(huì)有很大變化。: Q- n3 T0 P8 u0 j8 {; ^ T+ f
vngatfm4nwh64042710700.png (514.7 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
vngatfm4nwh64042710700.png
9 小時(shí)前 上傳
$ P! F5 n' a' F# t7 t
圖7:RNGD處理器的詳細(xì)架構(gòu)圖,顯示互連網(wǎng)絡(luò)和處理元件。
( r, [: A; H _7 X L! c5 k+ ~% t6 d: ^7 k7 W
為了支持大型模型的多卡配置,RNGD實(shí)現(xiàn)了基于PCIe的芯片間通信。這允許通過(guò)直接點(diǎn)對(duì)點(diǎn)通信減少卡之間的延遲。
2 P3 Y2 d A) j* v- V1 R
h5m5ogor5ja64042710801.png (146.09 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
h5m5ogor5ja64042710801.png
9 小時(shí)前 上傳
0 H) n) s3 f; E0 Y7 N/ m. D圖8:展示多個(gè)RNGD卡與主機(jī)CPU之間基于PCIe的通信圖。- a6 _- I7 n. G, G" ~
z: O- V% T" g7 I pRNGD還支持SR-IOV(Single Root I/O Virtualization)多實(shí)例支持和虛擬化,允許虛擬機(jī)使用多達(dá)8個(gè)虛擬功能。4 R+ f2 I0 u, z
8 f t! a( y& ]8 H) v; @在軟件方面,F(xiàn)uriosaAI開發(fā)了全面的LLM軟件棧,以充分發(fā)揮RNGD硬件的潛力:- r( U5 W) R4 ^& r" I5 y" t. }+ Q( p: { ]
ljelpdng5ul64042710901.png (213.88 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
ljelpdng5ul64042710901.png
9 小時(shí)前 上傳
9 ]# |9 C1 Z) p: Z2 z2 `
圖9:Furiosa LLM軟件棧的圖表,從PyTorch模型到RNGD硬件。
/ m: q1 H7 F1 W6 j8 I& t1 h1 ], d
( P9 S: [5 A6 B# l這個(gè)軟件棧包括PyTorch 2.0集成、支持各種精度格式(FP8、INT8等)的量化工具包、多卡上的張量/流水線/數(shù)據(jù)并行性、先進(jìn)的DNN編譯器,以及最先進(jìn)的服務(wù)優(yōu)化。+ F: r0 }9 |0 L- q, f+ q
A) C. \1 m. Z1 ]- ~
Furiosa編譯器在實(shí)現(xiàn)端到端模型效率方面發(fā)揮著關(guān)鍵作用:
# Z6 f; V$ B' v8 H
q1qmkcgr0i164042711001.png (172.8 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
q1qmkcgr0i164042711001.png
9 小時(shí)前 上傳
2 r, |: t+ V5 T1 {3 V圖10:顯示RNGD上優(yōu)化張量操作的編譯過(guò)程流程圖。( O' T; I) l+ y' ^
1 W* ^5 k3 r+ n2 f' _編譯器為給定的降維張量形狀找到最佳策略,使用性能和功率估算器來(lái)探索策略空間。此外,還執(zhí)行圖級(jí)優(yōu)化,如算子融合和內(nèi)存分配拆分合并調(diào)度。
* f7 D2 p7 i( k; h1 t) w" _( W' s3 |- V# K4 g# s1 m0 ]
為了最大化服務(wù)性能,F(xiàn)uriosaAI開發(fā)了實(shí)現(xiàn)先進(jìn)優(yōu)化的服務(wù)框架:* b( M0 ^4 R# |9 }4 u0 D( j4 A. R
lsk0024yrx064042711101.png (177.16 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
lsk0024yrx064042711101.png
9 小時(shí)前 上傳
- U' T% y/ l# [圖11:Furiosa服務(wù)框架圖,展示其組件和優(yōu)化。2 L) w% E, q0 t) J
( c" T+ `. G& E# s該框架包括PagedAttention和分塊KV緩存管理,利用Furiosa編譯器和運(yùn)行時(shí)進(jìn)行高吞吐量服務(wù),支持連續(xù)批處理。% v, p+ Y& W' a6 Q, f5 |" p
% _0 Z3 _( t5 k) ~: r% |2 s+ w. _
為了高效量化,F(xiàn)uriosaAI提供了一個(gè)端到端的自動(dòng)化量化工具:
. l* r/ u, g7 C* ~- q
vria2myrbcx64042711201.png (161.11 KB, 下載次數(shù): 5)
下載附件
保存到相冊(cè)
vria2myrbcx64042711201.png
9 小時(shí)前 上傳
- _. x+ j6 z. @( Q. [% i
圖12:Furiosa量化器概覽,這是自動(dòng)化的基于圖的量化工具。
4 e8 c! G) T7 f2 s* Y% b1 ~. i! S& d! b6 e9 w
這個(gè)工具使用圖模式搜索支持任意定制的LLM模型,并提供各種量化方案,包括BF16、INT8、FP8和INT4選項(xiàng)。+ O7 B) T! l( {+ Q- }. Q- _1 `
# L& X4 U3 `- [3 t2 X x, ?
RNGD的開發(fā)采用了先進(jìn)的方法和工具:
9 J* f1 [+ S' `0 n& s
woxvpvfr1jm64042711302.png (148.07 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
woxvpvfr1jm64042711302.png
9 小時(shí)前 上傳
0 f8 f8 R+ E$ X; b: C$ }圖13:展示RNGD創(chuàng)建過(guò)程中使用的先進(jìn)開發(fā)方法的信息圖。
?! i; G* C$ D# h5 e9 E
6 w' }) B6 O2 z/ H" G6 G5 F* d: [這些包括使用Rust和Chisel等高效語(yǔ)言,基于Kubernetes和Tekton CI的可擴(kuò)展工具和基礎(chǔ)設(shè)施,以及復(fù)雜的測(cè)試用例生成和驗(yàn)證流程。5 ~, G J$ T7 u* P6 y
0 h4 j. q- P0 O# l( j: M7 ]2 hRNGD張量收縮處理器代表了AI加速器技術(shù)的進(jìn)步。通過(guò)專注于可持續(xù)計(jì)算并利用創(chuàng)新的硬件和軟件優(yōu)化,F(xiàn)uriosaAI創(chuàng)造了強(qiáng)大的解決方案,適用于大語(yǔ)言模型和生成式AI時(shí)代。隨著對(duì)高效AI計(jì)算需求的持續(xù)增長(zhǎng),像RNGD這樣的技術(shù)將在使先進(jìn)AI能夠應(yīng)用于更廣泛的場(chǎng)景并服務(wù)于更多用戶方面發(fā)揮關(guān)鍵作用。
# i- N0 u7 P& ~$ r) S
# z1 l I- f4 `6 I( e6 d7 U. g# x& |/ V5 G
參考文獻(xiàn)
1 a+ |3 P$ R' X& g$ L[1] J. Paik, "RNGD – Tensor Contraction Processor for Sustainable AI Computing," FuriosaAI Inc., 2024.
0 X: R1 |4 H- A) _4 a" U: P2 n0 _# i
; c3 d' a4 K5 v; E2 d- END -. W' R F* `# N( v: I3 { |
) A8 }8 H }5 K% D
軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
. P ?$ ^, [ R) _點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)
0 Z) C* B& @0 V8 N& \/ @/ o% j) i. y+ X& G! U7 X
歡迎轉(zhuǎn)載
$ S' U$ s5 H. o2 t$ F* c2 U9 j! v2 o7 I( S" X
轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!! @3 ]. I9 N4 v; }
+ K: Y$ U. Y/ s% c
8 c8 ?- x! Y4 C- X& [8 n- c A+ |- P* |. V2 x+ Y* s, L- ?! k- {
gv3vhov5rai64042711402.gif (16.04 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
gv3vhov5rai64042711402.gif
9 小時(shí)前 上傳
! q4 j/ z- ]' `4 o+ n; Y
) o8 ~: M0 m2 z: b0 F
關(guān)注我們
) ^3 }: Q2 f A& b! o: V2 B! b: ?, ~4 @/ @6 n' Y% ]* y8 h
1 y9 \+ H( f% _ d7 ]: f
yfnag5ly02464042711502.png (31.33 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
yfnag5ly02464042711502.png
9 小時(shí)前 上傳
/ r N8 L$ r) Q% O0 q+ E8 {0 j |
! |: P( o4 G7 o6 b. ~
y1ml43djqh364042711602.png (82.79 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
y1ml43djqh364042711602.png
9 小時(shí)前 上傳
8 {9 S9 l0 s7 Q& p | ( x7 e; ]- n' C
nnjmle55o0364042711702.png (21.52 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
nnjmle55o0364042711702.png
9 小時(shí)前 上傳
) y- O3 M6 A# V( ?
| 2 t" M% U. G, A0 i
; v3 H1 g& M% |# \$ k3 c" Y
$ R, G' K/ |: j) s3 q' i$ I% ^
4 `5 I2 z( V0 ^/ f5 X; s% @關(guān)于我們:
; |2 D4 @' w' Q( q深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。: W, p' }. \- A% U/ e; Y l
7 I, }1 f, Q, {7 X' z9 q6 hhttp://www.latitudeda.com/
% A! }. D8 L6 A(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|