電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 21|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | 大語(yǔ)言模型時(shí)代的可持續(xù)AI計(jì)算解決方案

[復(fù)制鏈接]

437

主題

437

帖子

3131

積分

四級(jí)會(huì)員

Rank: 4

積分
3131
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 昨天 08:00 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
引言, x! L+ ]4 M; U. x3 K, `
在人工智能領(lǐng)域快速發(fā)展的今天,對(duì)高效且強(qiáng)大的計(jì)算解決方案的需求前所未有地高漲。本文FuriosaAI開(kāi)發(fā)的RNGD張量收縮處理器,這是突破性技術(shù),旨在應(yīng)對(duì)大語(yǔ)言模型(LLMs)和生成式AI時(shí)代的可持續(xù)AI計(jì)算挑戰(zhàn)。- l0 e; j* Y) ~- H
: X* s# D6 _3 x
圖1:顯示FuriosaAI成立、RNGD開(kāi)發(fā)里程碑和首次LLM演示的時(shí)間線。
0 B- n* D, ~( n& T8 M
* f2 G9 }% I, a+ m% ^RNGD處理器代表了AI加速技術(shù)的重大進(jìn)步。FuriosaAI的使命是"使AI計(jì)算可持續(xù),讓地球上的每個(gè)人都能接觸到強(qiáng)大的AI"。為實(shí)現(xiàn)這一目標(biāo),他們創(chuàng)造了一款在保持能源效率的同時(shí)還能提供出色性能的芯片。" @" s9 o) W$ t8 q+ y# A" T% j: G) b
( W7 |, X& V8 x/ f5 V! }: i
讓我們深入了解RNGD處理器的主要特性:
' q* Y9 O8 ^$ q+ c3 e& z1 X * g7 B/ z; m0 C: ?6 B
圖2:RNGD處理器的詳細(xì)規(guī)格,包括FLOPS、內(nèi)存容量和功耗。
$ R) x- c4 X, S6 O) E5 E% |5 K+ K, w, ^. c- w. a8 `
RNGD擁有512 TFLOPS的計(jì)算能力,這是通過(guò)8個(gè)處理元件實(shí)現(xiàn)的,每個(gè)元件能夠達(dá)到64 TFLOPS(FP8)。處理器配備了48 GB的內(nèi)存,其中包括256 MB的SRAM,并提供令人印象深刻的384 TB/s片上帶寬。借助兩個(gè)HBM3模塊,內(nèi)存帶寬達(dá)到1.5 TB/s。
( P; R! |" x. x; V3 e, F2 D6 r* n& s& E1 }. w* H) W0 o. Z
RNGD的突出特點(diǎn)是能夠在150瓦功率范圍內(nèi)處理高性能LLM工作負(fù)載。這使得其適用于空氣冷卻的數(shù)據(jù)中心,有效解決了AI計(jì)算中日益增長(zhǎng)的能源消耗問(wèn)題。# h% U. e. r9 g* ?
" b8 u4 m  K& h
圖3:RNGD芯片架構(gòu)的詳細(xì)視圖,包括SoC和HBM3組件。
6 m: B9 W% [9 F# |
, ?% B' D! l# V9 |+ Y% G0 C" B: j+ @RNGD采用臺(tái)積電5nm工藝技術(shù),芯片面積為653 mm2,晶體管數(shù)量達(dá)400億。芯片設(shè)計(jì)使用了CoWoS-S(Chip-on-Wafer-on-Substrate with Silicon interposer)封裝技術(shù),這種技術(shù)允許將SoC與兩個(gè)HBM3內(nèi)存堆棧集成在一起。
+ B, r& g! [. _9 u5 E8 E. O# h9 d2 e# ~* H
早期性能數(shù)據(jù)顯示了令人鼓舞的結(jié)果:
9 b# ~, ]1 }' r6 q& k
& V- _+ F& z+ N; c" g& P3 e* s' R1 e8 J圖4:比較RNGD與NVIDIA L40S、Intel Gaudi 2和Google TPU v5e性能的表格。
3 Z8 F3 w$ |: `+ d( ?( U* n0 w$ G
+ v% n, ^" F3 J" t( q0 i, k根據(jù)這些初步基準(zhǔn)測(cè)試,在運(yùn)行GPT-J 6B MLPerf基準(zhǔn)測(cè)試場(chǎng)景時(shí),RNGD的每瓦性能比NVIDIA L40S高出60%。
) X9 T# h. o  w0 @) @9 [' N  F/ W" Z& U6 P; B
RNGD效率的關(guān)鍵在于其創(chuàng)新的張量收縮方法,這是深度學(xué)習(xí)模型中的核心計(jì)算。大多數(shù)商用深度學(xué)習(xí)加速器使用固定大小的矩陣乘法作為原語(yǔ),而RNGD提高了硬件-軟件接口的層次,將整個(gè)張量收縮作為原語(yǔ)來(lái)加速。
8 E" v% |# E5 k% s& n0 p9 ^+ B8 O* z+ n + S3 I& k; l! ]6 r! S* [: u
圖5:圖解說(shuō)明張量收縮是深度學(xué)習(xí)中的核心計(jì)算。6 ~6 A& W, o4 @
, ]& @6 A4 z) r
這種方法實(shí)現(xiàn)了更高的性能和能源效率,同時(shí)提供了支持所有深度學(xué)習(xí)模型的靈活性。RNGD引入了低級(jí)einsum記法作為原語(yǔ),將張量收縮與顯式內(nèi)存布局和調(diào)度相結(jié)合。
  a: d) Y, q% ~; F # T; W) w3 ?' k2 E
圖6:說(shuō)明RNGD如何將整個(gè)張量收縮作為單個(gè)原語(yǔ)操作處理。2 l+ N) S, R, B3 H# Z# u; O  P

' h* x& C# E4 h7 J5 JRNGD的架構(gòu)能夠高效地進(jìn)行計(jì)算的空間和時(shí)間編排,提高了利用率和效率。這對(duì)推理任務(wù)尤為重要,因?yàn)橥评砣蝿?wù)的批處理大小可能會(huì)有很大變化。+ q9 c- V* \$ \" |7 N

8 e& ~; F& T9 C& F+ T) L+ S' A圖7:RNGD處理器的詳細(xì)架構(gòu)圖,顯示互連網(wǎng)絡(luò)和處理元件。
9 A* s% M: ], e6 R) c, E6 V6 M" p4 j+ D
為了支持大型模型的多卡配置,RNGD實(shí)現(xiàn)了基于PCIe的芯片間通信。這允許通過(guò)直接點(diǎn)對(duì)點(diǎn)通信減少卡之間的延遲。
0 @. L" {8 S, @* b
, L# r4 h, s; s$ |& U圖8:展示多個(gè)RNGD卡與主機(jī)CPU之間基于PCIe的通信圖。
. P0 S7 s  \2 a* @, J. `& }1 m2 @9 k, f" P  J
RNGD還支持SR-IOV(Single Root I/O Virtualization)多實(shí)例支持和虛擬化,允許虛擬機(jī)使用多達(dá)8個(gè)虛擬功能。
. n- x4 K/ d1 \% w9 W* h5 F1 }6 Z8 y1 `9 Y* x0 D
在軟件方面,F(xiàn)uriosaAI開(kāi)發(fā)了全面的LLM軟件棧,以充分發(fā)揮RNGD硬件的潛力:' S3 V/ r2 p+ P' n$ b# ?

7 h) F  P* I! V: [4 C% d& L圖9:Furiosa LLM軟件棧的圖表,從PyTorch模型到RNGD硬件。
+ H! c- N2 U/ c4 @
" _6 G# L/ ^% z5 p$ p& z+ ]$ e9 g這個(gè)軟件棧包括PyTorch 2.0集成、支持各種精度格式(FP8、INT8等)的量化工具包、多卡上的張量/流水線/數(shù)據(jù)并行性、先進(jìn)的DNN編譯器,以及最先進(jìn)的服務(wù)優(yōu)化。3 q( @4 y* t% w- U: V
9 ~, [  p; k( H3 f) o
Furiosa編譯器在實(shí)現(xiàn)端到端模型效率方面發(fā)揮著關(guān)鍵作用:
5 D& K$ ^( e! i! `/ T: m
5 u/ p5 Q+ L1 l3 w0 _圖10:顯示RNGD上優(yōu)化張量操作的編譯過(guò)程流程圖。
4 B: f  B) ~# b3 c  H" v9 D6 r- y$ [+ w& |
編譯器為給定的降維張量形狀找到最佳策略,使用性能和功率估算器來(lái)探索策略空間。此外,還執(zhí)行圖級(jí)優(yōu)化,如算子融合和內(nèi)存分配拆分合并調(diào)度。
- J: w! H- u- d5 a% Q$ ?/ p5 h' P8 ~
7 C7 O: Z- }0 w. W0 k  e% Z為了最大化服務(wù)性能,F(xiàn)uriosaAI開(kāi)發(fā)了實(shí)現(xiàn)先進(jìn)優(yōu)化的服務(wù)框架:
2 [! K. c5 Y# q2 O2 x " v; e$ v, W" |+ C) K* x
圖11:Furiosa服務(wù)框架圖,展示其組件和優(yōu)化。
2 c) t6 `& a- u% Z; X0 O; u2 c# ^0 M2 }
該框架包括PagedAttention和分塊KV緩存管理,利用Furiosa編譯器和運(yùn)行時(shí)進(jìn)行高吞吐量服務(wù),支持連續(xù)批處理。( l* H) C* N( H
3 A" H  T. U7 p
為了高效量化,F(xiàn)uriosaAI提供了一個(gè)端到端的自動(dòng)化量化工具:
1 h8 P6 p# V5 X9 }$ I! u& p 3 A: k% c8 r4 v9 ~
圖12:Furiosa量化器概覽,這是自動(dòng)化的基于圖的量化工具。
6 Q4 {; \% K+ u7 [' M4 w+ D5 f, |, w7 w/ I
這個(gè)工具使用圖模式搜索支持任意定制的LLM模型,并提供各種量化方案,包括BF16、INT8、FP8和INT4選項(xiàng)。
9 c% |2 B. }7 Q5 ~4 R- p& u/ w0 T6 B% D6 E# i$ W1 u  |" G1 ?2 a4 d3 @# m
RNGD的開(kāi)發(fā)采用了先進(jìn)的方法和工具:
9 A: Y% V, |5 P 1 w+ `( k0 v. P# V$ _
圖13:展示RNGD創(chuàng)建過(guò)程中使用的先進(jìn)開(kāi)發(fā)方法的信息圖。& B; _% E3 o$ O6 ^% a; M: E. b
: D* ~: x: f8 \8 }; [$ X
這些包括使用Rust和Chisel等高效語(yǔ)言,基于Kubernetes和Tekton CI的可擴(kuò)展工具和基礎(chǔ)設(shè)施,以及復(fù)雜的測(cè)試用例生成和驗(yàn)證流程。. i# @# ]- V4 O- k" w
+ ]+ M5 \$ c  m; q7 n' g
RNGD張量收縮處理器代表了AI加速器技術(shù)的進(jìn)步。通過(guò)專注于可持續(xù)計(jì)算并利用創(chuàng)新的硬件和軟件優(yōu)化,F(xiàn)uriosaAI創(chuàng)造了強(qiáng)大的解決方案,適用于大語(yǔ)言模型和生成式AI時(shí)代。隨著對(duì)高效AI計(jì)算需求的持續(xù)增長(zhǎng),像RNGD這樣的技術(shù)將在使先進(jìn)AI能夠應(yīng)用于更廣泛的場(chǎng)景并服務(wù)于更多用戶方面發(fā)揮關(guān)鍵作用。4 U; ?, z- n% J7 `* F3 |' z2 c/ X8 S

. S! y, l5 {! \
/ a% A5 P3 l8 K0 d/ w/ p- o
參考文獻(xiàn)
# A8 [$ D: o% A7 k+ m' `[1] J. Paik, "RNGD – Tensor Contraction Processor for Sustainable AI Computing," FuriosaAI Inc., 2024.
5 r0 \' R* q" F; ?0 u  ], m* }0 E8 R
- END -7 w/ g1 |8 W; i& `! c

: `. {3 K% Q% x/ W1 K軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。% _! _. {; \  @/ y! A, r' p, e
點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)
# F" b: D& ]1 c  F. y6 I- p% A& W/ Q6 H) e& r5 Y
歡迎轉(zhuǎn)載
8 e2 S; G; L5 }& I6 L* z+ m) [6 S' D+ h
轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!8 S* {" t9 J# G  G8 I7 z

: D& B& a" Y! F5 O* c5 r  y# r6 c! b- B" U2 u. R
( w* v8 h( q2 Y; ^" Q0 k

) W; \# ^: N( U2 C4 j* b5 x* q7 Z
; s" l  I  q0 r6 ?; R' V關(guān)注我們9 x0 z# z# d% P1 l

0 N9 D! c. X) D7 X0 y/ j$ `

; H$ {# M, y: C' r 4 ?2 l9 I! [2 a8 Q5 z) O* O# i9 v

9 ?6 [, E  M3 J7 W7 l* {
- p/ \6 v# m  [& V+ m. m
  e6 W1 w- @$ O8 F9 q

. y0 H7 E) V: m0 c6 K9 c: ?2 E8 E
                     
( {5 K7 {$ r2 [6 a) k: g9 p- _
- B7 ?; [) E" e; O6 z. [
5 x& Y- M( Y" N, T+ p7 a
" \" Z) a4 K6 Z8 S9 X
關(guān)于我們:
, _4 D& z$ A  `深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開(kāi)發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
% X0 j/ k- n+ M  z8 s
+ i8 ~& U& h1 I$ X, f( Q! Y; F2 Whttp://www.latitudeda.com/
+ ]! r$ {% y& D4 B4 v(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)

發(fā)表回復(fù)

本版積分規(guī)則

關(guān)閉

站長(zhǎng)推薦上一條 /1 下一條


聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表