電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 27|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | 大語(yǔ)言模型時(shí)代的可持續(xù)AI計(jì)算解決方案

[復(fù)制鏈接]

437

主題

437

帖子

3131

積分

四級(jí)會(huì)員

Rank: 4

積分
3131
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 昨天 08:00 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
引言& i" h; ?1 p7 I+ z9 v
在人工智能領(lǐng)域快速發(fā)展的今天,對(duì)高效且強(qiáng)大的計(jì)算解決方案的需求前所未有地高漲。本文FuriosaAI開發(fā)的RNGD張量收縮處理器,這是突破性技術(shù),旨在應(yīng)對(duì)大語(yǔ)言模型(LLMs)和生成式AI時(shí)代的可持續(xù)AI計(jì)算挑戰(zhàn)。! O7 o( o1 a- r5 |7 X) ?

5 ]" l2 }) @8 }9 {圖1:顯示FuriosaAI成立、RNGD開發(fā)里程碑和首次LLM演示的時(shí)間線。( w8 \7 S, k) `* k

" z# C* c7 r, C: n* C% i5 CRNGD處理器代表了AI加速技術(shù)的重大進(jìn)步。FuriosaAI的使命是"使AI計(jì)算可持續(xù),讓地球上的每個(gè)人都能接觸到強(qiáng)大的AI"。為實(shí)現(xiàn)這一目標(biāo),他們創(chuàng)造了一款在保持能源效率的同時(shí)還能提供出色性能的芯片。1 S- [8 U6 O+ }! h
/ V) j& t8 {; F# W
讓我們深入了解RNGD處理器的主要特性:/ C( H3 @6 l! D6 a' u* H

1 C) ^" j' Z' V1 q圖2:RNGD處理器的詳細(xì)規(guī)格,包括FLOPS、內(nèi)存容量和功耗。, W3 U. Q+ V7 z2 e. u) L5 _( _

4 f/ d0 I) s# M  v9 x6 N# xRNGD擁有512 TFLOPS的計(jì)算能力,這是通過(guò)8個(gè)處理元件實(shí)現(xiàn)的,每個(gè)元件能夠達(dá)到64 TFLOPS(FP8)。處理器配備了48 GB的內(nèi)存,其中包括256 MB的SRAM,并提供令人印象深刻的384 TB/s片上帶寬。借助兩個(gè)HBM3模塊,內(nèi)存帶寬達(dá)到1.5 TB/s。
; ?2 R/ P6 S. Z0 _+ N4 k+ ]: P. Y; j* Q. t: |: s2 B
RNGD的突出特點(diǎn)是能夠在150瓦功率范圍內(nèi)處理高性能LLM工作負(fù)載。這使得其適用于空氣冷卻的數(shù)據(jù)中心,有效解決了AI計(jì)算中日益增長(zhǎng)的能源消耗問(wèn)題。
6 l( }2 A: M  O / ~+ v$ R5 z# K. F6 i% A6 _& o
圖3:RNGD芯片架構(gòu)的詳細(xì)視圖,包括SoC和HBM3組件。
8 T6 ~& Z# E$ w# g
& h$ @) x( F, z; D) o3 VRNGD采用臺(tái)積電5nm工藝技術(shù),芯片面積為653 mm2,晶體管數(shù)量達(dá)400億。芯片設(shè)計(jì)使用了CoWoS-S(Chip-on-Wafer-on-Substrate with Silicon interposer)封裝技術(shù),這種技術(shù)允許將SoC與兩個(gè)HBM3內(nèi)存堆棧集成在一起。  y" C' O6 @- Y1 d; V

& c! G2 w. s6 w7 U# h& t早期性能數(shù)據(jù)顯示了令人鼓舞的結(jié)果:
5 h; f4 d/ N6 L$ Z$ d ) D; l. ?7 \. |+ T. \; x9 [% l
圖4:比較RNGD與NVIDIA L40S、Intel Gaudi 2和Google TPU v5e性能的表格。; `3 j3 m9 D* ?' F0 |! u
! [6 E$ R  [: I6 B7 j; R. D; h- S
根據(jù)這些初步基準(zhǔn)測(cè)試,在運(yùn)行GPT-J 6B MLPerf基準(zhǔn)測(cè)試場(chǎng)景時(shí),RNGD的每瓦性能比NVIDIA L40S高出60%。
& F  I3 B; z% Y7 G4 o1 {5 `; E
. h3 c, D* n% I2 N0 vRNGD效率的關(guān)鍵在于其創(chuàng)新的張量收縮方法,這是深度學(xué)習(xí)模型中的核心計(jì)算。大多數(shù)商用深度學(xué)習(xí)加速器使用固定大小的矩陣乘法作為原語(yǔ),而RNGD提高了硬件-軟件接口的層次,將整個(gè)張量收縮作為原語(yǔ)來(lái)加速。" ]! H: M# F9 y" C/ U  N% D2 t+ P
+ L, [0 U  m4 B8 S, r' |, |+ S) h
圖5:圖解說(shuō)明張量收縮是深度學(xué)習(xí)中的核心計(jì)算。; W! n. w8 Q' E! E! Z. N' J, n

9 z0 _( Y& f; i0 P# b, Z這種方法實(shí)現(xiàn)了更高的性能和能源效率,同時(shí)提供了支持所有深度學(xué)習(xí)模型的靈活性。RNGD引入了低級(jí)einsum記法作為原語(yǔ),將張量收縮與顯式內(nèi)存布局和調(diào)度相結(jié)合。
2 p" Q; M& {0 e, ~
! M' a& D! [, N# G# l; [圖6:說(shuō)明RNGD如何將整個(gè)張量收縮作為單個(gè)原語(yǔ)操作處理。
) n; W0 ]1 a( s* c7 l# [  v7 O3 @/ t  q6 h3 s1 m* n& X$ B7 S
RNGD的架構(gòu)能夠高效地進(jìn)行計(jì)算的空間和時(shí)間編排,提高了利用率和效率。這對(duì)推理任務(wù)尤為重要,因?yàn)橥评砣蝿?wù)的批處理大小可能會(huì)有很大變化。: Q- n3 T0 P8 u0 j8 {; ^  T+ f
$ P! F5 n' a' F# t7 t
圖7:RNGD處理器的詳細(xì)架構(gòu)圖,顯示互連網(wǎng)絡(luò)和處理元件。
( r, [: A; H  _7 X  L! c5 k+ ~% t6 d: ^7 k7 W
為了支持大型模型的多卡配置,RNGD實(shí)現(xiàn)了基于PCIe的芯片間通信。這允許通過(guò)直接點(diǎn)對(duì)點(diǎn)通信減少卡之間的延遲。
2 P3 Y2 d  A) j* v- V1 R
0 H) n) s3 f; E0 Y7 N/ m. D圖8:展示多個(gè)RNGD卡與主機(jī)CPU之間基于PCIe的通信圖。- a6 _- I7 n. G, G" ~

  z: O- V% T" g7 I  pRNGD還支持SR-IOV(Single Root I/O Virtualization)多實(shí)例支持和虛擬化,允許虛擬機(jī)使用多達(dá)8個(gè)虛擬功能。4 R+ f2 I0 u, z

8 f  t! a( y& ]8 H) v; @在軟件方面,F(xiàn)uriosaAI開發(fā)了全面的LLM軟件棧,以充分發(fā)揮RNGD硬件的潛力:- r( U5 W) R4 ^& r" I5 y" t. }+ Q( p: {  ]
9 ]# |9 C1 Z) p: Z2 z2 `
圖9:Furiosa LLM軟件棧的圖表,從PyTorch模型到RNGD硬件。
/ m: q1 H7 F1 W6 j8 I& t1 h1 ], d
( P9 S: [5 A6 B# l這個(gè)軟件棧包括PyTorch 2.0集成、支持各種精度格式(FP8、INT8等)的量化工具包、多卡上的張量/流水線/數(shù)據(jù)并行性、先進(jìn)的DNN編譯器,以及最先進(jìn)的服務(wù)優(yōu)化。+ F: r0 }9 |0 L- q, f+ q
  A) C. \1 m. Z1 ]- ~
Furiosa編譯器在實(shí)現(xiàn)端到端模型效率方面發(fā)揮著關(guān)鍵作用:
# Z6 f; V$ B' v8 H
2 r, |: t+ V5 T1 {3 V圖10:顯示RNGD上優(yōu)化張量操作的編譯過(guò)程流程圖。( O' T; I) l+ y' ^

1 W* ^5 k3 r+ n2 f' _編譯器為給定的降維張量形狀找到最佳策略,使用性能和功率估算器來(lái)探索策略空間。此外,還執(zhí)行圖級(jí)優(yōu)化,如算子融合和內(nèi)存分配拆分合并調(diào)度。
* f7 D2 p7 i( k; h1 t) w" _( W' s3 |- V# K4 g# s1 m0 ]
為了最大化服務(wù)性能,F(xiàn)uriosaAI開發(fā)了實(shí)現(xiàn)先進(jìn)優(yōu)化的服務(wù)框架:* b( M0 ^4 R# |9 }4 u0 D( j4 A. R

- U' T% y/ l# [圖11:Furiosa服務(wù)框架圖,展示其組件和優(yōu)化。2 L) w% E, q0 t) J

( c" T+ `. G& E# s該框架包括PagedAttention和分塊KV緩存管理,利用Furiosa編譯器和運(yùn)行時(shí)進(jìn)行高吞吐量服務(wù),支持連續(xù)批處理。% v, p+ Y& W' a6 Q, f5 |" p
% _0 Z3 _( t5 k) ~: r% |2 s+ w. _
為了高效量化,F(xiàn)uriosaAI提供了一個(gè)端到端的自動(dòng)化量化工具:
. l* r/ u, g7 C* ~- q - _. x+ j6 z. @( Q. [% i
圖12:Furiosa量化器概覽,這是自動(dòng)化的基于圖的量化工具。
4 e8 c! G) T7 f2 s* Y% b1 ~. i! S& d! b6 e9 w
這個(gè)工具使用圖模式搜索支持任意定制的LLM模型,并提供各種量化方案,包括BF16、INT8、FP8和INT4選項(xiàng)。+ O7 B) T! l( {+ Q- }. Q- _1 `
# L& X4 U3 `- [3 t2 X  x, ?
RNGD的開發(fā)采用了先進(jìn)的方法和工具:
9 J* f1 [+ S' `0 n& s
0 f8 f8 R+ E$ X; b: C$ }圖13:展示RNGD創(chuàng)建過(guò)程中使用的先進(jìn)開發(fā)方法的信息圖。
  ?! i; G* C$ D# h5 e9 E
6 w' }) B6 O2 z/ H" G6 G5 F* d: [這些包括使用Rust和Chisel等高效語(yǔ)言,基于Kubernetes和Tekton CI的可擴(kuò)展工具和基礎(chǔ)設(shè)施,以及復(fù)雜的測(cè)試用例生成和驗(yàn)證流程。5 ~, G  J$ T7 u* P6 y

0 h4 j. q- P0 O# l( j: M7 ]2 hRNGD張量收縮處理器代表了AI加速器技術(shù)的進(jìn)步。通過(guò)專注于可持續(xù)計(jì)算并利用創(chuàng)新的硬件和軟件優(yōu)化,F(xiàn)uriosaAI創(chuàng)造了強(qiáng)大的解決方案,適用于大語(yǔ)言模型和生成式AI時(shí)代。隨著對(duì)高效AI計(jì)算需求的持續(xù)增長(zhǎng),像RNGD這樣的技術(shù)將在使先進(jìn)AI能夠應(yīng)用于更廣泛的場(chǎng)景并服務(wù)于更多用戶方面發(fā)揮關(guān)鍵作用。
# i- N0 u7 P& ~$ r) S
# z1 l  I- f4 `6 I( e6 d
7 U. g# x& |/ V5 G
參考文獻(xiàn)
1 a+ |3 P$ R' X& g$ L[1] J. Paik, "RNGD – Tensor Contraction Processor for Sustainable AI Computing," FuriosaAI Inc., 2024.
0 X: R1 |4 H- A) _4 a" U: P2 n0 _# i
; c3 d' a4 K5 v; E2 d- END -. W' R  F* `# N( v: I3 {  |
) A8 }8 H  }5 K% D
軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
. P  ?$ ^, [  R) _點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)
0 Z) C* B& @0 V8 N& \/ @/ o% j) i. y+ X& G! U7 X
歡迎轉(zhuǎn)載
$ S' U$ s5 H. o2 t$ F* c2 U9 j! v2 o7 I( S" X
轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!! @3 ]. I9 N4 v; }
+ K: Y$ U. Y/ s% c

8 c8 ?- x! Y4 C- X& [8 n- c  A+ |- P
* |. V2 x+ Y* s, L- ?! k- {
! q4 j/ z- ]' `4 o+ n; Y
) o8 ~: M0 m2 z: b0 F
關(guān)注我們
) ^3 }: Q2 f  A& b! o: V2 B! b: ?, ~4 @/ @6 n' Y% ]* y8 h
1 y9 \+ H( f% _  d7 ]: f

/ r  N8 L$ r) Q% O0 q+ E8 {0 j

! |: P( o4 G7 o6 b. ~
8 {9 S9 l0 s7 Q& p
( x7 e; ]- n' C
) y- O3 M6 A# V( ?
                      2 t" M% U. G, A0 i
; v3 H1 g& M% |# \$ k3 c" Y

$ R, G' K/ |: j) s3 q' i$ I% ^
4 `5 I2 z( V0 ^/ f5 X; s% @關(guān)于我們:
; |2 D4 @' w' Q( q深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。: W, p' }. \- A% U/ e; Y  l

7 I, }1 f, Q, {7 X' z9 q6 hhttp://www.latitudeda.com/
% A! }. D8 L6 A(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)

發(fā)表回復(fù)

本版積分規(guī)則

關(guān)閉

站長(zhǎng)推薦上一條 /1 下一條


聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表