電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 24|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | 大語言模型時(shí)代的可持續(xù)AI計(jì)算解決方案

[復(fù)制鏈接]

437

主題

437

帖子

3131

積分

四級會員

Rank: 4

積分
3131
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 昨天 08:00 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |正序?yàn)g覽 |閱讀模式
引言
# t( c/ f5 C" O在人工智能領(lǐng)域快速發(fā)展的今天,對高效且強(qiáng)大的計(jì)算解決方案的需求前所未有地高漲。本文FuriosaAI開發(fā)的RNGD張量收縮處理器,這是突破性技術(shù),旨在應(yīng)對大語言模型(LLMs)和生成式AI時(shí)代的可持續(xù)AI計(jì)算挑戰(zhàn)。$ `. q$ |, I. B

! s$ m# O( \, O& L% I" H0 s3 `9 b圖1:顯示FuriosaAI成立、RNGD開發(fā)里程碑和首次LLM演示的時(shí)間線。4 n+ @; g' j+ o* s
' W) m7 A9 z2 o# {: E- }+ H! D* q0 ~% j" N
RNGD處理器代表了AI加速技術(shù)的重大進(jìn)步。FuriosaAI的使命是"使AI計(jì)算可持續(xù),讓地球上的每個(gè)人都能接觸到強(qiáng)大的AI"。為實(shí)現(xiàn)這一目標(biāo),他們創(chuàng)造了一款在保持能源效率的同時(shí)還能提供出色性能的芯片。
0 Z9 C& V1 Z' h* F. a5 @$ q
2 ?. C+ b9 P; k* M2 d9 Y7 M7 w+ Z讓我們深入了解RNGD處理器的主要特性:* K/ ]$ T( I4 e& H) c- ~# E1 D
% B) F# P1 a4 u7 a0 q9 }7 n
圖2:RNGD處理器的詳細(xì)規(guī)格,包括FLOPS、內(nèi)存容量和功耗。
3 m) d* d0 {( B5 q: z( o5 {* X# Y$ k7 ^( d, ^
RNGD擁有512 TFLOPS的計(jì)算能力,這是通過8個(gè)處理元件實(shí)現(xiàn)的,每個(gè)元件能夠達(dá)到64 TFLOPS(FP8)。處理器配備了48 GB的內(nèi)存,其中包括256 MB的SRAM,并提供令人印象深刻的384 TB/s片上帶寬。借助兩個(gè)HBM3模塊,內(nèi)存帶寬達(dá)到1.5 TB/s。
' R: d6 h4 d3 E, \* u9 V; n/ ]$ c* |' D: N8 ~$ C+ K+ r
RNGD的突出特點(diǎn)是能夠在150瓦功率范圍內(nèi)處理高性能LLM工作負(fù)載。這使得其適用于空氣冷卻的數(shù)據(jù)中心,有效解決了AI計(jì)算中日益增長的能源消耗問題。2 A( m! k0 L2 e: C5 _2 Z! g
0 a; f: K/ f6 L' T- w1 C6 c
圖3:RNGD芯片架構(gòu)的詳細(xì)視圖,包括SoC和HBM3組件。2 Y$ [* e8 W. X1 g- J
( p8 A( |4 h$ Z+ u+ c2 W
RNGD采用臺積電5nm工藝技術(shù),芯片面積為653 mm2,晶體管數(shù)量達(dá)400億。芯片設(shè)計(jì)使用了CoWoS-S(Chip-on-Wafer-on-Substrate with Silicon interposer)封裝技術(shù),這種技術(shù)允許將SoC與兩個(gè)HBM3內(nèi)存堆棧集成在一起。
2 m1 G; I% B2 `& e; @8 Q( l
# p8 F: k. U" b/ i早期性能數(shù)據(jù)顯示了令人鼓舞的結(jié)果:
- b. l( v5 P; `$ i# f/ B
. S/ h# L! t( H1 {' `, Y  w1 _圖4:比較RNGD與NVIDIA L40S、Intel Gaudi 2和Google TPU v5e性能的表格。& g, V$ F. n! U, G

$ t. t. `' ^  W  {- t2 E根據(jù)這些初步基準(zhǔn)測試,在運(yùn)行GPT-J 6B MLPerf基準(zhǔn)測試場景時(shí),RNGD的每瓦性能比NVIDIA L40S高出60%。
  M8 k7 D6 C# o/ u0 p+ t/ ^$ P7 T( ^3 N1 E
RNGD效率的關(guān)鍵在于其創(chuàng)新的張量收縮方法,這是深度學(xué)習(xí)模型中的核心計(jì)算。大多數(shù)商用深度學(xué)習(xí)加速器使用固定大小的矩陣乘法作為原語,而RNGD提高了硬件-軟件接口的層次,將整個(gè)張量收縮作為原語來加速。
5 y1 p! `( q4 D4 j! x' ^& O# |
3 h$ h; D) y% q圖5:圖解說明張量收縮是深度學(xué)習(xí)中的核心計(jì)算。' s( ?: o9 c" K# U+ L
4 y$ C9 Q# m0 R. p% N
這種方法實(shí)現(xiàn)了更高的性能和能源效率,同時(shí)提供了支持所有深度學(xué)習(xí)模型的靈活性。RNGD引入了低級einsum記法作為原語,將張量收縮與顯式內(nèi)存布局和調(diào)度相結(jié)合。. B  ?# ^; w' K

$ Z- S5 q& }1 J; e圖6:說明RNGD如何將整個(gè)張量收縮作為單個(gè)原語操作處理。
1 V( Y" v3 I7 l' X$ I. p$ ^3 ~- d& n# B- n! B
RNGD的架構(gòu)能夠高效地進(jìn)行計(jì)算的空間和時(shí)間編排,提高了利用率和效率。這對推理任務(wù)尤為重要,因?yàn)橥评砣蝿?wù)的批處理大小可能會有很大變化。
7 I2 n, i1 a. y2 k6 I
# w% [5 @# N+ L- f圖7:RNGD處理器的詳細(xì)架構(gòu)圖,顯示互連網(wǎng)絡(luò)和處理元件。
7 Z: X& _4 `- B, a" n& w% U- P: H9 q. R- ?
為了支持大型模型的多卡配置,RNGD實(shí)現(xiàn)了基于PCIe的芯片間通信。這允許通過直接點(diǎn)對點(diǎn)通信減少卡之間的延遲。
$ n  j+ O3 ]4 \8 k6 ]3 Y0 a; B" h" Q
- b% D4 }# q9 L5 I圖8:展示多個(gè)RNGD卡與主機(jī)CPU之間基于PCIe的通信圖。
+ d# b1 L: f% ^: i0 j  i8 d% G8 H: j  l" x' v/ E, `( l
RNGD還支持SR-IOV(Single Root I/O Virtualization)多實(shí)例支持和虛擬化,允許虛擬機(jī)使用多達(dá)8個(gè)虛擬功能。0 g6 i# i+ t. o, _' K) @
; {1 f9 A2 l8 d9 G2 I
在軟件方面,F(xiàn)uriosaAI開發(fā)了全面的LLM軟件棧,以充分發(fā)揮RNGD硬件的潛力:
3 `2 c. o% W4 X0 f  t
+ e. w2 E5 U6 p/ q圖9:Furiosa LLM軟件棧的圖表,從PyTorch模型到RNGD硬件。
4 E$ U/ W# k) f, t$ f' W( r; v% _( j' u& H, f. k/ M2 Y
這個(gè)軟件棧包括PyTorch 2.0集成、支持各種精度格式(FP8、INT8等)的量化工具包、多卡上的張量/流水線/數(shù)據(jù)并行性、先進(jìn)的DNN編譯器,以及最先進(jìn)的服務(wù)優(yōu)化。
% ?, m2 n* ^" ^+ u/ Q2 \5 ^& }& w  z6 l0 |3 [# J
Furiosa編譯器在實(shí)現(xiàn)端到端模型效率方面發(fā)揮著關(guān)鍵作用:
& O% d: U3 t- M  k% S% ?' _
; h; \  @6 E$ E7 |2 \6 N2 T圖10:顯示RNGD上優(yōu)化張量操作的編譯過程流程圖。
6 [& p# ~8 Q" H. }6 D$ L9 U
/ U: N( t! W0 p8 r編譯器為給定的降維張量形狀找到最佳策略,使用性能和功率估算器來探索策略空間。此外,還執(zhí)行圖級優(yōu)化,如算子融合和內(nèi)存分配拆分合并調(diào)度。
: U. ~! z( ]1 v2 x1 v6 C) t* u$ A! _  N
為了最大化服務(wù)性能,F(xiàn)uriosaAI開發(fā)了實(shí)現(xiàn)先進(jìn)優(yōu)化的服務(wù)框架:  `7 L# ]) V& e

8 V  l, r9 r5 A圖11:Furiosa服務(wù)框架圖,展示其組件和優(yōu)化。
1 ~& U' y$ q; s  k% A
! [) T; p3 {7 C+ z該框架包括PagedAttention和分塊KV緩存管理,利用Furiosa編譯器和運(yùn)行時(shí)進(jìn)行高吞吐量服務(wù),支持連續(xù)批處理。& Z2 o8 L; b' M1 {5 N' |+ u
0 `7 t' M! @( R0 y* j6 @
為了高效量化,F(xiàn)uriosaAI提供了一個(gè)端到端的自動化量化工具:
  f% A; F' j* e' ^; O; K* I) m
  f* p' P- A7 a( ^  s圖12:Furiosa量化器概覽,這是自動化的基于圖的量化工具。9 F6 r/ K  v' K1 m% p# P

, P  b* H( _" D* T這個(gè)工具使用圖模式搜索支持任意定制的LLM模型,并提供各種量化方案,包括BF16、INT8、FP8和INT4選項(xiàng)。1 P! S; o3 b; N/ S  E
8 k- k$ O- N4 Y9 h' _4 M$ {8 Q
RNGD的開發(fā)采用了先進(jìn)的方法和工具:& @$ J5 X* a# L2 v1 G

; _0 {$ ~0 w. p% V- Q圖13:展示RNGD創(chuàng)建過程中使用的先進(jìn)開發(fā)方法的信息圖。
# i3 I# Y* h2 T) l  n: }$ Q- a% R+ M4 v
這些包括使用Rust和Chisel等高效語言,基于Kubernetes和Tekton CI的可擴(kuò)展工具和基礎(chǔ)設(shè)施,以及復(fù)雜的測試用例生成和驗(yàn)證流程。- |0 g: C/ g1 m# b1 d
& n9 i2 r! s& J/ k
RNGD張量收縮處理器代表了AI加速器技術(shù)的進(jìn)步。通過專注于可持續(xù)計(jì)算并利用創(chuàng)新的硬件和軟件優(yōu)化,F(xiàn)uriosaAI創(chuàng)造了強(qiáng)大的解決方案,適用于大語言模型和生成式AI時(shí)代。隨著對高效AI計(jì)算需求的持續(xù)增長,像RNGD這樣的技術(shù)將在使先進(jìn)AI能夠應(yīng)用于更廣泛的場景并服務(wù)于更多用戶方面發(fā)揮關(guān)鍵作用。
; z1 k7 l5 h( G  e% G# O& O1 i0 t  A9 l: B6 }4 V

4 i5 k1 o3 g) z9 x. c: ?. d參考文獻(xiàn)
( W/ v- I, f! o; G6 y' b[1] J. Paik, "RNGD – Tensor Contraction Processor for Sustainable AI Computing," FuriosaAI Inc., 2024.
( G1 [) e+ P! K0 C* G1 j* w( d
' F; O8 B: A( h/ ~" z- c, F- END -
  ]% G  G  Z* k4 C' ~& a: r0 r, d) z# D& T, i
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。& a5 f0 Q- T& D
點(diǎn)擊左下角"閱讀原文"馬上申請, F. m! F) N4 J- E3 s0 t; U5 B
& F3 u2 D) ?3 l3 k; I9 l+ p4 g
歡迎轉(zhuǎn)載/ k  `7 ]5 a& k) p; r% v; o8 K
7 U) r3 c) J. r) g# E: }
轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!0 {& D+ G4 m+ M# g# o' O

" H2 m  W6 M7 f# J" Y; Y) H* [1 Q1 B/ P

2 a4 |( i7 t& _, _: f1 e9 ?
' N; j2 v. g& p( Q) R/ L& j# `$ a, K
關(guān)注我們  \9 x5 Z7 @7 K" l
- t8 a. s/ ?" G/ r$ D* n7 c4 @1 @# J! ~
) U; j! m4 d& c7 y( }
: H) U6 {! N- l( L9 g& S5 _# c
) u; n  p% k8 O" w% {- h6 t

% r- y* s0 y6 T) g

5 o& g/ G. L: j: _$ ^- p+ N" z6 R+ R& n 9 \  b; l8 ]( f. l3 q, y7 [3 l
                     
/ S& }$ @0 ^) M' t3 x/ j. `* a' g/ u( n0 N

9 k5 D( [) d9 L$ u% T5 w  W. T3 W; u
關(guān)于我們:, z& f5 t, A8 h# e) t
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
' C6 ]6 z$ [3 _$ }2 \$ Z! z; ^) w1 b$ q) v. a3 Q$ [
http://www.latitudeda.com/
# C( l& u# q9 I# K(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)

發(fā)表回復(fù)

您需要登錄后才可以回帖 登錄 | 立即注冊

本版積分規(guī)則

關(guān)閉

站長推薦上一條 /1 下一條


聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表