電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 15|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | 大語言模型時代的可持續(xù)AI計算解決方案

[復(fù)制鏈接]

437

主題

437

帖子

3131

積分

四級會員

Rank: 4

積分
3131
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 昨天 08:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言5 y; G% P" Y. o8 N
在人工智能領(lǐng)域快速發(fā)展的今天,對高效且強大的計算解決方案的需求前所未有地高漲。本文FuriosaAI開發(fā)的RNGD張量收縮處理器,這是突破性技術(shù),旨在應(yīng)對大語言模型(LLMs)和生成式AI時代的可持續(xù)AI計算挑戰(zhàn)。0 r- u# ~# m5 e; \0 k( v. n
5 z# z# I6 |& m6 n2 ]
圖1:顯示FuriosaAI成立、RNGD開發(fā)里程碑和首次LLM演示的時間線。
- |4 R8 `4 C! ~
& p3 X; L& `$ \- |2 T# i% t" NRNGD處理器代表了AI加速技術(shù)的重大進(jìn)步。FuriosaAI的使命是"使AI計算可持續(xù),讓地球上的每個人都能接觸到強大的AI"。為實現(xiàn)這一目標(biāo),他們創(chuàng)造了一款在保持能源效率的同時還能提供出色性能的芯片。
. S% A9 @6 I' A* y4 _3 Y/ M5 ^7 ]7 D- z0 H
讓我們深入了解RNGD處理器的主要特性:9 {% p1 H+ l- T2 F- A$ D* q5 v

+ a; F/ x2 u# y7 W5 U+ U6 O圖2:RNGD處理器的詳細(xì)規(guī)格,包括FLOPS、內(nèi)存容量和功耗。' ~2 a6 d2 k% w& _& o' u
: ~  u2 d# b7 L4 q
RNGD擁有512 TFLOPS的計算能力,這是通過8個處理元件實現(xiàn)的,每個元件能夠達(dá)到64 TFLOPS(FP8)。處理器配備了48 GB的內(nèi)存,其中包括256 MB的SRAM,并提供令人印象深刻的384 TB/s片上帶寬。借助兩個HBM3模塊,內(nèi)存帶寬達(dá)到1.5 TB/s。% `8 p6 f1 m+ ^6 I
: S% m3 H& I# }! x' K4 G5 n0 ?6 Y( y
RNGD的突出特點是能夠在150瓦功率范圍內(nèi)處理高性能LLM工作負(fù)載。這使得其適用于空氣冷卻的數(shù)據(jù)中心,有效解決了AI計算中日益增長的能源消耗問題。; _: t1 {& i' K7 Y7 `" m

  I' e1 ?5 |) ~圖3:RNGD芯片架構(gòu)的詳細(xì)視圖,包括SoC和HBM3組件。
  M5 I0 v+ E2 L& T% i- @" f! S+ L) q" l! K7 m
RNGD采用臺積電5nm工藝技術(shù),芯片面積為653 mm2,晶體管數(shù)量達(dá)400億。芯片設(shè)計使用了CoWoS-S(Chip-on-Wafer-on-Substrate with Silicon interposer)封裝技術(shù),這種技術(shù)允許將SoC與兩個HBM3內(nèi)存堆棧集成在一起。7 Y* s" r/ T8 ~0 z4 A
9 y  L; X' w2 m
早期性能數(shù)據(jù)顯示了令人鼓舞的結(jié)果:
; p& X  o" i0 X: J
3 ~9 Y  e& k" `% g圖4:比較RNGD與NVIDIA L40S、Intel Gaudi 2和Google TPU v5e性能的表格。
6 Z1 j6 x& r2 H9 z9 h$ _1 ?" y7 A* D0 ^6 b
根據(jù)這些初步基準(zhǔn)測試,在運行GPT-J 6B MLPerf基準(zhǔn)測試場景時,RNGD的每瓦性能比NVIDIA L40S高出60%。
0 m2 l- o( T# l' t: o* [# ]5 m8 P; R! |4 j
RNGD效率的關(guān)鍵在于其創(chuàng)新的張量收縮方法,這是深度學(xué)習(xí)模型中的核心計算。大多數(shù)商用深度學(xué)習(xí)加速器使用固定大小的矩陣乘法作為原語,而RNGD提高了硬件-軟件接口的層次,將整個張量收縮作為原語來加速。
0 x) z8 W+ A' \5 }' S) N8 t; E
! w1 `2 }0 Q9 q3 E) k圖5:圖解說明張量收縮是深度學(xué)習(xí)中的核心計算。
3 A' A2 R: Q4 m) e2 ~; N7 y* p# K8 q7 X1 ^4 {. v# D
這種方法實現(xiàn)了更高的性能和能源效率,同時提供了支持所有深度學(xué)習(xí)模型的靈活性。RNGD引入了低級einsum記法作為原語,將張量收縮與顯式內(nèi)存布局和調(diào)度相結(jié)合。
7 ]/ J! ~! v3 Z: @: R1 l ' T& \8 p1 {8 v- I1 n' ]
圖6:說明RNGD如何將整個張量收縮作為單個原語操作處理。# ]" r* i1 v. g% z
* ~4 c/ Q6 d& U1 ]0 |! ~
RNGD的架構(gòu)能夠高效地進(jìn)行計算的空間和時間編排,提高了利用率和效率。這對推理任務(wù)尤為重要,因為推理任務(wù)的批處理大小可能會有很大變化。4 V/ R, L2 R1 i% r( J$ h6 `8 o
, s" O, W+ I) L) M% `4 A
圖7:RNGD處理器的詳細(xì)架構(gòu)圖,顯示互連網(wǎng)絡(luò)和處理元件。/ L: r. M% e! O1 k% H* N

/ q" X+ ?; o6 J5 m2 N# u& [) _5 }為了支持大型模型的多卡配置,RNGD實現(xiàn)了基于PCIe的芯片間通信。這允許通過直接點對點通信減少卡之間的延遲。/ f6 F  W# J2 w5 i2 Q1 I# ^

# g# t* ^& [4 Y- o" }% c圖8:展示多個RNGD卡與主機(jī)CPU之間基于PCIe的通信圖。1 Y5 D+ v6 T6 w6 h* }
; q, F9 H/ I" K( x4 ]- _5 |
RNGD還支持SR-IOV(Single Root I/O Virtualization)多實例支持和虛擬化,允許虛擬機(jī)使用多達(dá)8個虛擬功能。
% S+ I2 f' {, S4 S! }2 \: i& T/ i- k( f0 z& V
在軟件方面,F(xiàn)uriosaAI開發(fā)了全面的LLM軟件棧,以充分發(fā)揮RNGD硬件的潛力:* M; q" B8 V; ~7 k
4 `7 q1 ]( a+ C( I
圖9:Furiosa LLM軟件棧的圖表,從PyTorch模型到RNGD硬件。
5 [  X& z. _; E6 j$ n2 ~. ~
- p( k; W8 t1 m! s這個軟件棧包括PyTorch 2.0集成、支持各種精度格式(FP8、INT8等)的量化工具包、多卡上的張量/流水線/數(shù)據(jù)并行性、先進(jìn)的DNN編譯器,以及最先進(jìn)的服務(wù)優(yōu)化。" I3 @0 q' J/ Z) v& S+ P$ Y

0 j( D' i0 R2 o2 mFuriosa編譯器在實現(xiàn)端到端模型效率方面發(fā)揮著關(guān)鍵作用:
; r% D# r; J4 [# ^  }0 ]+ B" S # Q# L) q  I9 d% z. F7 j
圖10:顯示RNGD上優(yōu)化張量操作的編譯過程流程圖。) N! j2 U  H0 ~2 q- b. M9 n
: _4 X4 D5 F2 M& {- h( v; D
編譯器為給定的降維張量形狀找到最佳策略,使用性能和功率估算器來探索策略空間。此外,還執(zhí)行圖級優(yōu)化,如算子融合和內(nèi)存分配拆分合并調(diào)度。
* V$ ^) u$ F. b5 Z  n9 p' A
* l& }! |, `  D, b/ B' a為了最大化服務(wù)性能,F(xiàn)uriosaAI開發(fā)了實現(xiàn)先進(jìn)優(yōu)化的服務(wù)框架:0 Z) _5 O% C# Z, C

+ ]/ J5 }! N7 B) _. z/ {圖11:Furiosa服務(wù)框架圖,展示其組件和優(yōu)化。
6 @6 x9 K, x7 l, Q; B* a9 h8 ]* N1 p: l) s. k
該框架包括PagedAttention和分塊KV緩存管理,利用Furiosa編譯器和運行時進(jìn)行高吞吐量服務(wù),支持連續(xù)批處理。
  Y4 U2 Y! q! l' v4 o
3 ]) V, U6 [0 C' g2 a為了高效量化,F(xiàn)uriosaAI提供了一個端到端的自動化量化工具:, }0 g7 h4 i0 l3 z# A. @
! M- Y$ ?" m9 J
圖12:Furiosa量化器概覽,這是自動化的基于圖的量化工具。
" l3 W9 u/ H9 s& J4 K6 ]. U  I1 k) P+ k) o
這個工具使用圖模式搜索支持任意定制的LLM模型,并提供各種量化方案,包括BF16、INT8、FP8和INT4選項。
) a) u( [% W: T  N: K" Q( J
% L: c. h5 Z: m6 n6 V$ ]% xRNGD的開發(fā)采用了先進(jìn)的方法和工具:  I  q  u* o/ v' J# t0 n( Q" X

! C6 _- o+ {+ v4 b0 J! n7 ~圖13:展示RNGD創(chuàng)建過程中使用的先進(jìn)開發(fā)方法的信息圖。! F& S# ^3 L: j% h% U5 u% f! J
. O! P# _6 V1 `
這些包括使用Rust和Chisel等高效語言,基于Kubernetes和Tekton CI的可擴(kuò)展工具和基礎(chǔ)設(shè)施,以及復(fù)雜的測試用例生成和驗證流程。
+ H- `7 Y4 K: h0 z# z8 N
7 X$ V, o% a$ y$ t+ x2 tRNGD張量收縮處理器代表了AI加速器技術(shù)的進(jìn)步。通過專注于可持續(xù)計算并利用創(chuàng)新的硬件和軟件優(yōu)化,F(xiàn)uriosaAI創(chuàng)造了強大的解決方案,適用于大語言模型和生成式AI時代。隨著對高效AI計算需求的持續(xù)增長,像RNGD這樣的技術(shù)將在使先進(jìn)AI能夠應(yīng)用于更廣泛的場景并服務(wù)于更多用戶方面發(fā)揮關(guān)鍵作用。; O5 z& v0 Q+ F6 D" f
6 f8 [, \1 E: |& B! a* s9 K% G
0 R1 A" ~& X/ d3 p
參考文獻(xiàn). I/ j$ {8 J' I- V5 B8 f3 U
[1] J. Paik, "RNGD – Tensor Contraction Processor for Sustainable AI Computing," FuriosaAI Inc., 2024.
0 @( I( X* e% ~) [" R/ V( R& w& j$ u" W2 t( j" G/ b
- END -
7 m& W' a( G6 p5 Z- d8 e
9 w. J" ^1 w9 ^/ d軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
8 H1 H! M7 @6 G/ a, }點擊左下角"閱讀原文"馬上申請2 |, l, V. f& W. ]$ I6 P

! e. W0 O$ C( z' l( @6 P歡迎轉(zhuǎn)載
* E) N8 T7 h0 v" w3 I  ^: Z/ X6 c1 T) G  Q( F4 g. A
轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!8 S8 x* q/ K" g: {. F

. s' N. k4 o; a9 K8 Z
# c4 |# B) D# n& y8 u1 ?

5 y% Q4 X9 d; i3 |% w1 V
  r7 v# i2 m7 P9 `' [! _% q1 m; ?. A0 _1 q7 e
關(guān)注我們, @  K% h4 C# R
; `* z& S# @  i9 h, J

% T; L+ P5 H2 X. }( } 0 Q3 l8 G! Y, t7 C+ K! R5 l* o
$ z+ R4 g8 [# F4 O& |9 T5 p
; L8 j! J5 J; S7 M" [' I# p! f

( _( Y9 }' {1 R" D % ?  x' i1 b, u' q, q0 N* N
                     
8 ~- ?+ j( z4 j; q/ y3 _4 L/ g; E+ u

! z( O6 ]) W6 q+ v; i9 k) u3 a0 l( _! D7 j" c
關(guān)于我們:
: S: w9 `7 ]8 X( w% P# e深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。: _5 s# _& a- U7 ]( h
; ?' G4 s- y7 f* \% }$ W+ A1 G
http://www.latitudeda.com/. x1 W# q( e2 O( i3 g
(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
回復(fù)

使用道具 舉報

發(fā)表回復(fù)

您需要登錄后才可以回帖 登錄 | 立即注冊

本版積分規(guī)則

關(guān)閉

站長推薦上一條 /1 下一條


聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表