Hot Chips 2024 | 大語言模型時(shí)代的可持續(xù)AI計(jì)算解決方案

逍遙設(shè)計(jì)自動化 · 發(fā)表于昨天 08:00

引言
在人工智能領(lǐng)域快速發(fā)展的今天，對高效且強(qiáng)大的計(jì)算解決方案的需求前所未有地高漲。本文FuriosaAI開發(fā)的RNGD張量收縮處理器，這是突破性技術(shù)，旨在應(yīng)對大語言模型（LLMs）和生成式AI時(shí)代的可持續(xù)AI計(jì)算挑戰(zhàn)。

圖1：顯示FuriosaAI成立、RNGD開發(fā)里程碑和首次LLM演示的時(shí)間線。

RNGD處理器代表了AI加速技術(shù)的重大進(jìn)步。FuriosaAI的使命是"使AI計(jì)算可持續(xù)，讓地球上的每個(gè)人都能接觸到強(qiáng)大的AI"。為實(shí)現(xiàn)這一目標(biāo)，他們創(chuàng)造了一款在保持能源效率的同時(shí)還能提供出色性能的芯片。

讓我們深入了解RNGD處理器的主要特性：

圖2：RNGD處理器的詳細(xì)規(guī)格，包括FLOPS、內(nèi)存容量和功耗。

RNGD擁有512 TFLOPS的計(jì)算能力，這是通過8個(gè)處理元件實(shí)現(xiàn)的，每個(gè)元件能夠達(dá)到64 TFLOPS（FP8）。處理器配備了48 GB的內(nèi)存，其中包括256 MB的SRAM，并提供令人印象深刻的384 TB/s片上帶寬。借助兩個(gè)HBM3模塊，內(nèi)存帶寬達(dá)到1.5 TB/s。

RNGD的突出特點(diǎn)是能夠在150瓦功率范圍內(nèi)處理高性能LLM工作負(fù)載。這使得其適用于空氣冷卻的數(shù)據(jù)中心，有效解決了AI計(jì)算中日益增長的能源消耗問題。

圖3：RNGD芯片架構(gòu)的詳細(xì)視圖，包括SoC和HBM3組件。

RNGD采用臺積電5nm工藝技術(shù)，芯片面積為653 mm2，晶體管數(shù)量達(dá)400億。芯片設(shè)計(jì)使用了CoWoS-S（Chip-on-Wafer-on-Substrate with Silicon interposer）封裝技術(shù)，這種技術(shù)允許將SoC與兩個(gè)HBM3內(nèi)存堆棧集成在一起。

早期性能數(shù)據(jù)顯示了令人鼓舞的結(jié)果：

圖4：比較RNGD與NVIDIA L40S、Intel Gaudi 2和Google TPU v5e性能的表格。

根據(jù)這些初步基準(zhǔn)測試，在運(yùn)行GPT-J 6B MLPerf基準(zhǔn)測試場景時(shí)，RNGD的每瓦性能比NVIDIA L40S高出60%。

RNGD效率的關(guān)鍵在于其創(chuàng)新的張量收縮方法，這是深度學(xué)習(xí)模型中的核心計(jì)算。大多數(shù)商用深度學(xué)習(xí)加速器使用固定大小的矩陣乘法作為原語，而RNGD提高了硬件-軟件接口的層次，將整個(gè)張量收縮作為原語來加速。

圖5：圖解說明張量收縮是深度學(xué)習(xí)中的核心計(jì)算。

這種方法實(shí)現(xiàn)了更高的性能和能源效率，同時(shí)提供了支持所有深度學(xué)習(xí)模型的靈活性。RNGD引入了低級einsum記法作為原語，將張量收縮與顯式內(nèi)存布局和調(diào)度相結(jié)合。

圖6：說明RNGD如何將整個(gè)張量收縮作為單個(gè)原語操作處理。

RNGD的架構(gòu)能夠高效地進(jìn)行計(jì)算的空間和時(shí)間編排，提高了利用率和效率。這對推理任務(wù)尤為重要，因?yàn)橥评砣蝿?wù)的批處理大小可能會有很大變化。

圖7：RNGD處理器的詳細(xì)架構(gòu)圖，顯示互連網(wǎng)絡(luò)和處理元件。

為了支持大型模型的多卡配置，RNGD實(shí)現(xiàn)了基于PCIe的芯片間通信。這允許通過直接點(diǎn)對點(diǎn)通信減少卡之間的延遲。

圖8：展示多個(gè)RNGD卡與主機(jī)CPU之間基于PCIe的通信圖。

RNGD還支持SR-IOV（Single Root I/O Virtualization）多實(shí)例支持和虛擬化，允許虛擬機(jī)使用多達(dá)8個(gè)虛擬功能。

在軟件方面，F(xiàn)uriosaAI開發(fā)了全面的LLM軟件棧，以充分發(fā)揮RNGD硬件的潛力：

圖9：Furiosa LLM軟件棧的圖表，從PyTorch模型到RNGD硬件。

這個(gè)軟件棧包括PyTorch 2.0集成、支持各種精度格式（FP8、INT8等）的量化工具包、多卡上的張量/流水線/數(shù)據(jù)并行性、先進(jìn)的DNN編譯器，以及最先進(jìn)的服務(wù)優(yōu)化。

Furiosa編譯器在實(shí)現(xiàn)端到端模型效率方面發(fā)揮著關(guān)鍵作用：

圖10：顯示RNGD上優(yōu)化張量操作的編譯過程流程圖。

編譯器為給定的降維張量形狀找到最佳策略，使用性能和功率估算器來探索策略空間。此外，還執(zhí)行圖級優(yōu)化，如算子融合和內(nèi)存分配拆分合并調(diào)度。

為了最大化服務(wù)性能，F(xiàn)uriosaAI開發(fā)了實(shí)現(xiàn)先進(jìn)優(yōu)化的服務(wù)框架：

圖11：Furiosa服務(wù)框架圖，展示其組件和優(yōu)化。

該框架包括PagedAttention和分塊KV緩存管理，利用Furiosa編譯器和運(yùn)行時(shí)進(jìn)行高吞吐量服務(wù)，支持連續(xù)批處理。

為了高效量化，F(xiàn)uriosaAI提供了一個(gè)端到端的自動化量化工具：

圖12：Furiosa量化器概覽，這是自動化的基于圖的量化工具。

這個(gè)工具使用圖模式搜索支持任意定制的LLM模型，并提供各種量化方案，包括BF16、INT8、FP8和INT4選項(xiàng)。

RNGD的開發(fā)采用了先進(jìn)的方法和工具：

圖13：展示RNGD創(chuàng)建過程中使用的先進(jìn)開發(fā)方法的信息圖。

這些包括使用Rust和Chisel等高效語言，基于Kubernetes和Tekton CI的可擴(kuò)展工具和基礎(chǔ)設(shè)施，以及復(fù)雜的測試用例生成和驗(yàn)證流程。

RNGD張量收縮處理器代表了AI加速器技術(shù)的進(jìn)步。通過專注于可持續(xù)計(jì)算并利用創(chuàng)新的硬件和軟件優(yōu)化，F(xiàn)uriosaAI創(chuàng)造了強(qiáng)大的解決方案，適用于大語言模型和生成式AI時(shí)代。隨著對高效AI計(jì)算需求的持續(xù)增長，像RNGD這樣的技術(shù)將在使先進(jìn)AI能夠應(yīng)用于更廣泛的場景并服務(wù)于更多用戶方面發(fā)揮關(guān)鍵作用。
# O& O1 i0 t A9 l: B6 }4 V

參考文獻(xiàn)
[1] J. Paik, "RNGD – Tensor Contraction Processor for Sustainable AI Computing," FuriosaAI Inc., 2024.

- END -

軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用，PIC Studio都可提升您的工作效能。
點(diǎn)擊左下角"閱讀原文"馬上申請

歡迎轉(zhuǎn)載

轉(zhuǎn)載請注明出處，請勿修改內(nèi)容和刪除作者信息！

# J" Y; Y) H* [1 Q1 B/ P

關(guān)注我們

' t3 x/ j. `* a' g/ u( n0 N

關(guān)于我們：
深圳逍遙科技有限公司（Latitude Design Automation Inc.）是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動化（EDA）的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件，提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio，分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù)，廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作，推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展，致力于為客戶提供前沿技術(shù)與服務(wù)。

http://www.latitudeda.com/
（點(diǎn)擊上方名片關(guān)注我們，發(fā)現(xiàn)更多精彩內(nèi)容）

Hot Chips 2024 | 大語言模型時(shí)代的可持續(xù)AI計(jì)算解決方案

發(fā)表回復(fù)

精選推薦

站長推薦 /1