晶圓級引擎革新生成AI推理技術(shù)

逍遙設(shè)計自動化 · 發(fā)表于 2024-10-15 08:00:00

引言
在人工智能領(lǐng)域快速發(fā)展的今天，生成式AI已成為熱點話題。本文旨在幫助讀者了解晶圓級AI技術(shù)如何推動生成推理的革新。我們將深入探討Cerebras Systems公司的突破性技術(shù)，看它如何通過晶圓級引擎（Wafer-Scale Engine，WSE）實現(xiàn)超越GPU的驚人性能[1]。

Cerebras晶圓級引擎
Cerebras的核心創(chuàng)新在于其晶圓級引擎，這是迄今為止生產(chǎn)的最大芯片。

圖1：Cerebras晶圓級引擎與傳統(tǒng)GPU的尺寸對比，展示了其巨大規(guī)模。

最新的WSE-3具有以下令人印象深刻的規(guī)格：

4萬億晶體管

46,225平方毫米的硅面積

900,000個AI核心

125 Petaflops的AI計算能力

44 GB片上內(nèi)存

21 PB/s內(nèi)存帶寬

214 Pbit/s架構(gòu)帶寬

采用臺積電5nm工藝

這些規(guī)格遠(yuǎn)超最先進的GPU。與NVIDIA的H100相比，WSE-3具備：

57倍的芯片面積

52倍的核心數(shù)量

880倍的片上內(nèi)存

7,000倍的內(nèi)存帶寬

, l1 [: \1 M& c
內(nèi)存帶寬優(yōu)勢
限制生成推理速度的一個關(guān)鍵因素是內(nèi)存帶寬。傳統(tǒng)GPU架構(gòu)在這方面面臨瓶頸，因為生成令牌需要多次通過模型，每次都要從內(nèi)存中讀取所有參數(shù)。

圖2：Cerebras WSE-3與Nvidia H100的內(nèi)存帶寬對比，突顯了巨大差異。

Cerebras的晶圓級架構(gòu)提供了巨大的內(nèi)存帶寬優(yōu)勢：

WSE-3：21 PB/s

H100：0.003 PB/s

這7,000倍的內(nèi)存帶寬增加對生成推理性能產(chǎn)生了革命性影響。

晶圓級集成vs多GPU解決方案雖然多GPU解決方案試圖通過在單個服務(wù)器中集成多個GPU來聚合內(nèi)存帶寬，但這種方法存在顯著缺點：

圖3：多GPU和晶圓級集成的對比，展示了內(nèi)存帶寬、IO帶寬和功耗的差異。

晶圓級方法提供：

800倍的內(nèi)存帶寬

33倍的跨芯片IO

6倍低的功耗

此外，多GPU解決方案由于互連帶寬和延遲開銷而存在擴展效率問題。隨著GPU數(shù)量的增加，內(nèi)存帶寬利用率顯著下降。

圖4：圖表顯示了在DGX系統(tǒng)中增加GPU數(shù)量時內(nèi)存帶寬利用率的下降。

單芯片上的流水線執(zhí)行
Cerebras的巨大內(nèi)存帶寬實現(xiàn)了獨特的執(zhí)行模型：

圖5：晶圓級引擎上流水線執(zhí)行的圖示，展示了模型的不同層如何映射到芯片的各個區(qū)域。

在這個模型中：

模型層被映射到特定的晶圓區(qū)域

權(quán)重和KV緩存存儲在區(qū)域內(nèi)存中

每個晶圓區(qū)域一次處理一個令牌

相鄰區(qū)域?qū)崿F(xiàn)流水線階段之間的低延遲通信
[/ol]
這種方法允許極快的令牌生成，因為整個過程發(fā)生在單個芯片上，階段之間的延遲最小。
1 ?) m8 i t! {* O! X

大型模型的可擴展性
對于超出單個WSE容量的模型，Cerebras提供了可擴展解決方案：

圖6：圖表展示了如何將較大的模型映射到多個晶圓級引擎上。

通過將模型層分布在多個WSE上，Cerebras可以容納最大的語言模型，同時保持高性能。晶圓間通信經(jīng)過優(yōu)化，以最小化延遲和帶寬需求。

高吞吐量和低延遲
與GPU面臨延遲和吞吐量之間的權(quán)衡不同，Cerebras的架構(gòu)能夠同時實現(xiàn)高單用戶速度和高多用戶吞吐量：

圖7：GPU和Cerebras系統(tǒng)的延遲vs吞吐量權(quán)衡對比圖，顯示了Cerebras在這兩個指標(biāo)上的卓越性能。

WSE可以同時支持多個用戶，每個用戶并行訪問模型，而不會犧牲個人性能。這得益于晶圓上可用的大量內(nèi)存帶寬。

提示處理優(yōu)化
Cerebras通過高效的提示處理進一步優(yōu)化性能：

圖8：圖示展示了Cerebras如何通過同時利用多個流水線階段來優(yōu)化提示處理。

通過在不同流水線階段并行處理多個提示令牌，Cerebras實現(xiàn)了更高的單用戶提示速度并最大化吞吐量。

未來改進
Cerebras正在持續(xù)研究技術(shù)以改善性能并支持更大的模型：

推測性解碼

KV緩存優(yōu)化

量化

稀疏性

更多即將到來的技術(shù)

這些改進有望進一步推動AI性能的邊界。
7 h0 \! g# g% M# O- w

Cerebras推理服務(wù)
為使這一突破性技術(shù)更易獲取，Cerebras推出了推理服務(wù)：

圖9：Cerebras推理服務(wù)界面的截圖，顯示可用模型和定價層級。

該服務(wù)提供：

Llama3.1-8B，速度為1,800令牌/秒

Llama3.1-70B，速度為450令牌/秒

免費層每分鐘30個請求，每日100萬令牌限制

付費層提供有競爭力的定價

未來服務(wù)將增加更大的模型，如Llama-405B、Mistral Large 2、Cohere Command R，以及定制微調(diào)模型。

結(jié)論
Cerebras的晶圓級引擎技術(shù)代表了AI硬件的范式轉(zhuǎn)變，為生成推理提供了前所未有的性能。通過解決內(nèi)存帶寬瓶頸并在大規(guī)模上實現(xiàn)高效的流水線執(zhí)行，Cerebras正在為AI應(yīng)用開啟新的可能性。隨著技術(shù)的不斷發(fā)展，我們可以期待AI性能的進一步提升，為各行各業(yè)的更復(fù)雜和響應(yīng)更快的AI系統(tǒng)奠定基礎(chǔ)。

參考文獻
[1] S. Lie, "Wafer-Scale AI: GPU Impossible Performance," in Hot Chips 2024, 2024.

- END -

軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用，PIC Studio都可提升您的工作效能。
點擊左下角"閱讀原文"馬上申請

歡迎轉(zhuǎn)載

轉(zhuǎn)載請注明出處，請勿修改內(nèi)容和刪除作者信息！

7 }' T4 f- _& S" d3 x' C k& g

關(guān)注我們

i$ i8 n4 D4 U1 ?9 e

關(guān)于我們：
深圳逍遙科技有限公司（Latitude Design Automation Inc.）是一家專注于半導(dǎo)體芯片設(shè)計自動化（EDA）的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件，提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio，分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù)，廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作，推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展，致力于為客戶提供前沿技術(shù)與服務(wù)。

http://www.latitudeda.com/
（點擊上方名片關(guān)注我們，發(fā)現(xiàn)更多精彩內(nèi)容）

晶圓級引擎革新生成AI推理技術(shù)

發(fā)表回復(fù)

精選推薦