人工智能處理器架構(gòu)的演變：平衡速度與效率

逍遙設(shè)計自動化 · 發(fā)表于 2024-11-4 08:00:00

引言7 _3 B1 ~2 U4 @! U3 ~4 m. v

隨著人工智能領(lǐng)域的快速發(fā)展，處理器架構(gòu)正在經(jīng)歷重大變革。進(jìn)入2024年下半年，芯片設(shè)計的重點已從單純追求速度轉(zhuǎn)向在性能和效率之間取得微妙平衡。本文介紹AI處理器設(shè)計的最新趨勢，重點介紹領(lǐng)先芯片制造商為應(yīng)對可持續(xù)計算和異構(gòu)集成挑戰(zhàn)所采取的創(chuàng)新方法[1]。

可持續(xù)AI計算的需求
大型語言模型的爆炸性增長給數(shù)據(jù)中心和電網(wǎng)帶來了壓力。政府機(jī)構(gòu)和公用事業(yè)公司越來越關(guān)注處理這些龐大AI模型所需的能源消耗。因此，芯片制造商被迫重新思考AI處理器設(shè)計方法，從"盡可能快的芯片"心態(tài)轉(zhuǎn)向更平衡和可持續(xù)的策略。

圖1：AI模型在十年間的指數(shù)級增長，顯示模型規(guī)模和復(fù)雜度增加了70,000倍。

上圖展示了過去十年AI模型規(guī)模的驚人增長。隨著模型變得越來越復(fù)雜，具有數(shù)百萬甚至數(shù)十億參數(shù)，計算需求已經(jīng)飆升。這一趨勢清楚地表明，簡單地擴(kuò)展現(xiàn)有架構(gòu)不再是可行的解決方案。

AI處理器設(shè)計的關(guān)鍵趨勢
1. 異構(gòu)集成
AI處理器設(shè)計最顯著的轉(zhuǎn)變之一是向異構(gòu)集成的轉(zhuǎn)移。這種方法涉及在單個封裝中結(jié)合不同類型的專用處理元素，通常使用2.5D和3.5D集成等先進(jìn)封裝技術(shù)。

芯片制造商正在利用Chiplet技術(shù)創(chuàng)建更可定制和高效的設(shè)計。通過將單一芯片分解成更小、更專業(yè)的組件，制造商可以針對特定工作負(fù)載和數(shù)據(jù)類型優(yōu)化每個元素。這種方法不僅提高了每瓦性能，還允許更靈活地應(yīng)對多樣化的AI任務(wù)。

2. 智能數(shù)據(jù)管理
數(shù)據(jù)管理已成為現(xiàn)代AI處理器設(shè)計的核心焦點�？紤]到訓(xùn)練和推理涉及的大量數(shù)據(jù)，高效的數(shù)據(jù)移動和存儲對性能和能源效率都至關(guān)重要。

處理器現(xiàn)在包含復(fù)雜的數(shù)據(jù)管理系統(tǒng)，包括：

智能緩存策略

片上暫存器用于臨時數(shù)據(jù)存儲

統(tǒng)一內(nèi)存架構(gòu)

近內(nèi)存計算能力

這些功能有助于減少數(shù)據(jù)移動，而數(shù)據(jù)移動通常是AI計算中最耗能的方面之一。

3. 專用計算元素
AI處理器越來越多地包含各種專用計算元素，每種元素都針對AI工作負(fù)載中常見的特定類型操作進(jìn)行了優(yōu)化。這些可能包括：

矩陣乘法引擎（MME）

張量處理核心

深度學(xué)習(xí)核心

矢量處理單元

通過提供針對AI算法獨特計算模式量身定制的硬件，這些專用單元可以顯著提高性能和能源效率。

4. 先進(jìn)的內(nèi)存解決方案
內(nèi)存帶寬和容量是AI處理器性能的關(guān)鍵因素。最新設(shè)計正在整合先進(jìn)的內(nèi)存解決方案，如：

高帶寬內(nèi)存（HBM）

封裝上內(nèi)存配置

大型片上緩存

這些內(nèi)存創(chuàng)新有助于緩解瓶頸并減少處理元素與內(nèi)存之間數(shù)據(jù)移動的能源成本。

案例研究：領(lǐng)先的AI處理器設(shè)計
我們來看看最近Hot Chips 24會議上展示的一些尖端AI處理器設(shè)計，看看這些趨勢如何在實踐中實施。

IBM Telum處理器
IBM的Telum處理器展示了從原始性能到效率的轉(zhuǎn)變，即使在高性能大型機(jī)系統(tǒng)中也是如此。主要特點包括：

8個核心，運行頻率為5.5 GHz

10個36兆字節(jié)的L2緩存

新的加速器Chiplet

集成數(shù)據(jù)處理單元（DPU）用于高效I/O處理
[/ol]
DPU的包含特別值得注意，因為它充當(dāng)數(shù)據(jù)的智能交通控制器，將I/O管理的功耗降低了令人印象深刻的70%。

圖2：IBM新的Spyre加速器架構(gòu)，這是Telum處理器設(shè)計的一部分。

Spyre加速器架構(gòu)展示了IBM在大型機(jī)系統(tǒng)中為AI工作負(fù)載提供專用硬件的方法。

英特爾Gaudi 3
英特爾的Gaudi 3 AI訓(xùn)練加速器芯片展示了向異構(gòu)集成和專用計算元素的趨勢：

4個深度學(xué)習(xí)核心（DCORE）

8個HBM2e內(nèi)存堆棧

64個張量處理核心

可配置的矩陣乘法引擎

統(tǒng)一內(nèi)存空間，包括L2和L3緩存以及HBM

近內(nèi)存計算能力

圖3：英特爾Gaudi 3 AI加速器芯片的架構(gòu)。

Gaudi 3架構(gòu)展示了英特爾專注于在單個芯片封裝中提供各種專用計算元素和高效數(shù)據(jù)管理。

AMD MI300X
AMD的MI300X芯片專為大規(guī)模AI系統(tǒng)設(shè)計，體現(xiàn)了基于Chiplet的方法：

總共12個Chiplet

4個I/O裸片

8個加速器裸片

第四代Infinity架構(gòu)用于Chiplet間通信

HBM3內(nèi)存提供高帶寬

圖4：AMD基于Chiplet的MI300X AI芯片架構(gòu)。

MI300X設(shè)計展示了如何利用Chiplet技術(shù)創(chuàng)建高度集成和可擴(kuò)展的AI處理器。

邊緣AI處理器
雖然很多關(guān)注點都集中在數(shù)據(jù)中心AI上，但邊緣計算變得越來越重要。為邊緣AI應(yīng)用設(shè)計的處理器必須在性能、功耗效率和尺寸限制之間取得平衡。

高通的Oryon SoC
高通的Oryon SoC是一個邊緣AI處理器的例子，結(jié)合了我們討論過的許多趨勢：

三個CPU集群，每個包含四個核心

兩個集群用于性能，一個用于能源效率

復(fù)雜的微架構(gòu)，帶有8個基本解碼器

大型統(tǒng)一二級轉(zhuǎn)換緩沖區(qū)，用于高效內(nèi)存管理
[/ol]

圖5：高通Oryon SoC架構(gòu)，強(qiáng)調(diào)了邊緣AI應(yīng)用的效率和速度。

Oryon SoC展示了如何將異構(gòu)核心設(shè)計和先進(jìn)的內(nèi)存管理技術(shù)應(yīng)用于邊緣AI處理器。

FuriosaAI RNGD
韓國初創(chuàng)公司FuriosaAI開發(fā)了RNGD（發(fā)音為"Renegade"）芯片，用于邊緣推理：

張量收縮處理器設(shè)計

1.5 TB/秒的內(nèi)存帶寬

兩個HBM3堆棧

256 MB的SRAM

48 GB內(nèi)存容量

圖6：FuriosaAI的可持續(xù)邊緣推理芯片架構(gòu)RNGD。

RNGD芯片展示了初創(chuàng)公司如何在邊緣AI領(lǐng)域進(jìn)行創(chuàng)新，專注于推理任務(wù)的內(nèi)存帶寬和效率。

結(jié)論
AI處理器架構(gòu)的格局正在快速演變，驅(qū)動力是對更可持續(xù)和高效計算解決方案的需求。關(guān)鍵趨勢包括：

使用Chiplet技術(shù)的異構(gòu)集成

智能數(shù)據(jù)管理系統(tǒng)

為AI工作負(fù)載量身定制的專用計算元素

先進(jìn)的內(nèi)存解決方案，以提高帶寬并減少數(shù)據(jù)移動

AI處理器的成功將不僅取決于原始性能，還取決于在速度和能源效率之間取得平衡的能力。這種向可持續(xù)AI計算的轉(zhuǎn)變將需要芯片設(shè)計的持續(xù)創(chuàng)新，以及軟件優(yōu)化和系統(tǒng)級集成的改進(jìn)。

我們探討的來自IBM、英特爾、AMD、高通和FuriosaAI的例子表明，無論是老牌公司還是新入行者都在接受這些趨勢。AI繼續(xù)滲透到我們生活的各個方面，從數(shù)據(jù)中心到邊緣設(shè)備，這些架構(gòu)創(chuàng)新將在塑造人工智能和整個計算領(lǐng)域的未來中發(fā)揮關(guān)鍵作用。

參考文獻(xiàn)
[1] E. Sperling, "New AI Processors Architectures Balance Speed With Efficiency," Semiconductor Engineering, Sep. 4, 2024. [Online]. Available: https://semiengineering.com/new-ai-processors-architectures-balance-speed-with-efficiency/
END
' @7 Z* n; w4 o2 C

軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用，PIC Studio都可提升您的工作效能。
點擊左下角"閱讀原文"馬上申請

歡迎轉(zhuǎn)載

轉(zhuǎn)載請注明出處，請勿修改內(nèi)容和刪除作者信息！

, x$ o$ a% p! F! k. K

關(guān)注我們

; c2 T' F! }; ]( J, k. r

關(guān)于我們：
深圳逍遙科技有限公司（Latitude Design Automation Inc.）是一家專注于半導(dǎo)體芯片設(shè)計自動化（EDA）的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件，提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio，分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù)，廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作，推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展，致力于為客戶提供前沿技術(shù)與服務(wù)。

http://www.latitudeda.com/
（點擊上方名片關(guān)注我們，發(fā)現(xiàn)更多精彩內(nèi)容）

人工智能處理器架構(gòu)的演變：平衡速度與效率

發(fā)表回復(fù)

精選推薦