人工智能處理器架構的演變：平衡速度與效率

逍遙設計自動化 · 發(fā)表于 2024-11-4 08:00:00

引言/ N$ w# g: N) A6 z

隨著人工智能領域的快速發(fā)展，處理器架構正在經(jīng)歷重大變革。進入2024年下半年，芯片設計的重點已從單純追求速度轉向在性能和效率之間取得微妙平衡。本文介紹AI處理器設計的最新趨勢，重點介紹領先芯片制造商為應對可持續(xù)計算和異構集成挑戰(zhàn)所采取的創(chuàng)新方法[1]。

可持續(xù)AI計算的需求
大型語言模型的爆炸性增長給數(shù)據(jù)中心和電網(wǎng)帶來了壓力。政府機構和公用事業(yè)公司越來越關注處理這些龐大AI模型所需的能源消耗。因此，芯片制造商被迫重新思考AI處理器設計方法，從"盡可能快的芯片"心態(tài)轉向更平衡和可持續(xù)的策略。

圖1：AI模型在十年間的指數(shù)級增長，顯示模型規(guī)模和復雜度增加了70,000倍。

上圖展示了過去十年AI模型規(guī)模的驚人增長。隨著模型變得越來越復雜，具有數(shù)百萬甚至數(shù)十億參數(shù)，計算需求已經(jīng)飆升。這一趨勢清楚地表明，簡單地擴展現(xiàn)有架構不再是可行的解決方案。

AI處理器設計的關鍵趨勢
1. 異構集成
AI處理器設計最顯著的轉變之一是向異構集成的轉移。這種方法涉及在單個封裝中結合不同類型的專用處理元素，通常使用2.5D和3.5D集成等先進封裝技術。

芯片制造商正在利用Chiplet技術創(chuàng)建更可定制和高效的設計。通過將單一芯片分解成更小、更專業(yè)的組件，制造商可以針對特定工作負載和數(shù)據(jù)類型優(yōu)化每個元素。這種方法不僅提高了每瓦性能，還允許更靈活地應對多樣化的AI任務。

2. 智能數(shù)據(jù)管理
數(shù)據(jù)管理已成為現(xiàn)代AI處理器設計的核心焦點。考慮到訓練和推理涉及的大量數(shù)據(jù)，高效的數(shù)據(jù)移動和存儲對性能和能源效率都至關重要。

處理器現(xiàn)在包含復雜的數(shù)據(jù)管理系統(tǒng)，包括：

智能緩存策略

片上暫存器用于臨時數(shù)據(jù)存儲

統(tǒng)一內(nèi)存架構

近內(nèi)存計算能力

這些功能有助于減少數(shù)據(jù)移動，而數(shù)據(jù)移動通常是AI計算中最耗能的方面之一。

3. 專用計算元素
AI處理器越來越多地包含各種專用計算元素，每種元素都針對AI工作負載中常見的特定類型操作進行了優(yōu)化。這些可能包括：

矩陣乘法引擎（MME）

張量處理核心

深度學習核心

矢量處理單元

通過提供針對AI算法獨特計算模式量身定制的硬件，這些專用單元可以顯著提高性能和能源效率。

4. 先進的內(nèi)存解決方案
內(nèi)存帶寬和容量是AI處理器性能的關鍵因素。最新設計正在整合先進的內(nèi)存解決方案，如：

高帶寬內(nèi)存（HBM）

封裝上內(nèi)存配置

大型片上緩存

這些內(nèi)存創(chuàng)新有助于緩解瓶頸并減少處理元素與內(nèi)存之間數(shù)據(jù)移動的能源成本。

案例研究：領先的AI處理器設計
我們來看看最近Hot Chips 24會議上展示的一些尖端AI處理器設計，看看這些趨勢如何在實踐中實施。

IBM Telum處理器
IBM的Telum處理器展示了從原始性能到效率的轉變，即使在高性能大型機系統(tǒng)中也是如此。主要特點包括：

8個核心，運行頻率為5.5 GHz

10個36兆字節(jié)的L2緩存

新的加速器Chiplet

集成數(shù)據(jù)處理單元（DPU）用于高效I/O處理
[/ol]
DPU的包含特別值得注意，因為它充當數(shù)據(jù)的智能交通控制器，將I/O管理的功耗降低了令人印象深刻的70%。

圖2：IBM新的Spyre加速器架構，這是Telum處理器設計的一部分。

Spyre加速器架構展示了IBM在大型機系統(tǒng)中為AI工作負載提供專用硬件的方法。

英特爾Gaudi 3
英特爾的Gaudi 3 AI訓練加速器芯片展示了向異構集成和專用計算元素的趨勢：

4個深度學習核心（DCORE）

8個HBM2e內(nèi)存堆棧

64個張量處理核心

可配置的矩陣乘法引擎

統(tǒng)一內(nèi)存空間，包括L2和L3緩存以及HBM

近內(nèi)存計算能力

圖3：英特爾Gaudi 3 AI加速器芯片的架構。

Gaudi 3架構展示了英特爾專注于在單個芯片封裝中提供各種專用計算元素和高效數(shù)據(jù)管理。

AMD MI300X
AMD的MI300X芯片專為大規(guī)模AI系統(tǒng)設計，體現(xiàn)了基于Chiplet的方法：

總共12個Chiplet

4個I/O裸片

8個加速器裸片

第四代Infinity架構用于Chiplet間通信

HBM3內(nèi)存提供高帶寬

圖4：AMD基于Chiplet的MI300X AI芯片架構。

MI300X設計展示了如何利用Chiplet技術創(chuàng)建高度集成和可擴展的AI處理器。

邊緣AI處理器
雖然很多關注點都集中在數(shù)據(jù)中心AI上，但邊緣計算變得越來越重要。為邊緣AI應用設計的處理器必須在性能、功耗效率和尺寸限制之間取得平衡。

高通的Oryon SoC
高通的Oryon SoC是一個邊緣AI處理器的例子，結合了我們討論過的許多趨勢：

三個CPU集群，每個包含四個核心

兩個集群用于性能，一個用于能源效率

復雜的微架構，帶有8個基本解碼器

大型統(tǒng)一二級轉換緩沖區(qū)，用于高效內(nèi)存管理
[/ol]

圖5：高通Oryon SoC架構，強調(diào)了邊緣AI應用的效率和速度。

Oryon SoC展示了如何將異構核心設計和先進的內(nèi)存管理技術應用于邊緣AI處理器。

FuriosaAI RNGD
韓國初創(chuàng)公司FuriosaAI開發(fā)了RNGD（發(fā)音為"Renegade"）芯片，用于邊緣推理：

張量收縮處理器設計

1.5 TB/秒的內(nèi)存帶寬

兩個HBM3堆棧

256 MB的SRAM

48 GB內(nèi)存容量

圖6：FuriosaAI的可持續(xù)邊緣推理芯片架構RNGD。

RNGD芯片展示了初創(chuàng)公司如何在邊緣AI領域進行創(chuàng)新，專注于推理任務的內(nèi)存帶寬和效率。

結論
AI處理器架構的格局正在快速演變，驅(qū)動力是對更可持續(xù)和高效計算解決方案的需求。關鍵趨勢包括：

使用Chiplet技術的異構集成

智能數(shù)據(jù)管理系統(tǒng)

為AI工作負載量身定制的專用計算元素

先進的內(nèi)存解決方案，以提高帶寬并減少數(shù)據(jù)移動

AI處理器的成功將不僅取決于原始性能，還取決于在速度和能源效率之間取得平衡的能力。這種向可持續(xù)AI計算的轉變將需要芯片設計的持續(xù)創(chuàng)新，以及軟件優(yōu)化和系統(tǒng)級集成的改進。

我們探討的來自IBM、英特爾、AMD、高通和FuriosaAI的例子表明，無論是老牌公司還是新入行者都在接受這些趨勢。AI繼續(xù)滲透到我們生活的各個方面，從數(shù)據(jù)中心到邊緣設備，這些架構創(chuàng)新將在塑造人工智能和整個計算領域的未來中發(fā)揮關鍵作用。

參考文獻
[1] E. Sperling, "New AI Processors Architectures Balance Speed With Efficiency," Semiconductor Engineering, Sep. 4, 2024. [Online]. Available: https://semiengineering.com/new-ai-processors-architectures-balance-speed-with-efficiency/
END, C% m( Y( K6 s& M) B- e; }" V

軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用，PIC Studio都可提升您的工作效能。
點擊左下角"閱讀原文"馬上申請

歡迎轉載

轉載請注明出處，請勿修改內(nèi)容和刪除作者信息！

1 U5 C. `7 u% h- {; Q! X; }3 T

關注我們

5 x, A3 D, Z9 e9 R, R$ B

關于我們：
深圳逍遙科技有限公司（Latitude Design Automation Inc.）是一家專注于半導體芯片設計自動化（EDA）的高科技軟件公司。我們自主開發(fā)特色工藝芯片設計和仿真軟件，提供成熟的設計解決方案如PIC Studio、MEMS Studio和Meta Studio，分別針對光電芯片、微機電系統(tǒng)、超透鏡的設計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務，廣泛服務于光通訊、光計算、光量子通信和微納光子器件領域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作，推動特色工藝半導體產(chǎn)業(yè)鏈發(fā)展，致力于為客戶提供前沿技術與服務。

http://www.latitudeda.com/
（點擊上方名片關注我們，發(fā)現(xiàn)更多精彩內(nèi)容）

人工智能處理器架構的演變：平衡速度與效率

發(fā)表回復

精選推薦