電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 50|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | 可持續(xù)計(jì)算在AI和云原生工作負(fù)載中的應(yīng)用

[復(fù)制鏈接]

552

主題

552

帖子

4418

積分

四級(jí)會(huì)員

Rank: 4

積分
4418
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-11-8 08:00:00 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
引言
$ k/ u3 m1 g5 \2 j1 f在當(dāng)今快速發(fā)展的技術(shù)環(huán)境中,對(duì)高效且可持續(xù)的計(jì)算解決方案的需求從未如此迫切。本文旨在幫助了解AI和云原生工作負(fù)載方面的創(chuàng)新。隨著人工智能(AI)和云原生工作負(fù)載的復(fù)雜性和規(guī)模不斷增長(zhǎng),需要能夠處理這些任務(wù)同時(shí)最大限度減少能源消耗的處理器變得極為重要。AmpereOne應(yīng)運(yùn)而生,這是一系列突破性的云原生處理器,旨在直面現(xiàn)代計(jì)算的挑戰(zhàn)[1]。" l0 n/ n9 t: A! }1 h* `, r
" Q2 e' N' ]7 }4 w* j. H3 Q* h3 }
處理器設(shè)計(jì)的范式轉(zhuǎn)變% F: y9 c1 n- J' |! Y
傳統(tǒng)的處理器設(shè)計(jì)技術(shù)在滿足當(dāng)今工作負(fù)載需求方面已達(dá)到極限。AmpereOne代表了范式轉(zhuǎn)變,摒棄了傳統(tǒng)的渦輪頻率和超線程等方法。相反,它專注于功率優(yōu)化、一致的性能和線性核心擴(kuò)展。' G, q: L1 g) u; N8 ]4 `) H+ N& Q
: |# i/ b' i* f$ K6 \2 s
圖1展示了從傳統(tǒng)處理器技術(shù)到AmpereOne創(chuàng)新方法的轉(zhuǎn)變,強(qiáng)調(diào)了功率優(yōu)化和線性核心擴(kuò)展的重點(diǎn)。3 Q+ u% _7 S$ O( q% G
& D# ^7 Z- ]* ]7 A
AmpereOne路線圖:持續(xù)創(chuàng)新的承諾; {2 l1 W+ S8 {
AmpereOne的產(chǎn)品路線圖展示了快速創(chuàng)新的步伐,明確承諾在氣冷環(huán)境下為AI計(jì)算提供每機(jī)架最佳性能。路線圖從當(dāng)前的AmpereOne系列開始,具有高達(dá)192個(gè)核心的5nm工藝,一直延伸到未來(lái)的迭代版本,如AmpereOne Aurora,承諾提供高達(dá)512個(gè)核心,并集成用于訓(xùn)練和推理工作負(fù)載的AI硅。" }3 Y+ R, a2 [3 f4 ^5 O

( y) b2 b1 {9 l4 R圖2展示了AmpereOne的產(chǎn)品路線圖,展示了從當(dāng)前型號(hào)到未來(lái)迭代的發(fā)展過(guò)程,核心數(shù)量不斷增加,功能不斷先進(jìn)。; d( C  {7 [/ h/ |. @/ O2 B
( ~, W! T8 O. w5 n: K
深入了解AmpereOne核心
% M- _1 f2 ^& D4 B+ ~AmpereOne性能的核心在于其創(chuàng)新的核心設(shè)計(jì)。讓我們探索使該處理器脫穎而出的關(guān)鍵組件:
  L3 Z8 _% i  l2 {6 V! A$ O! ?) @9 R5 b1 f) q1 ?3 F
1. 前端
8 M4 x6 y4 q% M3 C2 p2 T8 o
  • 最先進(jìn)的分支預(yù)測(cè)
  • 解耦的預(yù)測(cè)和獲取流水線
  • 用于大代碼足跡的高帶寬接口
    ) ]" s8 W$ C9 ^- b
    - j$ g6 m4 P3 h& i  _* {9 V
    2. 執(zhí)行
    9 U3 Q6 [  Z8 @8 J
  • 8個(gè)調(diào)度器供給12個(gè)執(zhí)行管道
  • 對(duì)稱的整數(shù)和FP/矢量執(zhí)行管道
  • 通過(guò)單uop int8 MMLA支持AI推理吞吐量6 y! M6 b0 q( j+ R9 _0 f
    $ j' j: D2 u8 h6 e& T2 b
    3. 加載存儲(chǔ)單元9 Y2 R' T: d$ G7 D5 c
  • 64KB,4路寫直通DL1緩存
  • 4周期整數(shù)加載使用延遲
  • 從零開始的熔斷保護(hù)" x. \  K9 x* w0 O3 O: C  G+ Z# ]

    ( R6 s! o! Q' ?4. 內(nèi)存管理  T7 V. }% k$ v% o1 t/ H; v4 q1 o
  • 支持任何頁(yè)面大小的通用TLB條目
  • 用于頁(yè)面遍歷的專用L2接口
  • 優(yōu)化的TLB維護(hù)響應(yīng)時(shí)間
    , X/ K  D( J" j* F  _

    1 Y% G0 p6 n( Q- Z5. L2緩存
    ) f# T7 }* U/ `
  • 2MB 8路私有L2數(shù)據(jù)/指令緩存
  • 11周期加載使用延遲
  • 請(qǐng)求率和預(yù)取的自適應(yīng)節(jié)流
    - s: O0 a" `6 ?

    : m3 n+ M8 K) f  s# D$ r* ~
    + J+ l: n, f' g+ U% _# [$ g
    2 v' ^& Z5 }" ~' W: u圖3概述了AmpereOne核心流水線,突出顯示了各個(gè)組件及其互連。
    % D, B+ U( Z: ]! x. c
    $ M0 y9 [" ?. R1 p' P$ L* |9 dAmpereOne的分解架構(gòu)& m% Q, a0 C9 G7 V1 g
    AmpereOne的一個(gè)關(guān)鍵創(chuàng)新是分解架構(gòu)。這種方法將計(jì)算、內(nèi)存和PCIe子系統(tǒng)分離到不同的芯片上,每個(gè)芯片使用最合適的制程制造。然后,這些組件通過(guò)Ampere的自定義芯片間(D2D)互連連接,每個(gè)方向能夠達(dá)到2.8TB/s的帶寬。& h* h/ L4 n( d* M2 v( I$ u
    ; j- ]0 M. P# F8 d
    圖4展示了AmpereOne的分解架構(gòu),顯示了計(jì)算、內(nèi)存和PCIe組件如何分離和互連。
    / A3 X$ A8 m$ w
    3 W( R  a3 T- ~5 X這種靈活的架構(gòu)允許:# P% N' w& n6 \* G
  • 使用相同的構(gòu)建塊實(shí)現(xiàn)8通道和12通道設(shè)計(jì)
  • 快速集成客戶IP
  • 定制以滿足獨(dú)特的客戶I/O和內(nèi)存需求. G0 l! c: F. G

    5 \; W# J2 f+ t+ }# E4 \/ V增強(qiáng)安全性和性能的先進(jìn)功能
    5 [! o6 I0 L; a! ~/ |1 @內(nèi)存標(biāo)記
    $ W; B- h. V! L& C1 s7 t0 ?- }AmpereOne引入了強(qiáng)大的內(nèi)存標(biāo)記功能,增強(qiáng)了穩(wěn)健性和安全性。這一功能有助于檢測(cè)指針編程錯(cuò)誤并減輕利用內(nèi)存安全漏洞的攻擊。2 L6 {8 R; N! a; G# e3 W+ N

    ) a. P7 S( M- A/ N內(nèi)存標(biāo)記的關(guān)鍵方面:
    5 f8 f. I# t8 i  ?6 |, \
  • 每16字節(jié)內(nèi)存粒度獲得4位"分配標(biāo)記"
  • 指針在地址的高位攜帶"訪問(wèn)標(biāo)記"
  • 核心對(duì)每次內(nèi)存訪問(wèn)檢查"訪問(wèn)標(biāo)記 = 分配標(biāo)記"
  • 不匹配會(huì)導(dǎo)致故障并阻止數(shù)據(jù)訪問(wèn)5 Z. t& r/ X1 C( o. x
    9 m1 J) I  X  \6 K

    % x- B- R0 l% V2 G0 p2 g " r0 W( K! F2 s3 W& ~
    圖5演示了內(nèi)存標(biāo)記的概念,顯示了標(biāo)記如何與內(nèi)存分配和指針相關(guān)聯(lián)。
    . J0 ]3 m7 F/ b- M: M2 ^# L/ S( P6 E- C/ B# M
    自適應(yīng)流量管理
    2 I% o+ R) q' _9 D+ R為了提供一致和可擴(kuò)展的性能,AmpereOne采用了自適應(yīng)流量管理。這一能力對(duì)于最小化運(yùn)行間變異和獨(dú)立并發(fā)工作負(fù)載之間的干擾非常關(guān)鍵。
    " i( O" S9 f( p8 ~. }( J1 J! n8 u/ w
    運(yùn)行原理:
    6 B4 c9 e( S& n0 x+ \+ o! j
  • 內(nèi)存服務(wù)代理通報(bào)"繁忙"程度
  • 核心相應(yīng)地修改請(qǐng)求流量的速率和配置
  • 針對(duì)不同工作負(fù)載行為的自適應(yīng)響應(yīng)
    * r; b( H" o$ X& O4 v6 E
    , C, h; y/ S5 j8 W! I+ X

    ' J% T8 |# i% v
    5 S9 P0 X. M. G: v* Z圖6比較了AmpereOne與AMD Bergamo和AMD Genoa的加載延遲,展示了自適應(yīng)流量管理的有效性。
    0 Q1 L* x& `: y; W; y6 M2 {9 ]) v+ w( p/ k$ R: }' b  P: k+ [, d6 M  X
    性能領(lǐng)先地位3 b. B9 J0 T+ k
    AmpereOne在各種基準(zhǔn)測(cè)試和工作負(fù)載中展示了令人印象深刻的性能指標(biāo):
    # _$ @" ^8 U7 j" `6 w. P
    4 `( h+ E7 }0 N0 L) m1. SPECrate 2017_int_base:9 g$ S+ P3 `+ [. m" u
  • 每機(jī)架性能比AMD Genoa高出34%
  • 每瓦性能比AMD Genoa高出50%0 v/ x2 \; g: R2 {

    9 W4 h" }2 s5 S6 U: O
    ; u7 [8 U  ?: `6 d: S: D  p
    ! ^2 K- V! w1 T3 l4 a5 j/ B( z圖7比較了AmpereOne與AMD Genoa和AMD Bergamo在SPECrate 2017_int_base基準(zhǔn)測(cè)試中的每機(jī)架性能和每瓦性能。6 V) ^) P0 w) u# I2 ?& \& r0 ~

    ; Q! R, e2 g7 d2. 云原生工作負(fù)載:7 S3 X. ?- v6 E) n4 V
  • 鍵值存儲(chǔ)的每機(jī)架性能提高了58%
  • 在容器化Web服務(wù)、緩存和數(shù)據(jù)庫(kù)方面有顯著改進(jìn)
    % p" p  f8 S; T2 d" ]& g" b) S4 f

    4 a; |7 t1 R) n+ s9 S% j7 F; A5 y7 d: a2 r7 y. Q2 i3 D* M2 x
    ' n; r& F+ `2 e- k8 @, x9 f
    圖8展示了AmpereOne在各種云原生工作負(fù)載中相對(duì)于AMD Genoa和AMD Bergamo的每機(jī)架性能改進(jìn)。  i7 I# ?8 e$ t

    8 z9 k3 ?" [: Z7 \3. AI推理:
    3 F" z' B/ _% l- }
  • 在無(wú)GPU推理性能和效率方面處于領(lǐng)先地位
  • 在各種AI模型(包括BERT、ResNet-50、Stable Diffusion和LLAMA 3 8B)中表現(xiàn)出色. X7 ]% k0 \4 B
    , L% D1 f) g9 ^0 X5 d& U- |

    4 @3 x: t# F$ v' l; f ! J) H9 c2 ^  P& [# t
    圖9比較了AmpereOne與AMD EPYC和Intel Xeon處理器在不同AI模型中的推理性能和每瓦推理性能。7 ~( ~2 {( E5 z# e" x1 [

    ' S. `$ i3 e5 P$ e! @; j5 M生態(tài)系統(tǒng)就緒
    " ]2 _: s) S6 C- K0 z. B任何處理器架構(gòu)的成功都取決于生態(tài)系統(tǒng)的支持。AmpereOne在各個(gè)類別中都擁有強(qiáng)大的生態(tài)系統(tǒng):; m+ I* t; ]1 @3 v$ ?
  • 操作系統(tǒng):支持流行的Linux發(fā)行版,如Alma Linux和Ubuntu
  • 編排、虛擬化和容器:與Docker、Kubernetes和VMware等領(lǐng)先平臺(tái)兼容
  • 語(yǔ)言和運(yùn)行時(shí):支持Java、Python、Go等
  • 網(wǎng)絡(luò)和存儲(chǔ):與Mellanox、Marvell等解決方案集成
  • 應(yīng)用程序:準(zhǔn)備用于廣泛的Web服務(wù)、數(shù)據(jù)庫(kù)、AI和云游戲應(yīng)用) D8 V  r& G- S

    3 \$ O8 ^6 i3 L0 k) i& u
    / d+ s* _3 u' P( N; q
    % @" x8 S: x& F0 p: D圖10展示了AmpereOne廣泛的生態(tài)系統(tǒng)支持,突出顯示了各種軟件和硬件兼容性類別。) @( x* d2 {2 v* `

    1 H7 C, H+ h- I0 j* w9 s# T' H結(jié)論7 _5 l) J# ]" O. W1 R
    AmpereOne代表了AI和云原生工作負(fù)載處理器設(shè)計(jì)的重大進(jìn)步。其創(chuàng)新架構(gòu)專注于可持續(xù)計(jì)算和可擴(kuò)展性能,使其在快速發(fā)展的數(shù)據(jù)中心和云計(jì)算領(lǐng)域處于領(lǐng)先地位。隨著對(duì)高效AI處理需求的持續(xù)增長(zhǎng),AmpereOne在分解設(shè)計(jì)、先進(jìn)安全功能和生態(tài)系統(tǒng)支持方面的方法使其成為組織構(gòu)建下一代云基礎(chǔ)設(shè)施的極具吸引力的選擇。9 h3 K, ?4 d! z* ]) M, g
    ) I, l3 a) I* |* Y, A
    通過(guò)優(yōu)先考慮每瓦性能和適應(yīng)多樣化工作負(fù)載的能力,AmpereOne不僅滿足了行業(yè)的當(dāng)前需求,還為未來(lái)可持續(xù)計(jì)算的創(chuàng)新奠定了基礎(chǔ)。隨著我們邁向日益由AI驅(qū)動(dòng)的世界,像AmpereOne這樣的處理器將在確保我們的技術(shù)進(jìn)步不以環(huán)境可持續(xù)性為代價(jià)方面發(fā)揮關(guān)鍵作用。) z8 a9 o6 t: r# H4 w2 v
    + f9 v* ~/ P& b: C) q: d; n4 e
    參考文獻(xiàn)- A8 P" U7 B& L+ g% t9 n/ F
    [1] M. Erler, "Sustainable Computing for AI & Cloud Native Workloads," Ampere Computing, Aug. 27, 2024.
    ( b/ G/ C6 i9 t: D0 t0 G! R* Q4 B, v' `6 E8 N# w/ P* E0 p. b
    END- y! v4 F0 t2 s, T
    8 V8 t& R8 A; y) l4 |* H+ S# [  l

    : m) \' ^$ v. S# x. Z$ P軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
    0 O9 ^; N" e' c1 d" I點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)
    $ C7 E" A, D. r+ i5 p8 d/ J/ B/ V' `# B* G6 _
    歡迎轉(zhuǎn)載
    ! l: q/ A. s% R6 Y; P, w5 [6 a! r( F8 P" M
    轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!
    0 I2 ]4 |+ X5 H+ P, ^2 x& {2 B2 I+ U; b' z

    - g3 f' v' t: \' P5 z
    : `/ T0 C8 e' R( D) N
    5 [+ `/ s& U! b! K: ^

    , [( j, b, F. d( @4 o7 @關(guān)注我們5 u/ d/ x4 B- e& U3 Y* V
    3 l3 |! K1 H9 l% P7 ]( J

    ( a6 d2 q% Q0 J$ C1 f
    2 M! Y% @# [8 s: D0 y; R/ J

    5 F* P( ^4 P1 b. \) f; D6 z+ y( H
    ' [7 x) U1 Q3 K- ~

    " P6 H$ \. l% @9 h; l ( V1 ~+ D. P- w7 |. {* ~2 e5 d% X2 e
                          + l0 a. [' d# @7 S
    , C! @/ U! N/ M# V7 W( t) c
    , Q2 Y* @) ^9 v2 Q/ B
    " U) g+ j- {! N" g' j( F+ T
    關(guān)于我們:$ d5 q: G4 j+ t+ {6 j
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。/ j8 d" n$ A* q! v& I/ ]7 k  U; C: M

    5 C" w! f7 c" x. J2 `9 Thttp://www.latitudeda.com/
    7 |2 I. D, O8 b6 G5 w! j(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 發(fā)表回復(fù)

    本版積分規(guī)則


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表