|
引言
$ k/ u3 m1 g5 \2 j1 f在當(dāng)今快速發(fā)展的技術(shù)環(huán)境中,對(duì)高效且可持續(xù)的計(jì)算解決方案的需求從未如此迫切。本文旨在幫助了解AI和云原生工作負(fù)載方面的創(chuàng)新。隨著人工智能(AI)和云原生工作負(fù)載的復(fù)雜性和規(guī)模不斷增長(zhǎng),需要能夠處理這些任務(wù)同時(shí)最大限度減少能源消耗的處理器變得極為重要。AmpereOne應(yīng)運(yùn)而生,這是一系列突破性的云原生處理器,旨在直面現(xiàn)代計(jì)算的挑戰(zhàn)[1]。" l0 n/ n9 t: A! }1 h* `, r
" Q2 e' N' ]7 }4 w* j. H3 Q* h3 }
處理器設(shè)計(jì)的范式轉(zhuǎn)變% F: y9 c1 n- J' |! Y
傳統(tǒng)的處理器設(shè)計(jì)技術(shù)在滿足當(dāng)今工作負(fù)載需求方面已達(dá)到極限。AmpereOne代表了范式轉(zhuǎn)變,摒棄了傳統(tǒng)的渦輪頻率和超線程等方法。相反,它專注于功率優(yōu)化、一致的性能和線性核心擴(kuò)展。' G, q: L1 g) u; N8 ]4 `) H+ N& Q
uq1nz3ceyd3640112469142.png (132.3 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
uq1nz3ceyd3640112469142.png
2024-11-9 02:48 上傳
: |# i/ b' i* f$ K6 \2 s
圖1展示了從傳統(tǒng)處理器技術(shù)到AmpereOne創(chuàng)新方法的轉(zhuǎn)變,強(qiáng)調(diào)了功率優(yōu)化和線性核心擴(kuò)展的重點(diǎn)。3 Q+ u% _7 S$ O( q% G
& D# ^7 Z- ]* ]7 A
AmpereOne路線圖:持續(xù)創(chuàng)新的承諾; {2 l1 W+ S8 {
AmpereOne的產(chǎn)品路線圖展示了快速創(chuàng)新的步伐,明確承諾在氣冷環(huán)境下為AI計(jì)算提供每機(jī)架最佳性能。路線圖從當(dāng)前的AmpereOne系列開始,具有高達(dá)192個(gè)核心的5nm工藝,一直延伸到未來(lái)的迭代版本,如AmpereOne Aurora,承諾提供高達(dá)512個(gè)核心,并集成用于訓(xùn)練和推理工作負(fù)載的AI硅。" }3 Y+ R, a2 [3 f4 ^5 O
nxxxdumrr4p640112469242.png (197.01 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
nxxxdumrr4p640112469242.png
2024-11-9 02:48 上傳
( y) b2 b1 {9 l4 R圖2展示了AmpereOne的產(chǎn)品路線圖,展示了從當(dāng)前型號(hào)到未來(lái)迭代的發(fā)展過(guò)程,核心數(shù)量不斷增加,功能不斷先進(jìn)。; d( C {7 [/ h/ |. @/ O2 B
( ~, W! T8 O. w5 n: K
深入了解AmpereOne核心
% M- _1 f2 ^& D4 B+ ~AmpereOne性能的核心在于其創(chuàng)新的核心設(shè)計(jì)。讓我們探索使該處理器脫穎而出的關(guān)鍵組件:
L3 Z8 _% i l2 {6 V! A$ O! ?) @9 R5 b1 f) q1 ?3 F
1. 前端
8 M4 x6 y4 q% M3 C2 p2 T8 o最先進(jìn)的分支預(yù)測(cè)解耦的預(yù)測(cè)和獲取流水線用于大代碼足跡的高帶寬接口
) ]" s8 W$ C9 ^- b- j$ g6 m4 P3 h& i _* {9 V
2. 執(zhí)行
9 U3 Q6 [ Z8 @8 J8個(gè)調(diào)度器供給12個(gè)執(zhí)行管道對(duì)稱的整數(shù)和FP/矢量執(zhí)行管道通過(guò)單uop int8 MMLA支持AI推理吞吐量6 y! M6 b0 q( j+ R9 _0 f
$ j' j: D2 u8 h6 e& T2 b
3. 加載存儲(chǔ)單元9 Y2 R' T: d$ G7 D5 c
64KB,4路寫直通DL1緩存4周期整數(shù)加載使用延遲從零開始的熔斷保護(hù)" x. \ K9 x* w0 O3 O: C G+ Z# ]
( R6 s! o! Q' ?4. 內(nèi)存管理 T7 V. }% k$ v% o1 t/ H; v4 q1 o
支持任何頁(yè)面大小的通用TLB條目用于頁(yè)面遍歷的專用L2接口優(yōu)化的TLB維護(hù)響應(yīng)時(shí)間
, X/ K D( J" j* F _
1 Y% G0 p6 n( Q- Z5. L2緩存
) f# T7 }* U/ `2MB 8路私有L2數(shù)據(jù)/指令緩存11周期加載使用延遲請(qǐng)求率和預(yù)取的自適應(yīng)節(jié)流
- s: O0 a" `6 ?
: m3 n+ M8 K) f s# D$ r* ~
+ J+ l: n, f' g+ U% _# [$ g
yjgwmsbkfv5640112469343.png (258.95 KB, 下載次數(shù): 9)
下載附件
保存到相冊(cè)
yjgwmsbkfv5640112469343.png
2024-11-9 02:48 上傳
2 v' ^& Z5 }" ~' W: u圖3概述了AmpereOne核心流水線,突出顯示了各個(gè)組件及其互連。
% D, B+ U( Z: ]! x. c
$ M0 y9 [" ?. R1 p' P$ L* |9 dAmpereOne的分解架構(gòu)& m% Q, a0 C9 G7 V1 g
AmpereOne的一個(gè)關(guān)鍵創(chuàng)新是分解架構(gòu)。這種方法將計(jì)算、內(nèi)存和PCIe子系統(tǒng)分離到不同的芯片上,每個(gè)芯片使用最合適的制程制造。然后,這些組件通過(guò)Ampere的自定義芯片間(D2D)互連連接,每個(gè)方向能夠達(dá)到2.8TB/s的帶寬。& h* h/ L4 n( d* M2 v( I$ u
mcccjpnso5p640112469443.png (143.58 KB, 下載次數(shù): 10)
下載附件
保存到相冊(cè)
mcccjpnso5p640112469443.png
2024-11-9 02:48 上傳
; j- ]0 M. P# F8 d
圖4展示了AmpereOne的分解架構(gòu),顯示了計(jì)算、內(nèi)存和PCIe組件如何分離和互連。
/ A3 X$ A8 m$ w
3 W( R a3 T- ~5 X這種靈活的架構(gòu)允許:# P% N' w& n6 \* G
使用相同的構(gòu)建塊實(shí)現(xiàn)8通道和12通道設(shè)計(jì)快速集成客戶IP定制以滿足獨(dú)特的客戶I/O和內(nèi)存需求. G0 l! c: F. G
5 \; W# J2 f+ t+ }# E4 \/ V增強(qiáng)安全性和性能的先進(jìn)功能
5 [! o6 I0 L; a! ~/ |1 @內(nèi)存標(biāo)記
$ W; B- h. V! L& C1 s7 t0 ?- }AmpereOne引入了強(qiáng)大的內(nèi)存標(biāo)記功能,增強(qiáng)了穩(wěn)健性和安全性。這一功能有助于檢測(cè)指針編程錯(cuò)誤并減輕利用內(nèi)存安全漏洞的攻擊。2 L6 {8 R; N! a; G# e3 W+ N
) a. P7 S( M- A/ N內(nèi)存標(biāo)記的關(guān)鍵方面:
5 f8 f. I# t8 i ?6 |, \每16字節(jié)內(nèi)存粒度獲得4位"分配標(biāo)記"指針在地址的高位攜帶"訪問(wèn)標(biāo)記"核心對(duì)每次內(nèi)存訪問(wèn)檢查"訪問(wèn)標(biāo)記 = 分配標(biāo)記"不匹配會(huì)導(dǎo)致故障并阻止數(shù)據(jù)訪問(wèn)5 Z. t& r/ X1 C( o. x
9 m1 J) I X \6 K
% x- B- R0 l% V2 G0 p2 g
nlqco5wqc1y640112469543.png (251.8 KB, 下載次數(shù): 7)
下載附件
保存到相冊(cè)
nlqco5wqc1y640112469543.png
2024-11-9 02:48 上傳
" r0 W( K! F2 s3 W& ~
圖5演示了內(nèi)存標(biāo)記的概念,顯示了標(biāo)記如何與內(nèi)存分配和指針相關(guān)聯(lián)。
. J0 ]3 m7 F/ b- M: M2 ^# L/ S( P6 E- C/ B# M
自適應(yīng)流量管理
2 I% o+ R) q' _9 D+ R為了提供一致和可擴(kuò)展的性能,AmpereOne采用了自適應(yīng)流量管理。這一能力對(duì)于最小化運(yùn)行間變異和獨(dú)立并發(fā)工作負(fù)載之間的干擾非常關(guān)鍵。
" i( O" S9 f( p8 ~. }( J1 J! n8 u/ w
運(yùn)行原理:
6 B4 c9 e( S& n0 x+ \+ o! j內(nèi)存服務(wù)代理通報(bào)"繁忙"程度核心相應(yīng)地修改請(qǐng)求流量的速率和配置針對(duì)不同工作負(fù)載行為的自適應(yīng)響應(yīng)
* r; b( H" o$ X& O4 v6 E, C, h; y/ S5 j8 W! I+ X
' J% T8 |# i% v
jhtr4ttesbk640112469643.png (260.76 KB, 下載次數(shù): 8)
下載附件
保存到相冊(cè)
jhtr4ttesbk640112469643.png
2024-11-9 02:48 上傳
5 S9 P0 X. M. G: v* Z圖6比較了AmpereOne與AMD Bergamo和AMD Genoa的加載延遲,展示了自適應(yīng)流量管理的有效性。
0 Q1 L* x& `: y; W; y6 M2 {9 ]) v+ w( p/ k$ R: }' b P: k+ [, d6 M X
性能領(lǐng)先地位3 b. B9 J0 T+ k
AmpereOne在各種基準(zhǔn)測(cè)試和工作負(fù)載中展示了令人印象深刻的性能指標(biāo):
# _$ @" ^8 U7 j" `6 w. P
4 `( h+ E7 }0 N0 L) m1. SPECrate 2017_int_base:9 g$ S+ P3 `+ [. m" u
每機(jī)架性能比AMD Genoa高出34%每瓦性能比AMD Genoa高出50%0 v/ x2 \; g: R2 {
9 W4 h" }2 s5 S6 U: O
; u7 [8 U ?: `6 d: S: D p
qpe3xbxt5lh640112469743.png (161.4 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
qpe3xbxt5lh640112469743.png
2024-11-9 02:48 上傳
! ^2 K- V! w1 T3 l4 a5 j/ B( z圖7比較了AmpereOne與AMD Genoa和AMD Bergamo在SPECrate 2017_int_base基準(zhǔn)測(cè)試中的每機(jī)架性能和每瓦性能。6 V) ^) P0 w) u# I2 ?& \& r0 ~
; Q! R, e2 g7 d2. 云原生工作負(fù)載:7 S3 X. ?- v6 E) n4 V
鍵值存儲(chǔ)的每機(jī)架性能提高了58%在容器化Web服務(wù)、緩存和數(shù)據(jù)庫(kù)方面有顯著改進(jìn)
% p" p f8 S; T2 d" ]& g" b) S4 f
4 a; |7 t1 R) n+ s9 S% j7 F; A5 y7 d: a2 r7 y. Q2 i3 D* M2 x
su42cbzjji2640112469844.png (184.4 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
su42cbzjji2640112469844.png
2024-11-9 02:48 上傳
' n; r& F+ `2 e- k8 @, x9 f
圖8展示了AmpereOne在各種云原生工作負(fù)載中相對(duì)于AMD Genoa和AMD Bergamo的每機(jī)架性能改進(jìn)。 i7 I# ?8 e$ t
8 z9 k3 ?" [: Z7 \3. AI推理:
3 F" z' B/ _% l- }在無(wú)GPU推理性能和效率方面處于領(lǐng)先地位在各種AI模型(包括BERT、ResNet-50、Stable Diffusion和LLAMA 3 8B)中表現(xiàn)出色. X7 ]% k0 \4 B
, L% D1 f) g9 ^0 X5 d& U- |
4 @3 x: t# F$ v' l; f
ulcnfjlumvu640112469944.png (254.06 KB, 下載次數(shù): 9)
下載附件
保存到相冊(cè)
ulcnfjlumvu640112469944.png
2024-11-9 02:48 上傳
! J) H9 c2 ^ P& [# t
圖9比較了AmpereOne與AMD EPYC和Intel Xeon處理器在不同AI模型中的推理性能和每瓦推理性能。7 ~( ~2 {( E5 z# e" x1 [
' S. `$ i3 e5 P$ e! @; j5 M生態(tài)系統(tǒng)就緒
" ]2 _: s) S6 C- K0 z. B任何處理器架構(gòu)的成功都取決于生態(tài)系統(tǒng)的支持。AmpereOne在各個(gè)類別中都擁有強(qiáng)大的生態(tài)系統(tǒng):; m+ I* t; ]1 @3 v$ ?
操作系統(tǒng):支持流行的Linux發(fā)行版,如Alma Linux和Ubuntu編排、虛擬化和容器:與Docker、Kubernetes和VMware等領(lǐng)先平臺(tái)兼容語(yǔ)言和運(yùn)行時(shí):支持Java、Python、Go等網(wǎng)絡(luò)和存儲(chǔ):與Mellanox、Marvell等解決方案集成應(yīng)用程序:準(zhǔn)備用于廣泛的Web服務(wù)、數(shù)據(jù)庫(kù)、AI和云游戲應(yīng)用) D8 V r& G- S
3 \$ O8 ^6 i3 L0 k) i& u
/ d+ s* _3 u' P( N; q
0hbp4221e3a640112470044.png (216.43 KB, 下載次數(shù): 8)
下載附件
保存到相冊(cè)
0hbp4221e3a640112470044.png
2024-11-9 02:48 上傳
% @" x8 S: x& F0 p: D圖10展示了AmpereOne廣泛的生態(tài)系統(tǒng)支持,突出顯示了各種軟件和硬件兼容性類別。) @( x* d2 {2 v* `
1 H7 C, H+ h- I0 j* w9 s# T' H結(jié)論7 _5 l) J# ]" O. W1 R
AmpereOne代表了AI和云原生工作負(fù)載處理器設(shè)計(jì)的重大進(jìn)步。其創(chuàng)新架構(gòu)專注于可持續(xù)計(jì)算和可擴(kuò)展性能,使其在快速發(fā)展的數(shù)據(jù)中心和云計(jì)算領(lǐng)域處于領(lǐng)先地位。隨著對(duì)高效AI處理需求的持續(xù)增長(zhǎng),AmpereOne在分解設(shè)計(jì)、先進(jìn)安全功能和生態(tài)系統(tǒng)支持方面的方法使其成為組織構(gòu)建下一代云基礎(chǔ)設(shè)施的極具吸引力的選擇。9 h3 K, ?4 d! z* ]) M, g
) I, l3 a) I* |* Y, A
通過(guò)優(yōu)先考慮每瓦性能和適應(yīng)多樣化工作負(fù)載的能力,AmpereOne不僅滿足了行業(yè)的當(dāng)前需求,還為未來(lái)可持續(xù)計(jì)算的創(chuàng)新奠定了基礎(chǔ)。隨著我們邁向日益由AI驅(qū)動(dòng)的世界,像AmpereOne這樣的處理器將在確保我們的技術(shù)進(jìn)步不以環(huán)境可持續(xù)性為代價(jià)方面發(fā)揮關(guān)鍵作用。) z8 a9 o6 t: r# H4 w2 v
+ f9 v* ~/ P& b: C) q: d; n4 e
參考文獻(xiàn)- A8 P" U7 B& L+ g% t9 n/ F
[1] M. Erler, "Sustainable Computing for AI & Cloud Native Workloads," Ampere Computing, Aug. 27, 2024.
( b/ G/ C6 i9 t: D0 t0 G! R* Q4 B, v' `6 E8 N# w/ P* E0 p. b
END- y! v4 F0 t2 s, T
8 V8 t& R8 A; y) l4 |* H+ S# [ l
: m) \' ^$ v. S# x. Z$ P軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
0 O9 ^; N" e' c1 d" I點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)
$ C7 E" A, D. r+ i5 p8 d/ J/ B/ V' `# B* G6 _
歡迎轉(zhuǎn)載
! l: q/ A. s% R6 Y; P, w5 [6 a! r( F8 P" M
轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!
0 I2 ]4 |+ X5 H+ P, ^2 x& {2 B2 I+ U; b' z
- g3 f' v' t: \' P5 z: `/ T0 C8 e' R( D) N
c2dgcf5cv33640112470144.gif (16.04 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
c2dgcf5cv33640112470144.gif
2024-11-9 02:48 上傳
5 [+ `/ s& U! b! K: ^
, [( j, b, F. d( @4 o7 @關(guān)注我們5 u/ d/ x4 B- e& U3 Y* V
3 l3 |! K1 H9 l% P7 ]( J
( a6 d2 q% Q0 J$ C1 f
rj20gyvvgpw640112470244.png (31.33 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
rj20gyvvgpw640112470244.png
2024-11-9 02:48 上傳
2 M! Y% @# [8 s: D0 y; R/ J |
5 F* P( ^4 P1 b. \) f; D6 z+ y( H
xf30cmr0kwg640112470344.png (82.79 KB, 下載次數(shù): 8)
下載附件
保存到相冊(cè)
xf30cmr0kwg640112470344.png
2024-11-9 02:48 上傳
' [7 x) U1 Q3 K- ~ |
" P6 H$ \. l% @9 h; l
000ak3qlygi640112470444.png (21.52 KB, 下載次數(shù): 7)
下載附件
保存到相冊(cè)
000ak3qlygi640112470444.png
2024-11-9 02:48 上傳
( V1 ~+ D. P- w7 |. {* ~2 e5 d% X2 e
| + l0 a. [' d# @7 S
, C! @/ U! N/ M# V7 W( t) c
, Q2 Y* @) ^9 v2 Q/ B
" U) g+ j- {! N" g' j( F+ T
關(guān)于我們:$ d5 q: G4 j+ t+ {6 j
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。/ j8 d" n$ A* q! v& I/ ]7 k U; C: M
5 C" w! f7 c" x. J2 `9 Thttp://www.latitudeda.com/
7 |2 I. D, O8 b6 G5 w! j(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|