|
引言! K9 R+ C$ D% E6 E; t4 \7 t: }, W8 V
在當(dāng)今快速發(fā)展的技術(shù)環(huán)境中,對高效且可持續(xù)的計算解決方案的需求從未如此迫切。本文旨在幫助了解AI和云原生工作負(fù)載方面的創(chuàng)新。隨著人工智能(AI)和云原生工作負(fù)載的復(fù)雜性和規(guī)模不斷增長,需要能夠處理這些任務(wù)同時最大限度減少能源消耗的處理器變得極為重要。AmpereOne應(yīng)運而生,這是一系列突破性的云原生處理器,旨在直面現(xiàn)代計算的挑戰(zhàn)[1]。
9 H! X* G: v& U9 r9 Q7 y: \4 U0 f8 }5 J
# V* Y ^4 h/ E處理器設(shè)計的范式轉(zhuǎn)變
* x" `! b) c. d& |' ?傳統(tǒng)的處理器設(shè)計技術(shù)在滿足當(dāng)今工作負(fù)載需求方面已達(dá)到極限。AmpereOne代表了范式轉(zhuǎn)變,摒棄了傳統(tǒng)的渦輪頻率和超線程等方法。相反,它專注于功率優(yōu)化、一致的性能和線性核心擴(kuò)展。
# h& L: \+ f) A
uq1nz3ceyd3640112469142.png (132.3 KB, 下載次數(shù): 7)
下載附件
保存到相冊
uq1nz3ceyd3640112469142.png
2024-11-9 02:48 上傳
' z$ b, [: @, x( P* F圖1展示了從傳統(tǒng)處理器技術(shù)到AmpereOne創(chuàng)新方法的轉(zhuǎn)變,強(qiáng)調(diào)了功率優(yōu)化和線性核心擴(kuò)展的重點。
; K. i- j5 \3 S o7 [
6 [+ [3 o* ^" S* i( t8 LAmpereOne路線圖:持續(xù)創(chuàng)新的承諾
1 {( c9 a, N9 OAmpereOne的產(chǎn)品路線圖展示了快速創(chuàng)新的步伐,明確承諾在氣冷環(huán)境下為AI計算提供每機(jī)架最佳性能。路線圖從當(dāng)前的AmpereOne系列開始,具有高達(dá)192個核心的5nm工藝,一直延伸到未來的迭代版本,如AmpereOne Aurora,承諾提供高達(dá)512個核心,并集成用于訓(xùn)練和推理工作負(fù)載的AI硅。/ ]1 E6 ~* P) W) T J
nxxxdumrr4p640112469242.png (197.01 KB, 下載次數(shù): 7)
下載附件
保存到相冊
nxxxdumrr4p640112469242.png
2024-11-9 02:48 上傳
* V) r5 k) m+ ~( L# J* S) B4 Y1 m& Y
圖2展示了AmpereOne的產(chǎn)品路線圖,展示了從當(dāng)前型號到未來迭代的發(fā)展過程,核心數(shù)量不斷增加,功能不斷先進(jìn)。" Q8 u2 y1 s' G
$ S6 r% I6 _- d7 p5 V9 t0 [
深入了解AmpereOne核心
1 H* D( ^$ ~) s: BAmpereOne性能的核心在于其創(chuàng)新的核心設(shè)計。讓我們探索使該處理器脫穎而出的關(guān)鍵組件:0 g* ~3 |; J! W! p# K! h
1 a m$ w: N" `$ |% r1. 前端7 t9 W! r h2 f! X7 X5 w& K4 m
最先進(jìn)的分支預(yù)測解耦的預(yù)測和獲取流水線用于大代碼足跡的高帶寬接口# h ^ c" d, y" t: _4 M9 N
# P h3 u. M* O- P$ X; P2. 執(zhí)行
4 A9 W6 {3 u: k4 e0 L1 Q) d8個調(diào)度器供給12個執(zhí)行管道對稱的整數(shù)和FP/矢量執(zhí)行管道通過單uop int8 MMLA支持AI推理吞吐量( u" L# K4 l) Q+ J
- F. v2 O6 A9 G& ?- _' G1 s3. 加載存儲單元
6 s! R. G, z+ J0 c, r64KB,4路寫直通DL1緩存4周期整數(shù)加載使用延遲從零開始的熔斷保護(hù)
* c- D& j( c% ^7 r7 U4 V& K; d" S8 {& t! ~! }/ x1 `3 B, r
4. 內(nèi)存管理: o; E _& R( H, `% a
支持任何頁面大小的通用TLB條目用于頁面遍歷的專用L2接口優(yōu)化的TLB維護(hù)響應(yīng)時間# N: }- ?7 S o6 L
7 o. F( S' ]2 B
5. L2緩存
' t" ^1 B5 E9 `2MB 8路私有L2數(shù)據(jù)/指令緩存11周期加載使用延遲請求率和預(yù)取的自適應(yīng)節(jié)流0 Q: A: i9 q) G6 g+ v( J" ~
. K, X4 b9 x& A; m
7 Y4 `" h6 u; g8 j; i
yjgwmsbkfv5640112469343.png (258.95 KB, 下載次數(shù): 10)
下載附件
保存到相冊
yjgwmsbkfv5640112469343.png
2024-11-9 02:48 上傳
- L$ Z2 M' r, Y- Z4 Q
圖3概述了AmpereOne核心流水線,突出顯示了各個組件及其互連。
( S+ J1 a! M( @3 ^
$ l( L( I) R3 n2 p; Q7 ^& M4 NAmpereOne的分解架構(gòu)1 I' d1 Y; ]# \' S b
AmpereOne的一個關(guān)鍵創(chuàng)新是分解架構(gòu)。這種方法將計算、內(nèi)存和PCIe子系統(tǒng)分離到不同的芯片上,每個芯片使用最合適的制程制造。然后,這些組件通過Ampere的自定義芯片間(D2D)互連連接,每個方向能夠達(dá)到2.8TB/s的帶寬。
l6 G& E. z0 ?( k F& g
mcccjpnso5p640112469443.png (143.58 KB, 下載次數(shù): 11)
下載附件
保存到相冊
mcccjpnso5p640112469443.png
2024-11-9 02:48 上傳
" T y" y* u7 y2 @/ {! t! y0 Y圖4展示了AmpereOne的分解架構(gòu),顯示了計算、內(nèi)存和PCIe組件如何分離和互連。6 V4 S. D5 ~. F- e V8 I" W
/ g. r8 s, h' S8 X) x( e7 U% [: J這種靈活的架構(gòu)允許:' s* r8 x0 ?* ^9 w6 Q
使用相同的構(gòu)建塊實現(xiàn)8通道和12通道設(shè)計快速集成客戶IP定制以滿足獨特的客戶I/O和內(nèi)存需求
5 E. x0 d+ k: g% R
' n2 ~- ~+ h( @" ]4 h# V增強(qiáng)安全性和性能的先進(jìn)功能
- e# O; L( m+ U3 j) v+ ?- o內(nèi)存標(biāo)記) C5 y9 C( ]3 V( }/ F8 }$ {0 W% ~9 a
AmpereOne引入了強(qiáng)大的內(nèi)存標(biāo)記功能,增強(qiáng)了穩(wěn)健性和安全性。這一功能有助于檢測指針編程錯誤并減輕利用內(nèi)存安全漏洞的攻擊。4 c' n% B( W+ b# b& r
$ Y* o# N& e+ B* n Z% k" x0 o
內(nèi)存標(biāo)記的關(guān)鍵方面:
- n% ^# A; l [# B0 e% M每16字節(jié)內(nèi)存粒度獲得4位"分配標(biāo)記"指針在地址的高位攜帶"訪問標(biāo)記"核心對每次內(nèi)存訪問檢查"訪問標(biāo)記 = 分配標(biāo)記"不匹配會導(dǎo)致故障并阻止數(shù)據(jù)訪問
" H2 J- J" x+ G1 ?, M: q- }' W3 n) f9 h5 E
! Y& V- k) U1 w' W
nlqco5wqc1y640112469543.png (251.8 KB, 下載次數(shù): 7)
下載附件
保存到相冊
nlqco5wqc1y640112469543.png
2024-11-9 02:48 上傳
2 X* ]5 y, d r, ?4 K6 j1 Q
圖5演示了內(nèi)存標(biāo)記的概念,顯示了標(biāo)記如何與內(nèi)存分配和指針相關(guān)聯(lián)。0 n% [5 a: _9 A( D; b3 K: h
. ?/ B' V9 R: k; |' E% g自適應(yīng)流量管理
% H& S# K% L- K) h2 T5 Q- ~為了提供一致和可擴(kuò)展的性能,AmpereOne采用了自適應(yīng)流量管理。這一能力對于最小化運行間變異和獨立并發(fā)工作負(fù)載之間的干擾非常關(guān)鍵。
& n; ~( l C3 X* A; A8 n" ?
- o: F2 j& y, n+ B p0 \/ ^運行原理:
2 d% c) G7 R; c內(nèi)存服務(wù)代理通報"繁忙"程度核心相應(yīng)地修改請求流量的速率和配置針對不同工作負(fù)載行為的自適應(yīng)響應(yīng)
0 ]+ _0 d9 K3 X" W" ^
5 j$ x0 ^' E; S6 i4 t) {7 o# e7 F4 L. x7 n
jhtr4ttesbk640112469643.png (260.76 KB, 下載次數(shù): 9)
下載附件
保存到相冊
jhtr4ttesbk640112469643.png
2024-11-9 02:48 上傳
3 _3 d- A% h& b& C/ H; \2 Q% k3 B
圖6比較了AmpereOne與AMD Bergamo和AMD Genoa的加載延遲,展示了自適應(yīng)流量管理的有效性。
; A; G3 Z5 ?8 u+ H d1 F
, E' l* O$ g& ~- U r性能領(lǐng)先地位
; P2 n. z/ w$ o" v- ZAmpereOne在各種基準(zhǔn)測試和工作負(fù)載中展示了令人印象深刻的性能指標(biāo):
. H: v9 ^6 V+ U6 F
" x+ n- ^ E. F* p& L; f8 {: W, E K: X1. SPECrate 2017_int_base:# l: D2 i) y* y4 ]3 U$ [
每機(jī)架性能比AMD Genoa高出34%每瓦性能比AMD Genoa高出50%; y5 ?- \! z2 P" x" X, q" A3 n2 U: \
/ P( i2 S8 ~$ E* L0 O/ A
% b# h9 L$ J; e2 z6 h) Y
qpe3xbxt5lh640112469743.png (161.4 KB, 下載次數(shù): 7)
下載附件
保存到相冊
qpe3xbxt5lh640112469743.png
2024-11-9 02:48 上傳
( U3 Q) _7 F! w# W
圖7比較了AmpereOne與AMD Genoa和AMD Bergamo在SPECrate 2017_int_base基準(zhǔn)測試中的每機(jī)架性能和每瓦性能。
; W" K$ ?. `9 ~9 r( x/ K4 r2 p8 y8 L( G& F
2. 云原生工作負(fù)載:
: b& w2 B7 ~. Z! C ^+ ^鍵值存儲的每機(jī)架性能提高了58%在容器化Web服務(wù)、緩存和數(shù)據(jù)庫方面有顯著改進(jìn)
# \" z' T2 u1 ]0 E8 d+ v* h/ a/ P( f0 l6 c
& b9 l; V( q# U% M# p9 E
su42cbzjji2640112469844.png (184.4 KB, 下載次數(shù): 7)
下載附件
保存到相冊
su42cbzjji2640112469844.png
2024-11-9 02:48 上傳
~3 l& e; N' ~9 J圖8展示了AmpereOne在各種云原生工作負(fù)載中相對于AMD Genoa和AMD Bergamo的每機(jī)架性能改進(jìn)。
6 V5 u+ H/ O! e/ K. m
. p) C2 n; {- E _( E1 L3. AI推理:" j7 b Q3 y* [' d' \
在無GPU推理性能和效率方面處于領(lǐng)先地位在各種AI模型(包括BERT、ResNet-50、Stable Diffusion和LLAMA 3 8B)中表現(xiàn)出色) p# o M W6 K, z
4 t$ U" \; ]4 ?5 Q+ [8 u+ c6 f: p5 j& W* E/ r
ulcnfjlumvu640112469944.png (254.06 KB, 下載次數(shù): 10)
下載附件
保存到相冊
ulcnfjlumvu640112469944.png
2024-11-9 02:48 上傳
) l$ T! ~4 V* M8 }圖9比較了AmpereOne與AMD EPYC和Intel Xeon處理器在不同AI模型中的推理性能和每瓦推理性能。
$ U2 Y& b: ~5 i. P: [1 I1 w: Q/ [) p7 g% O/ l- a3 m! ^
生態(tài)系統(tǒng)就緒3 | t* u: a1 r+ x0 z) ]( x; y5 ]
任何處理器架構(gòu)的成功都取決于生態(tài)系統(tǒng)的支持。AmpereOne在各個類別中都擁有強(qiáng)大的生態(tài)系統(tǒng):
6 R( B6 _ m9 L操作系統(tǒng):支持流行的Linux發(fā)行版,如Alma Linux和Ubuntu編排、虛擬化和容器:與Docker、Kubernetes和VMware等領(lǐng)先平臺兼容語言和運行時:支持Java、Python、Go等網(wǎng)絡(luò)和存儲:與Mellanox、Marvell等解決方案集成應(yīng)用程序:準(zhǔn)備用于廣泛的Web服務(wù)、數(shù)據(jù)庫、AI和云游戲應(yīng)用8 R' V! n, {! F ?: f0 k5 @
; a9 {1 e& q& f/ @# n, x, L
; J. Q% ]* Z8 e
0hbp4221e3a640112470044.png (216.43 KB, 下載次數(shù): 9)
下載附件
保存到相冊
0hbp4221e3a640112470044.png
2024-11-9 02:48 上傳
/ h2 Z9 L0 C2 Z$ P圖10展示了AmpereOne廣泛的生態(tài)系統(tǒng)支持,突出顯示了各種軟件和硬件兼容性類別。( Y/ A' i+ ~3 z) D8 U
0 o& ]! @+ U9 a: U w結(jié)論9 ], Z8 C; r/ [, G9 h: k2 _: D; H
AmpereOne代表了AI和云原生工作負(fù)載處理器設(shè)計的重大進(jìn)步。其創(chuàng)新架構(gòu)專注于可持續(xù)計算和可擴(kuò)展性能,使其在快速發(fā)展的數(shù)據(jù)中心和云計算領(lǐng)域處于領(lǐng)先地位。隨著對高效AI處理需求的持續(xù)增長,AmpereOne在分解設(shè)計、先進(jìn)安全功能和生態(tài)系統(tǒng)支持方面的方法使其成為組織構(gòu)建下一代云基礎(chǔ)設(shè)施的極具吸引力的選擇。1 V) o* _1 `1 I' T8 C
6 a9 k& k ? V) i, ~5 F/ l. t1 M6 G* T
通過優(yōu)先考慮每瓦性能和適應(yīng)多樣化工作負(fù)載的能力,AmpereOne不僅滿足了行業(yè)的當(dāng)前需求,還為未來可持續(xù)計算的創(chuàng)新奠定了基礎(chǔ)。隨著我們邁向日益由AI驅(qū)動的世界,像AmpereOne這樣的處理器將在確保我們的技術(shù)進(jìn)步不以環(huán)境可持續(xù)性為代價方面發(fā)揮關(guān)鍵作用。
- ]. {- Y5 t) r6 h
; {) R3 m2 P# A+ ^參考文獻(xiàn)" a7 W& K9 @2 l$ l! V; o- m3 P
[1] M. Erler, "Sustainable Computing for AI & Cloud Native Workloads," Ampere Computing, Aug. 27, 2024.
# o& W5 r9 g3 n& V1 D* q% {
/ o* o J! J/ u5 E$ v3 AEND
& r0 d. `0 R! V( [2 p
/ F; K6 J3 Q# l! s0 y, D7 J" w5 n! y2 ]5 u
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
9 e) J/ z( B! Q$ i- d! V點擊左下角"閱讀原文"馬上申請
0 S' ^4 \& V1 k/ r0 G. f0 b# V& K! ~6 O- _( Q/ y# r
歡迎轉(zhuǎn)載. t; q L* F8 Z* i4 u) @
: w7 [) U S" V& t6 l( W4 g
轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!& l9 [9 q# u3 b3 |4 w" @9 _
9 [) B* e5 G% P
6 n7 u* s. ^- c" c1 g2 E3 m b' d {3 n1 D* B% I% {( Y
c2dgcf5cv33640112470144.gif (16.04 KB, 下載次數(shù): 6)
下載附件
保存到相冊
c2dgcf5cv33640112470144.gif
2024-11-9 02:48 上傳
2 p9 i# `, z3 B+ n8 B$ s( }2 A* T" v, c( q+ y* C" D0 c5 G
關(guān)注我們! |: m9 n8 h9 h8 ?: B9 i( c( ^
0 z1 y8 p: Q0 a9 U. @
" i+ h& `9 R8 w; I0 W/ h7 J
rj20gyvvgpw640112470244.png (31.33 KB, 下載次數(shù): 7)
下載附件
保存到相冊
rj20gyvvgpw640112470244.png
2024-11-9 02:48 上傳
% L$ p( g2 {3 S2 z8 Y/ Z/ n8 H; Q- L
| 9 n, x3 u* g: A0 x+ K" R
xf30cmr0kwg640112470344.png (82.79 KB, 下載次數(shù): 9)
下載附件
保存到相冊
xf30cmr0kwg640112470344.png
2024-11-9 02:48 上傳
- [/ s( t# T' ~) L0 [ |
, ?+ T8 p% v _+ c
000ak3qlygi640112470444.png (21.52 KB, 下載次數(shù): 8)
下載附件
保存到相冊
000ak3qlygi640112470444.png
2024-11-9 02:48 上傳
7 E4 @# o' N4 w- u5 B
|
: a2 a' M, f" T3 I# n+ c9 h0 v) W" i& t$ d5 Q& G! Q) K+ `
7 i4 |6 @7 a" J0 U* c
# C0 U1 u7 e# s. l& O
關(guān)于我們:" j' } D1 n3 p9 B+ z3 [
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。0 r/ r0 I7 Y8 D6 m0 j2 p( _
) A I8 Z. K9 d. A& o+ Chttp://www.latitudeda.com/7 A Z( s/ j6 L1 L
(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|