|
引言
9 P1 L5 t" S! r; P/ p) p3 D( n/ e) i在當(dāng)今快速發(fā)展的技術(shù)環(huán)境中,對高效且可持續(xù)的計算解決方案的需求從未如此迫切。本文旨在幫助了解AI和云原生工作負(fù)載方面的創(chuàng)新。隨著人工智能(AI)和云原生工作負(fù)載的復(fù)雜性和規(guī)模不斷增長,需要能夠處理這些任務(wù)同時最大限度減少能源消耗的處理器變得極為重要。AmpereOne應(yīng)運(yùn)而生,這是一系列突破性的云原生處理器,旨在直面現(xiàn)代計算的挑戰(zhàn)[1]。
# k* s$ {) `3 {+ z3 W" ~
2 h" l( n! E; B Q$ z: S, z/ \8 M處理器設(shè)計的范式轉(zhuǎn)變3 D; N: Q+ ?* u7 @
傳統(tǒng)的處理器設(shè)計技術(shù)在滿足當(dāng)今工作負(fù)載需求方面已達(dá)到極限。AmpereOne代表了范式轉(zhuǎn)變,摒棄了傳統(tǒng)的渦輪頻率和超線程等方法。相反,它專注于功率優(yōu)化、一致的性能和線性核心擴(kuò)展。" P8 ^8 A7 Q$ t$ ]. X- m
uq1nz3ceyd3640112469142.png (132.3 KB, 下載次數(shù): 7)
下載附件
保存到相冊
uq1nz3ceyd3640112469142.png
2024-11-9 02:48 上傳
V4 R7 V2 e! @/ Z: }; k0 |
圖1展示了從傳統(tǒng)處理器技術(shù)到AmpereOne創(chuàng)新方法的轉(zhuǎn)變,強(qiáng)調(diào)了功率優(yōu)化和線性核心擴(kuò)展的重點。' _ B$ X' k0 w, T
# Y9 W; v+ U5 h8 _7 K" A3 M4 R- D: {AmpereOne路線圖:持續(xù)創(chuàng)新的承諾
& a( z! d$ F/ j' ~AmpereOne的產(chǎn)品路線圖展示了快速創(chuàng)新的步伐,明確承諾在氣冷環(huán)境下為AI計算提供每機(jī)架最佳性能。路線圖從當(dāng)前的AmpereOne系列開始,具有高達(dá)192個核心的5nm工藝,一直延伸到未來的迭代版本,如AmpereOne Aurora,承諾提供高達(dá)512個核心,并集成用于訓(xùn)練和推理工作負(fù)載的AI硅。
; G9 f, c9 e. D5 J: w" S
nxxxdumrr4p640112469242.png (197.01 KB, 下載次數(shù): 7)
下載附件
保存到相冊
nxxxdumrr4p640112469242.png
2024-11-9 02:48 上傳
! d# S! n; A! B2 f
圖2展示了AmpereOne的產(chǎn)品路線圖,展示了從當(dāng)前型號到未來迭代的發(fā)展過程,核心數(shù)量不斷增加,功能不斷先進(jìn)。
6 O$ W1 E( g: Y9 Z% C
' o: E b( d! x, B# N) W& G深入了解AmpereOne核心' \' t; u1 @6 s" C
AmpereOne性能的核心在于其創(chuàng)新的核心設(shè)計。讓我們探索使該處理器脫穎而出的關(guān)鍵組件:
) b1 O& Y7 @, b& C5 @- d: z
0 N1 b$ C: C1 @( C7 S7 J( s# V1. 前端
* o, s! }: a" h' u! @4 g最先進(jìn)的分支預(yù)測解耦的預(yù)測和獲取流水線用于大代碼足跡的高帶寬接口, b7 C; ^0 Y+ e+ S/ x9 S
! \9 Z7 ~- ^7 h) o9 b, C9 r$ v; H
2. 執(zhí)行
3 c; L# t. p2 ~" @9 }; t' [# b8個調(diào)度器供給12個執(zhí)行管道對稱的整數(shù)和FP/矢量執(zhí)行管道通過單uop int8 MMLA支持AI推理吞吐量
6 j( I- {8 ~0 ]8 Y% C1 V# \+ d6 f8 B* c( J- S% ] q, j. ~
3. 加載存儲單元 D- J) l; P5 w9 v
64KB,4路寫直通DL1緩存4周期整數(shù)加載使用延遲從零開始的熔斷保護(hù); U4 h( ]# `$ O4 d- a0 E( t, `$ v, d
2 ?/ \: v+ M7 J# X( k9 T7 z- q4. 內(nèi)存管理
6 y0 C \5 k# b$ r! l支持任何頁面大小的通用TLB條目用于頁面遍歷的專用L2接口優(yōu)化的TLB維護(hù)響應(yīng)時間
0 Z9 r; O4 a" {, x
1 ]7 x; Z4 `4 n) f% i! f5. L2緩存6 ^4 k- R$ E* p- D' d8 E
2MB 8路私有L2數(shù)據(jù)/指令緩存11周期加載使用延遲請求率和預(yù)取的自適應(yīng)節(jié)流
9 Q7 [: o" @, W7 j" Z& u4 v, F* B& v- J) M# f4 t# \
# g! H. M, M' X. b+ ]" ?
yjgwmsbkfv5640112469343.png (258.95 KB, 下載次數(shù): 10)
下載附件
保存到相冊
yjgwmsbkfv5640112469343.png
2024-11-9 02:48 上傳
8 v3 W. J3 i- z3 H圖3概述了AmpereOne核心流水線,突出顯示了各個組件及其互連。
7 x7 a% q( w3 D- ?
( O! s3 U! ^3 F" H4 y4 w5 _AmpereOne的分解架構(gòu)1 I4 u$ L) v3 B4 ~: C T
AmpereOne的一個關(guān)鍵創(chuàng)新是分解架構(gòu)。這種方法將計算、內(nèi)存和PCIe子系統(tǒng)分離到不同的芯片上,每個芯片使用最合適的制程制造。然后,這些組件通過Ampere的自定義芯片間(D2D)互連連接,每個方向能夠達(dá)到2.8TB/s的帶寬。
% A/ P* f" a' y8 k) T
mcccjpnso5p640112469443.png (143.58 KB, 下載次數(shù): 11)
下載附件
保存到相冊
mcccjpnso5p640112469443.png
2024-11-9 02:48 上傳
' O1 h% ]8 k0 K; f# f圖4展示了AmpereOne的分解架構(gòu),顯示了計算、內(nèi)存和PCIe組件如何分離和互連。
2 c% R- M) l& R6 v" n; L! H& ~. D' d7 [* V8 ?
這種靈活的架構(gòu)允許:
1 _3 ^+ } x0 ^, O! m0 G使用相同的構(gòu)建塊實現(xiàn)8通道和12通道設(shè)計快速集成客戶IP定制以滿足獨特的客戶I/O和內(nèi)存需求
3 l6 h+ n, K! ]' d2 q
! k; g/ f+ r7 b- h增強(qiáng)安全性和性能的先進(jìn)功能
1 a1 m8 v m/ N( n內(nèi)存標(biāo)記
( H8 u6 u9 S1 h$ nAmpereOne引入了強(qiáng)大的內(nèi)存標(biāo)記功能,增強(qiáng)了穩(wěn)健性和安全性。這一功能有助于檢測指針編程錯誤并減輕利用內(nèi)存安全漏洞的攻擊。9 R* V" u# w4 g3 x. l5 o
+ J5 y( h, A6 b內(nèi)存標(biāo)記的關(guān)鍵方面:
% K f+ f. E/ d: p+ y$ X: ^每16字節(jié)內(nèi)存粒度獲得4位"分配標(biāo)記"指針在地址的高位攜帶"訪問標(biāo)記"核心對每次內(nèi)存訪問檢查"訪問標(biāo)記 = 分配標(biāo)記"不匹配會導(dǎo)致故障并阻止數(shù)據(jù)訪問+ `( f7 W# k! m3 A
: c- [& H7 P3 J$ ^
7 b: }2 ] m/ `4 C* K& v
nlqco5wqc1y640112469543.png (251.8 KB, 下載次數(shù): 7)
下載附件
保存到相冊
nlqco5wqc1y640112469543.png
2024-11-9 02:48 上傳
2 Y" j5 u1 ]; j4 t5 i- K6 b圖5演示了內(nèi)存標(biāo)記的概念,顯示了標(biāo)記如何與內(nèi)存分配和指針相關(guān)聯(lián)。 v- u( o& A- q+ M" t9 B, V4 p
6 E8 `/ J. ^8 T) U3 {) D3 Q9 z自適應(yīng)流量管理
2 S1 b! a7 M! T# K/ [5 x% M, i為了提供一致和可擴(kuò)展的性能,AmpereOne采用了自適應(yīng)流量管理。這一能力對于最小化運(yùn)行間變異和獨立并發(fā)工作負(fù)載之間的干擾非常關(guān)鍵。
( h8 f R$ @& k2 Y2 Z; F# e
- z5 E1 d6 \9 l4 ?( O運(yùn)行原理:+ R$ @+ i% s6 |$ D8 y
內(nèi)存服務(wù)代理通報"繁忙"程度核心相應(yīng)地修改請求流量的速率和配置針對不同工作負(fù)載行為的自適應(yīng)響應(yīng)
; \1 t: r/ R5 P8 K
8 |6 I# o( a4 O9 g0 W; E w$ O- ^' `) S g- |
jhtr4ttesbk640112469643.png (260.76 KB, 下載次數(shù): 8)
下載附件
保存到相冊
jhtr4ttesbk640112469643.png
2024-11-9 02:48 上傳
% S, h# }$ \* C, L: b; l
圖6比較了AmpereOne與AMD Bergamo和AMD Genoa的加載延遲,展示了自適應(yīng)流量管理的有效性。
0 W+ O9 y% I- w9 J0 s: X3 y7 T: K' g& w7 S4 R8 ?( K
性能領(lǐng)先地位; w6 ? U# d& |) F: X
AmpereOne在各種基準(zhǔn)測試和工作負(fù)載中展示了令人印象深刻的性能指標(biāo):
& `* N6 b( x: [7 \% z
# h- S" z! b! @. l1. SPECrate 2017_int_base:
B6 T7 I! I' @- c2 P% C每機(jī)架性能比AMD Genoa高出34%每瓦性能比AMD Genoa高出50%) c! v0 V: i) x5 ?' N8 q, P
1 {7 y$ A9 X& l& A8 |1 F6 F
+ p. r- r, {5 j9 a
qpe3xbxt5lh640112469743.png (161.4 KB, 下載次數(shù): 7)
下載附件
保存到相冊
qpe3xbxt5lh640112469743.png
2024-11-9 02:48 上傳
) v' _' [) R" d, Y% _$ E圖7比較了AmpereOne與AMD Genoa和AMD Bergamo在SPECrate 2017_int_base基準(zhǔn)測試中的每機(jī)架性能和每瓦性能。
- r( c' ^- @( ^% b% u+ w0 ^5 J
" [* P- d% r, S0 I' C2 v( u2. 云原生工作負(fù)載:
6 a" X, I# z S- R, K6 c鍵值存儲的每機(jī)架性能提高了58%在容器化Web服務(wù)、緩存和數(shù)據(jù)庫方面有顯著改進(jìn)
! A; i0 i; s' m! L3 n5 C" x' N+ a* ?7 m1 z U
( Y$ W U6 |1 q
su42cbzjji2640112469844.png (184.4 KB, 下載次數(shù): 7)
下載附件
保存到相冊
su42cbzjji2640112469844.png
2024-11-9 02:48 上傳
( n# f! K: ~! b: k, x4 N圖8展示了AmpereOne在各種云原生工作負(fù)載中相對于AMD Genoa和AMD Bergamo的每機(jī)架性能改進(jìn)。
" W" |) G2 _3 G2 S
, q V1 k1 m2 f# j3. AI推理:% T6 O M" |% ]( H
在無GPU推理性能和效率方面處于領(lǐng)先地位在各種AI模型(包括BERT、ResNet-50、Stable Diffusion和LLAMA 3 8B)中表現(xiàn)出色$ y% J( h [5 N$ H
! ?% e1 U/ g2 z9 u8 G4 n
0 v1 L" f* L, ]& k
ulcnfjlumvu640112469944.png (254.06 KB, 下載次數(shù): 9)
下載附件
保存到相冊
ulcnfjlumvu640112469944.png
2024-11-9 02:48 上傳
1 r8 z1 f) u- ~圖9比較了AmpereOne與AMD EPYC和Intel Xeon處理器在不同AI模型中的推理性能和每瓦推理性能。1 `/ s7 `* |# V) [3 G7 |% R
3 y( k( I# S) ?生態(tài)系統(tǒng)就緒# S& o1 q$ o8 o* y" l
任何處理器架構(gòu)的成功都取決于生態(tài)系統(tǒng)的支持。AmpereOne在各個類別中都擁有強(qiáng)大的生態(tài)系統(tǒng):& G6 q9 C. C3 _3 T, B
操作系統(tǒng):支持流行的Linux發(fā)行版,如Alma Linux和Ubuntu編排、虛擬化和容器:與Docker、Kubernetes和VMware等領(lǐng)先平臺兼容語言和運(yùn)行時:支持Java、Python、Go等網(wǎng)絡(luò)和存儲:與Mellanox、Marvell等解決方案集成應(yīng)用程序:準(zhǔn)備用于廣泛的Web服務(wù)、數(shù)據(jù)庫、AI和云游戲應(yīng)用; W3 y" |' {# a( t4 x6 K
$ J7 q+ W. j4 b0 r
* U/ u3 `5 {; G2 H2 K8 o
0hbp4221e3a640112470044.png (216.43 KB, 下載次數(shù): 8)
下載附件
保存到相冊
0hbp4221e3a640112470044.png
2024-11-9 02:48 上傳
9 @9 ^) x' b i% r. m3 Y4 I/ s" z0 \- s圖10展示了AmpereOne廣泛的生態(tài)系統(tǒng)支持,突出顯示了各種軟件和硬件兼容性類別。. J% E8 Q: W+ k# Z1 e: g [
5 w* S' i9 }. f7 W: C3 n
結(jié)論
- U ^% w# C* KAmpereOne代表了AI和云原生工作負(fù)載處理器設(shè)計的重大進(jìn)步。其創(chuàng)新架構(gòu)專注于可持續(xù)計算和可擴(kuò)展性能,使其在快速發(fā)展的數(shù)據(jù)中心和云計算領(lǐng)域處于領(lǐng)先地位。隨著對高效AI處理需求的持續(xù)增長,AmpereOne在分解設(shè)計、先進(jìn)安全功能和生態(tài)系統(tǒng)支持方面的方法使其成為組織構(gòu)建下一代云基礎(chǔ)設(shè)施的極具吸引力的選擇。
2 Y& C- }4 j3 Z+ d# y
$ n8 c1 Z# g# ?8 n7 e; F通過優(yōu)先考慮每瓦性能和適應(yīng)多樣化工作負(fù)載的能力,AmpereOne不僅滿足了行業(yè)的當(dāng)前需求,還為未來可持續(xù)計算的創(chuàng)新奠定了基礎(chǔ)。隨著我們邁向日益由AI驅(qū)動的世界,像AmpereOne這樣的處理器將在確保我們的技術(shù)進(jìn)步不以環(huán)境可持續(xù)性為代價方面發(fā)揮關(guān)鍵作用。6 |9 O5 m3 e2 ]0 R6 W" ~3 h# h
" r- ?* u/ p' J! F% I% D N' _6 E- z0 p
參考文獻(xiàn)
2 n# U8 Y( u& Q$ m& R; I[1] M. Erler, "Sustainable Computing for AI & Cloud Native Workloads," Ampere Computing, Aug. 27, 2024.1 o: ?( `) I4 _! i8 q" q
3 E5 h- ^9 e+ ]END
% F' j; \. E, ]5 C
: ] _2 Z6 x3 v. o* R
% N. n& o0 o q軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
6 Q' ]) H7 e6 W% G+ a點擊左下角"閱讀原文"馬上申請" z/ Z3 _8 h5 \" f$ b
: f" X1 e; V$ [/ m
歡迎轉(zhuǎn)載- R9 X) r- x. ]: ?# I9 M
( r7 [; l6 E5 a. h/ \- L- J
轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!6 Z+ [+ E8 G: U% c
- a, u3 Y3 `; @4 m% O! w
8 z* \$ ?% b" @( v2 C7 d3 c5 u% f+ P2 o1 }
c2dgcf5cv33640112470144.gif (16.04 KB, 下載次數(shù): 6)
下載附件
保存到相冊
c2dgcf5cv33640112470144.gif
2024-11-9 02:48 上傳
; W% o& T7 n7 ]% S% |' K8 m: ?" W
9 n. G; m7 l5 S* [/ D9 V關(guān)注我們
) v+ S4 N, B( B4 D' w
! \, x& k0 O& y+ l2 b
1 [7 |) w- ]/ d) t
rj20gyvvgpw640112470244.png (31.33 KB, 下載次數(shù): 6)
下載附件
保存到相冊
rj20gyvvgpw640112470244.png
2024-11-9 02:48 上傳
1 P7 K& q( f1 q |
+ V! D+ ]) R8 Y% F& Z- `) A& v
xf30cmr0kwg640112470344.png (82.79 KB, 下載次數(shù): 8)
下載附件
保存到相冊
xf30cmr0kwg640112470344.png
2024-11-9 02:48 上傳
4 K- L. k O. b7 g0 a- I* t$ O |
' E5 v$ o1 f- H" V {. i
000ak3qlygi640112470444.png (21.52 KB, 下載次數(shù): 7)
下載附件
保存到相冊
000ak3qlygi640112470444.png
2024-11-9 02:48 上傳
( y7 b' j6 n/ F. o1 m | 9 w+ N' E( v- M; ?; b3 I
- A; O+ u2 Z& ^2 G
9 `- \" ~& b2 G' ^4 l- w4 H
$ P6 }9 r* R" o( C6 R& V; v2 r關(guān)于我們:6 R+ _$ A7 g9 x6 x
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。9 z f& z' F2 ^0 U L7 Q
5 b8 J+ h+ k j2 t
http://www.latitudeda.com/+ j6 j/ Q! [9 {- o4 Y) [1 W
(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|