|
引言
+ ?' K5 ~1 c2 D N9 P& c高性能計(jì)算(HPC)和人工智能(AI)領(lǐng)域因異構(gòu)系統(tǒng)而發(fā)生了巨大變革,特別是那些集成了GPU的系統(tǒng)。隨著工作負(fù)載越來越受內(nèi)存限制,優(yōu)化系統(tǒng)內(nèi)部的通信延遲和帶寬變得極為重要。NVIDIA Grace Hopper超級芯片(GH200)代表了緊密耦合異構(gòu)系統(tǒng)的重大進(jìn)步,提供了統(tǒng)一的地址空間和對系統(tǒng)所有主內(nèi)存的透明細(xì)粒度訪問。* C& _' H! T# G/ U- p
2 P4 P" ?) N9 ~本文將探討Quad GH200節(jié)點(diǎn)的架構(gòu)(這是瑞士國家超級計(jì)算中心Alps超級計(jì)算機(jī)的基本構(gòu)建塊),并提供有關(guān)如何優(yōu)化這一尖端系統(tǒng)內(nèi)存操作的見解[1]。' m' R" g1 x3 W
etd2yxyhk1r640131845344.png (268.61 KB, 下載次數(shù): 12)
下載附件
保存到相冊
etd2yxyhk1r640131845344.png
7 天前 上傳
# R8 }2 }& v1 \3 U* I# I! z
" O2 P7 t& |0 J8 y& _! N' h- W% v% ]架構(gòu)概述
' |# l$ A. X" H/ rQuad GH200節(jié)點(diǎn)由四個(gè)GH200超級芯片組成,每個(gè)超級芯片結(jié)合了一個(gè)Grace CPU和一個(gè)Hopper GPU。這些單元通過NVLink和緩存一致性互連全面互聯(lián)。讓我們來看看關(guān)鍵組件:, Q& D! d. @9 I# F1 @5 W8 j
dn4vw1s5zfv640131845445.png (558.67 KB, 下載次數(shù): 11)
下載附件
保存到相冊
dn4vw1s5zfv640131845445.png
7 天前 上傳
/ [: I& H- A# n, v2 N+ V ]圖1:Quad GH200節(jié)點(diǎn)的架構(gòu)
9 M- D1 p: `: P! D1 E' p
& l. @5 n# Y* m" ~4 S* I" g如圖1所示,每個(gè)GH200超級芯片具有以下特點(diǎn):* Q$ c) j$ R1 V
一個(gè)Grace CPU,有72個(gè)Arm Neoverse V2核心一個(gè)Hopper GPU,有132個(gè)流式多處理器(SMs)96GB的HBM3內(nèi)存(4000 GB/s帶寬)128GB的LPDDR5內(nèi)存(500 GB/s帶寬)1 ?& x( i; V5 Z9 ^5 U8 d: L
1 h4 J, z/ p& J: I0 p/ x" eGH200單元通過以下方式互連:
2 S/ S$ k+ `( VNVLink:每個(gè)方向150 GB/s(總共900 GB/s)Grace互連:每個(gè)方向150 GB/sNVLink-C2C(C2C):每個(gè)方向450 GB/s(總共900 GB/s)
: N0 ^, c% `9 d# p7 A* R: M+ H1 F: l! W! E9 p
每個(gè)節(jié)點(diǎn)還通過單獨(dú)的網(wǎng)絡(luò)接口卡連接到Slingshot網(wǎng)絡(luò),每個(gè)方向提供25 GB/s(總共200 GB/s)的節(jié)點(diǎn)間通信。
7 s; U0 V3 W u6 Y: p/ M$ A5 @! i k) N2 w$ S
內(nèi)存層次結(jié)構(gòu)和NUMA
; k" I3 b8 o0 [- F3 `Quad GH200系統(tǒng)呈現(xiàn)出復(fù)雜的內(nèi)存層次結(jié)構(gòu),具有非統(tǒng)一內(nèi)存訪問(NUMA)特性。
+ l! @$ Z$ X+ o6 v) K每個(gè)GH200由兩個(gè)NUMA節(jié)點(diǎn)組成:與Grace親和的LPDDR5內(nèi)存與Hopper親和的HBM3內(nèi)存
* b& W0 b* F8 }9 e0 r[/ol]
) y1 ]. G: _- M$ G3 p總的來說,一個(gè)Quad GH200節(jié)點(diǎn)有八個(gè)NUMA節(jié)點(diǎn),四個(gè)與Grace CPU相關(guān)(NUMA 0-3),四個(gè)與Hopper GPU相關(guān)(NUMA 4, 12, 20, 28)。* O3 H7 E7 A% A `0 f$ l# @( ?- _2 `# g
3 a) W# [9 d$ [2 n/ u! e理解數(shù)據(jù)路徑
! ^* C1 v( \( ^: C3 ^9 {7 A4 _為了優(yōu)化內(nèi)存操作,理解不同類型操作的數(shù)據(jù)路徑非常重要。讓我們來看看讀取、寫入和復(fù)制操作:
# x; y, o- I% F. X# [& c) Z
lbyf5202vbv640131845545.png (490.68 KB, 下載次數(shù): 11)
下載附件
保存到相冊
lbyf5202vbv640131845545.png
7 天前 上傳
5 I6 z1 W+ Q# O% R7 g
圖2:Hopper操作的數(shù)據(jù)路徑2 c- w+ q1 _6 B5 C; X
" I: r. J. N- z: A; ~1 b
圖2說明了Hopper GPU執(zhí)行的讀取、寫入和復(fù)制操作的數(shù)據(jù)路徑。+ @, l4 B9 e. k5 D3 ~
注意:
, F' a/ H! [+ w( v4 u* G$ F# ^本地HBM訪問具有最短的路徑和最高的帶寬(4000 GB/s)跨C2C互連的操作限制在450 GB/s復(fù)制操作可能需要多次互連遍歷,影響可達(dá)到的帶寬" `% l- Y+ |( {% d1 s3 z
+ @% r7 |5 A' c
內(nèi)存操作基準(zhǔn)測試$ C' l* J$ {5 {4 z8 O
為了理解Quad GH200系統(tǒng)的性能特征,我們將檢查各種微基準(zhǔn)測試的結(jié)果:3 N8 V* A: J; Z
1. 讀取和寫入操作:# _. x, r$ I1 [0 M8 b5 b7 p$ j' I
zn3tj0za4tf640131845646.png (153.05 KB, 下載次數(shù): 12)
下載附件
保存到相冊
zn3tj0za4tf640131845646.png
7 天前 上傳
8 `+ d0 ^# s, _: _9 R$ i3 h
圖3:讀取和寫入吞吐量1 Z, ~; l3 o7 O5 H) |1 T
$ K5 g. S h. O, L; R圖3顯示了Grace和Hopper在不同類型內(nèi)存上進(jìn)行讀取和寫入操作的吞吐量,包括空閑條件下和C2C互連負(fù)載下的情況。
! H4 P7 m* T: S* Y主要觀察:; s: A5 x- T9 y( y: V* F6 ~- ]. _
Hopper通常在本地內(nèi)存訪問時(shí)更好地利用C2C互連跨越C2C和NVLink的操作會產(chǎn)生顯著開銷在負(fù)載下,對HBM的寫入受影響最大,特別是對Grace而言! t7 f! y% D4 Q2 j& o
6 a/ C1 [% L$ j6 x
2. 復(fù)制操作:
' J$ y7 z: t! f1 d
lhmh55x401p640131845746.png (120.02 KB, 下載次數(shù): 8)
下載附件
保存到相冊
lhmh55x401p640131845746.png
7 天前 上傳
, I9 Y7 u2 ?, Q7 b圖4:復(fù)制吞吐量
$ j1 [. F2 O6 @( j' T( q9 t0 B' Z5 T; d! Q7 {* E5 `7 z6 D- `& n
圖4說明了Grace和Hopper在不同源和目標(biāo)內(nèi)存類型之間進(jìn)行復(fù)制操作的吞吐量。0 f; x: E3 k8 I1 g
值得注意的發(fā)現(xiàn):
+ T" \! q+ g$ W* l- I內(nèi)存?zhèn)鬏敶嬖诓粚ΨQ性(例如,Grace在從本地內(nèi)存復(fù)制到對等GH200時(shí)達(dá)到更高的吞吐量)Hopper在跨越多個(gè)互連時(shí)通常能更有效地利用可用帶寬
1 y+ R L0 H' I: f$ s l( l9 M
# u9 U' C/ d1 ?/ W$ _; N6 _# T' z3. 延遲:
' x+ Z1 S5 J: J! j; ~
2bha1dosrmk640131845846.png (75.84 KB, 下載次數(shù): 12)
下載附件
保存到相冊
2bha1dosrmk640131845846.png
7 天前 上傳
# l; B* D1 H; V' t' k6 N圖5:主內(nèi)存訪問延遲( ]7 {) E3 o0 B1 p0 U- k3 C4 e
1 o$ L# Y& v! J7 z: M+ X5 L
圖5顯示了Grace和Hopper的主內(nèi)存訪問延遲。有趣的是,跨越C2C互連的訪問(Grace到HBM和Hopper到DDR)表現(xiàn)出相似的延遲。; y6 c1 p: e4 Y4 [9 n
: M+ p: l3 G1 k5 Q, d
優(yōu)化應(yīng)用程序
( V5 b; {+ L! V! F; @理解這些性能特征對于在Quad GH200系統(tǒng)上優(yōu)化應(yīng)用程序非常重要。讓我們來看一些示例工作負(fù)載及其基于內(nèi)存放置的性能:2 q! ]( @+ Y1 }$ V5 `( ^1 e6 X
1. GEMM(通用矩陣乘法):; W( D% o% E; [' ?5 c8 B
xwra2nee20t640131845946.png (141.24 KB, 下載次數(shù): 11)
下載附件
保存到相冊
xwra2nee20t640131845946.png
7 天前 上傳
8 G& z7 o& l2 W5 ~2 C, b \
圖6:GEMM性能
& |! L+ Y9 u* y5 r& y8 H4 h5 m0 U1 q/ W. ]
圖6顯示了矩陣放置在不同內(nèi)存位置的GEMM操作性能。主要要點(diǎn):
( ^8 U/ P* q9 }HBM放置對于最佳性能至關(guān)重要,特別是對于使用Tensor Cores的數(shù)據(jù)類型即使將一個(gè)矩陣移出HBM也可能顯著影響性能
' b& e* s( e/ M; ^: e7 v5 O- G% e' ~
2. LLM(大型語言模型)推理:
+ v2 q$ G) z. ]$ k( ?
20014rdhvzh640131846046.png (60.41 KB, 下載次數(shù): 11)
下載附件
保存到相冊
20014rdhvzh640131846046.png
7 天前 上傳
' w0 Q( A+ \3 N7 h$ N
圖7:LLM推理時(shí)間
, ] F9 J& o2 u, |2 t7 J0 F0 d( N; i& h# A1 K
圖7顯示了不同模型和內(nèi)存分配的LLM推理時(shí)間。觀察結(jié)果:: p6 d5 h, r+ V4 p0 W8 o1 o+ F7 P+ M# r6 _
內(nèi)存訪問速度對吞吐量起著根本作用HBM分配提供最佳性能,而對等內(nèi)存訪問顯著影響推理時(shí)間
\1 [; v, d- d& z. k' e
% M& b3 m1 b. I+ D a3. NCCL(NVIDIA集體通信庫)操作:
- c* ]. V. w" H7 p! L1 \
wtcar1tazwv640131846146.png (98.46 KB, 下載次數(shù): 11)
下載附件
保存到相冊
wtcar1tazwv640131846146.png
7 天前 上傳
. s' A* p/ W _. v0 m. f& ]9 e圖8:NCCL All Reduce和All Gather性能, v5 c! |+ J4 G1 B+ H" Y, A* ^
6 [$ P; p$ x# m6 ]( ?- u9 o
圖8說明了節(jié)點(diǎn)內(nèi)All Reduce和All Gather操作的性能。關(guān)鍵點(diǎn):
% L* X3 J; a; t7 D超級芯片局部性比使用的內(nèi)存類型更重要同一GH200內(nèi)存大大優(yōu)于對等訪問* {& H, U$ F8 f7 o% e
8 A' l! n, `' r6 e3 H" }( p( Q
最佳實(shí)踐和建議
3 D ~+ X2 q) ]; p4 e/ ]基于從這些基準(zhǔn)測試和應(yīng)用程序示例中獲得的見解,以下是在Quad GH200系統(tǒng)上優(yōu)化內(nèi)存操作的一些最佳實(shí)踐:優(yōu)先使用HBM:盡可能將性能關(guān)鍵數(shù)據(jù)放在本地HBM內(nèi)存中,特別是對于GPU密集型工作負(fù)載。最小化跨GH200訪問:盡量將數(shù)據(jù)保持在執(zhí)行計(jì)算的GH200單元本地,因?yàn)閷Φ葍?nèi)存訪問會導(dǎo)致顯著的性能損失。謹(jǐn)慎利用統(tǒng)一內(nèi)存:雖然統(tǒng)一內(nèi)存簡化了編程,但要注意與顯式內(nèi)存管理相比的性能特征。考慮內(nèi)存?zhèn)鬏數(shù)牟粚ΨQ性:在設(shè)計(jì)數(shù)據(jù)移動模式時(shí),要考慮不同內(nèi)存類型之間復(fù)制操作的不對稱性。優(yōu)化集體操作:對于使用NCCL或類似庫的應(yīng)用程序,專注于超級芯片局部性以最大化性能。分析和迭代:使用分析工具識別應(yīng)用程序中的內(nèi)存訪問模式,并根據(jù)系統(tǒng)的性能特征迭代優(yōu)化數(shù)據(jù)放置。
) ]) o% V3 k9 d8 v[/ol]; g( t( N J( t3 Z% O, D
結(jié)論) K( B7 e3 d0 F7 o$ U* [2 H# F
Quad GH200節(jié)點(diǎn)為HPC和AI工作負(fù)載提供了強(qiáng)大的計(jì)算能力和內(nèi)存帶寬。然而,要充分利用其潛力,開發(fā)人員必須理解其復(fù)雜的內(nèi)存層次結(jié)構(gòu)并相應(yīng)地優(yōu)化數(shù)據(jù)放置。通過遵循本文概述的最佳實(shí)踐并仔細(xì)考慮不同內(nèi)存操作的性能特征,可以顯著提高在這一先進(jìn)異構(gòu)系統(tǒng)上應(yīng)用程序的效率。4 X* F% o" t1 g; z, Z* L
, u& o" G( n3 _參考文獻(xiàn)6 t R. ^5 G6 ^9 j' H" s+ s
[1] L. Fusco et al., "Understanding Data Movement in Tightly Coupled Heterogeneous Systems: A Case Study with the Grace Hopper Superchip," arXiv preprint arXiv:2408.11556v2, Aug. 2024.
# ?7 H' v" Z+ @7 _/ u2 \3 z8 O) c$ T" W2 ?! i
END
0 o! f9 b5 A' J0 ]/ W# z* S9 R, |
" v9 B- u4 G, K$ O4 K
" k9 X k! }3 v* t! a! F K) H軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
7 |+ i& T% n t! \+ B9 M- p點(diǎn)擊左下角"閱讀原文"馬上申請/ q, k4 s$ b, k( r' |9 C
6 k$ Z% X% t Y" u8 j1 ]歡迎轉(zhuǎn)載: P4 |5 j* r; l0 b4 @1 v2 e
1 H; o4 n$ u/ d
轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!# K9 ]1 y7 o2 v6 a7 N+ H
" B* a, z3 M9 [* Q0 S
( [# w: }+ D) W+ n/ \# D( {5 ^5 U' @+ ~6 Y0 Z
dwno3zivgzi640131846246.gif (16.04 KB, 下載次數(shù): 11)
下載附件
保存到相冊
dwno3zivgzi640131846246.gif
7 天前 上傳
. P8 n9 m8 h0 V4 Q9 u4 V5 m0 u" D5 R" h2 x0 ?
關(guān)注我們
) L( A& J; o. e
9 w I, w/ |, A% k5 D: v( p. {" g! h
. g) `+ n" X/ L; W# w4 w3 W8 t
4rylqec5bdo640131846346.png (31.33 KB, 下載次數(shù): 10)
下載附件
保存到相冊
4rylqec5bdo640131846346.png
7 天前 上傳
+ c, B2 i8 G& ~ f7 ^3 K
|
" F0 l4 p6 U, z! a: _2 M4 D
dmhmyzw3c0v640131846446.png (82.79 KB, 下載次數(shù): 11)
下載附件
保存到相冊
dmhmyzw3c0v640131846446.png
7 天前 上傳
( R+ t2 o/ H- i8 U' f8 M( J |
4 M3 Y7 j8 Y5 O- M- _
vjb0ch5fihn640131846546.png (21.52 KB, 下載次數(shù): 12)
下載附件
保存到相冊
vjb0ch5fihn640131846546.png
7 天前 上傳
2 K" k+ I. o( i: X$ u9 W- w
|
' z. `/ L9 |! j# s; l5 s5 S) B- a b8 f. n) A
' o9 |3 [; \6 j' x1 s: E9 X- U4 m' u4 m+ ]; q9 c. m+ ?* f
關(guān)于我們:1 U R, [; H! E V0 l3 z
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
0 w0 ~3 _& k% _$ t8 j8 C* y6 I" X5 [; m9 b3 W6 k/ f
http://www.latitudeda.com/' A7 z9 s3 N% v* `
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|