理解緊密耦合異構系統(tǒng)中的內(nèi)存操作：Grace Hopper超級芯片指南

逍遙設計自動化 · 發(fā)表于 2024-11-12 08:01:00

引言
高性能計算（HPC）和人工智能（AI）領域因異構系統(tǒng)而發(fā)生了巨大變革，特別是那些集成了GPU的系統(tǒng)。隨著工作負載越來越受內(nèi)存限制，優(yōu)化系統(tǒng)內(nèi)部的通信延遲和帶寬變得極為重要。NVIDIA Grace Hopper超級芯片（GH200）代表了緊密耦合異構系統(tǒng)的重大進步，提供了統(tǒng)一的地址空間和對系統(tǒng)所有主內(nèi)存的透明細粒度訪問。

本文將探討Quad GH200節(jié)點的架構（這是瑞士國家超級計算中心Alps超級計算機的基本構建塊），并提供有關如何優(yōu)化這一尖端系統(tǒng)內(nèi)存操作的見解[1]。

架構概述
Quad GH200節(jié)點由四個GH200超級芯片組成，每個超級芯片結合了一個Grace CPU和一個Hopper GPU。這些單元通過NVLink和緩存一致性互連全面互聯(lián)。讓我們來看看關鍵組件：

圖1：Quad GH200節(jié)點的架構

如圖1所示，每個GH200超級芯片具有以下特點：

一個Grace CPU，有72個Arm Neoverse V2核心

一個Hopper GPU，有132個流式多處理器（SMs）

96GB的HBM3內(nèi)存（4000 GB/s帶寬）

128GB的LPDDR5內(nèi)存（500 GB/s帶寬）

GH200單元通過以下方式互連：

NVLink：每個方向150 GB/s（總共900 GB/s）

Grace互連：每個方向150 GB/s

NVLink-C2C（C2C）：每個方向450 GB/s（總共900 GB/s）

每個節(jié)點還通過單獨的網(wǎng)絡接口卡連接到Slingshot網(wǎng)絡，每個方向提供25 GB/s（總共200 GB/s）的節(jié)點間通信。

內(nèi)存層次結構和NUMA
Quad GH200系統(tǒng)呈現(xiàn)出復雜的內(nèi)存層次結構，具有非統(tǒng)一內(nèi)存訪問（NUMA）特性。
每個GH200由兩個NUMA節(jié)點組成：

與Grace親和的LPDDR5內(nèi)存

與Hopper親和的HBM3內(nèi)存
[/ol]
總的來說，一個Quad GH200節(jié)點有八個NUMA節(jié)點，四個與Grace CPU相關（NUMA 0-3），四個與Hopper GPU相關（NUMA 4, 12, 20, 28）。

理解數(shù)據(jù)路徑
為了優(yōu)化內(nèi)存操作，理解不同類型操作的數(shù)據(jù)路徑非常重要。讓我們來看看讀取、寫入和復制操作：

圖2：Hopper操作的數(shù)據(jù)路徑

圖2說明了Hopper GPU執(zhí)行的讀取、寫入和復制操作的數(shù)據(jù)路徑。
注意：

本地HBM訪問具有最短的路徑和最高的帶寬（4000 GB/s）

跨C2C互連的操作限制在450 GB/s

復制操作可能需要多次互連遍歷，影響可達到的帶寬

內(nèi)存操作基準測試
為了理解Quad GH200系統(tǒng)的性能特征，我們將檢查各種微基準測試的結果：
1. 讀取和寫入操作：

圖3：讀取和寫入吞吐量

圖3顯示了Grace和Hopper在不同類型內(nèi)存上進行讀取和寫入操作的吞吐量，包括空閑條件下和C2C互連負載下的情況。
主要觀察：

Hopper通常在本地內(nèi)存訪問時更好地利用C2C互連

跨越C2C和NVLink的操作會產(chǎn)生顯著開銷

在負載下，對HBM的寫入受影響最大，特別是對Grace而言

2. 復制操作：

圖4：復制吞吐量

圖4說明了Grace和Hopper在不同源和目標內(nèi)存類型之間進行復制操作的吞吐量。
值得注意的發(fā)現(xiàn)：

內(nèi)存?zhèn)鬏敶嬖诓粚ΨQ性（例如，Grace在從本地內(nèi)存復制到對等GH200時達到更高的吞吐量）

Hopper在跨越多個互連時通常能更有效地利用可用帶寬

3. 延遲：

圖5：主內(nèi)存訪問延遲

圖5顯示了Grace和Hopper的主內(nèi)存訪問延遲。有趣的是，跨越C2C互連的訪問（Grace到HBM和Hopper到DDR）表現(xiàn)出相似的延遲。

優(yōu)化應用程序
理解這些性能特征對于在Quad GH200系統(tǒng)上優(yōu)化應用程序非常重要。讓我們來看一些示例工作負載及其基于內(nèi)存放置的性能：
1. GEMM（通用矩陣乘法）：

圖6：GEMM性能

圖6顯示了矩陣放置在不同內(nèi)存位置的GEMM操作性能。主要要點：

HBM放置對于最佳性能至關重要，特別是對于使用Tensor Cores的數(shù)據(jù)類型

即使將一個矩陣移出HBM也可能顯著影響性能

2. LLM（大型語言模型）推理：

圖7：LLM推理時間

圖7顯示了不同模型和內(nèi)存分配的LLM推理時間。觀察結果：

內(nèi)存訪問速度對吞吐量起著根本作用

HBM分配提供最佳性能，而對等內(nèi)存訪問顯著影響推理時間

3. NCCL（NVIDIA集體通信庫）操作：

圖8：NCCL All Reduce和All Gather性能

圖8說明了節(jié)點內(nèi)All Reduce和All Gather操作的性能。關鍵點：

超級芯片局部性比使用的內(nèi)存類型更重要

同一GH200內(nèi)存大大優(yōu)于對等訪問

最佳實踐和建議
基于從這些基準測試和應用程序示例中獲得的見解，以下是在Quad GH200系統(tǒng)上優(yōu)化內(nèi)存操作的一些最佳實踐：

優(yōu)先使用HBM：盡可能將性能關鍵數(shù)據(jù)放在本地HBM內(nèi)存中，特別是對于GPU密集型工作負載。

最小化跨GH200訪問：盡量將數(shù)據(jù)保持在執(zhí)行計算的GH200單元本地，因為對等內(nèi)存訪問會導致顯著的性能損失。

謹慎利用統(tǒng)一內(nèi)存：雖然統(tǒng)一內(nèi)存簡化了編程，但要注意與顯式內(nèi)存管理相比的性能特征。

考慮內(nèi)存?zhèn)鬏數(shù)牟粚ΨQ性：在設計數(shù)據(jù)移動模式時，要考慮不同內(nèi)存類型之間復制操作的不對稱性。

優(yōu)化集體操作：對于使用NCCL或類似庫的應用程序，專注于超級芯片局部性以最大化性能。

分析和迭代：使用分析工具識別應用程序中的內(nèi)存訪問模式，并根據(jù)系統(tǒng)的性能特征迭代優(yōu)化數(shù)據(jù)放置。
[/ol]
結論
Quad GH200節(jié)點為HPC和AI工作負載提供了強大的計算能力和內(nèi)存帶寬。然而，要充分利用其潛力，開發(fā)人員必須理解其復雜的內(nèi)存層次結構并相應地優(yōu)化數(shù)據(jù)放置。通過遵循本文概述的最佳實踐并仔細考慮不同內(nèi)存操作的性能特征，可以顯著提高在這一先進異構系統(tǒng)上應用程序的效率。

參考文獻
[1] L. Fusco et al., "Understanding Data Movement in Tightly Coupled Heterogeneous Systems: A Case Study with the Grace Hopper Superchip," arXiv preprint arXiv:2408.11556v2, Aug. 2024.

END
) }3 ?8 @( t. S: n" |. \0 |/ h

軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用，PIC Studio都可提升您的工作效能。
點擊左下角"閱讀原文"馬上申請

歡迎轉(zhuǎn)載

轉(zhuǎn)載請注明出處，請勿修改內(nèi)容和刪除作者信息！

$ k v0 v/ |! Q/ s/ c$ ^$ z

關注我們

8 F8 d% X7 `7 d1 ~' ^6 Y

關于我們：
深圳逍遙科技有限公司（Latitude Design Automation Inc.）是一家專注于半導體芯片設計自動化（EDA）的高科技軟件公司。我們自主開發(fā)特色工藝芯片設計和仿真軟件，提供成熟的設計解決方案如PIC Studio、MEMS Studio和Meta Studio，分別針對光電芯片、微機電系統(tǒng)、超透鏡的設計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務，廣泛服務于光通訊、光計算、光量子通信和微納光子器件領域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作，推動特色工藝半導體產(chǎn)業(yè)鏈發(fā)展，致力于為客戶提供前沿技術與服務。

http://www.latitudeda.com/
（點擊上方名片關注我們，發(fā)現(xiàn)更多精彩內(nèi)容）

理解緊密耦合異構系統(tǒng)中的內(nèi)存操作：Grace Hopper超級芯片指南

發(fā)表回復

精選推薦