|
引言
: _# X; [: j2 f; r6 A/ @6 f" I隨著硅晶體管縮放接近極限,研究人員正在探索新技術(shù)以繼續(xù)提高處理器性能和效率。有前途的方向是使用片上光學(xué)網(wǎng)絡(luò)(也稱為光學(xué)片上網(wǎng)絡(luò)或光學(xué)NoC)來替代傳統(tǒng)的電氣互連。與電氣網(wǎng)絡(luò)相比,光學(xué)NoC在帶寬、延遲和功耗方面具有潛在優(yōu)勢。然而,有效管理光學(xué)NoC的功耗帶來了新的挑戰(zhàn)[1]。7 m/ s8 A4 L, e' \# A; D9 z
' ?; v; I6 A/ N6 L, x
本文將探討用于最小化光學(xué)NoC靜態(tài)功耗的激光調(diào)制方案。我們將介紹基于網(wǎng)絡(luò)活動動態(tài)調(diào)制激光功率的關(guān)鍵概念、架構(gòu)和預(yù)測技術(shù)。1 Z* V9 h: b, c. `6 x7 c; D$ n
* o7 v. x9 N# N! U1 ?& | y
& E- i8 W( L/ X! i: S. m2 t# M8 q
背景
0 D5 ]8 ^, q/ }, q/ Z光學(xué)NoC使用光來傳輸芯片上組件之間的數(shù)據(jù);緲(gòu)建模塊包括:. ^5 ^4 R5 O" H% H0 o8 `- R
激光器:光源,可以是片外或片上調(diào)制器:將電信號轉(zhuǎn)換為光信號波導(dǎo):在芯片上引導(dǎo)光光電探測器:將光信號轉(zhuǎn)換回電信號
2 V. @- ^: D# r$ c. ~7 C7 c7 V
- J1 J; C7 l* ?; u" m* E光傳輸本身非常高效,但產(chǎn)生光的激光器消耗大量功率。一個(gè)關(guān)鍵挑戰(zhàn)是光子不能像電荷那樣容易存儲。這意味著激光器通常需要持續(xù)供電,即使不主動傳輸數(shù)據(jù)時(shí)也是如此。這種靜態(tài)功耗可能占光學(xué)NoC總功耗的80-90%。
: A$ `# I! A2 U, i; S9 W/ ]8 m5 y( N$ f# ?6 H
為解決這個(gè)問題,研究人員開發(fā)了激光調(diào)制方案,旨在根據(jù)預(yù)測的網(wǎng)絡(luò)活動動態(tài)調(diào)整激光功率。一般方法包括:
8 {+ l! V# X+ [& P6 d' m監(jiān)控網(wǎng)絡(luò)活動指標(biāo)預(yù)測未來活動相應(yīng)調(diào)整激光功率重新配置網(wǎng)絡(luò)0 o( b3 W; @5 ~- ]% P R
( }: N! M5 }. K5 m4 |9 V9 e
讓我們看看為不同類型處理器提出的一些具體方案。
0 E1 `0 t! Z" r6 |: a: l( x# z; \2 e: }/ Z% F& o* E
多核CPU設(shè)計(jì)中的激光調(diào)制方案* v5 y0 P# P+ J! T: v/ e \/ G
Probe
4 [" {- A) J6 W5 D最早提出的激光調(diào)制方案之一是Probe。使用64核架構(gòu),核心分組為4x4塊。每個(gè)塊都有專用的片外激光器,可以使用單寫多讀(SWMR)總線廣播消息。; A0 P+ x% @3 Q9 z$ Z( J" G3 A
; Q6 |& \: f0 D$ MProbe根據(jù)鏈路利用率和緩沖區(qū)利用率指標(biāo)預(yù)測未來活動。使用兩種類型的預(yù)測器:用于低流量變化:過去和當(dāng)前利用率的加權(quán)平均用于高變化:由利用率水平索引的模式歷史表
+ x0 O* O! u% d+ o: r[/ol]3 [2 F6 s: I9 q" u2 V& p
錦標(biāo)賽預(yù)測器根據(jù)最近的準(zhǔn)確性在兩者之間選擇。% C- R) U. \# o P
+ y# Q, ?4 }' \9 w8 b L1 l, m
ColdBus
8 S1 f8 [' s* `8 jColdBus采用不同的方法,基于L1緩存未命中預(yù)測活動。關(guān)鍵洞察是在共享內(nèi)存系統(tǒng)中,大部分網(wǎng)絡(luò)流量來自L1未命中。- D8 u( m" i, u% X. p" I
, U2 x# R4 Z( ]" m, Q7 g4 @使用類似于分支預(yù)測器的基于PC的預(yù)測器來識別可能導(dǎo)致未命中的指令。然后,一個(gè)時(shí)期預(yù)測器估計(jì)這些未命中何時(shí)發(fā)生。# z* u+ }+ k/ |( |+ G+ X8 H5 k
. X* [5 [" B6 s3 `$ r
ColdBus還引入了一個(gè)"額外波導(dǎo)",為需要的站點(diǎn)提供應(yīng)急功率。
' u/ O9 Q2 C" H. }* j, f8 y+ U
: }. s$ A" W3 APShaRe6 m0 C* X _& o# O
PShaRe在之前工作的基礎(chǔ)上有幾個(gè)關(guān)鍵創(chuàng)新:一致性和非一致性流量的獨(dú)立網(wǎng)絡(luò)基于神經(jīng)網(wǎng)絡(luò)的非線性預(yù)測器站點(diǎn)之間的功率共享重用浪費(fèi)的光功率進(jìn)行熱調(diào)諧- q! @9 \* f8 B* U
[/ol]
, R0 e3 N: Y# f8 J3 }; f圖1顯示了整體架構(gòu):& D# D4 u5 w: G9 b* P
, I& G# H+ J# u) i4 [4 U
cjhdyiznw5w64024513536.png (157.24 KB, 下載次數(shù): 2)
下載附件
保存到相冊
cjhdyiznw5w64024513536.png
2024-9-20 01:31 上傳
+ g3 }% I4 m7 B
圖1:PShaRe架構(gòu),顯示連接光學(xué)站點(diǎn)的功率和數(shù)據(jù)波導(dǎo)。9 z+ C4 V( Q1 Q% o7 N7 _
" w3 [1 `, N( V$ m
神經(jīng)網(wǎng)絡(luò)預(yù)測器使用14個(gè)性能計(jì)數(shù)器輸入,對每個(gè)站點(diǎn)在下一個(gè)時(shí)期的活動進(jìn)行二元預(yù)測。' I( [# B& z! ]2 A/ S1 R
* z1 {. x# P( m4 f
BigBus! \: `4 t3 w. d/ g
對于非常大的核心數(shù)(500+),需要像BigBus這樣的設(shè)計(jì)。BigBus使用分層架構(gòu),將塊簇組成更大的單元。4 ?$ C. A' [1 M+ }: J. [# \
1 u& E6 C( B5 S) k1 h圖2說明了BigBus設(shè)計(jì):) p b, m, K5 m' i# d
, K* t, V9 L% v9 a( d8 c! f$ v* Y8 e
hck0tgbp1b364024513636.png (216.89 KB, 下載次數(shù): 3)
下載附件
保存到相冊
hck0tgbp1b364024513636.png
2024-9-20 01:31 上傳
( _& B; _% l* Y* u+ t" W圖2:BigBus架構(gòu),顯示由蛇形光鏈路連接的核心和緩存庫的分層組織。, }) n; S9 B& J3 z* o, m
1 F- {) \; m' H! F1 G. \
BigBus使用兩階段預(yù)測過程:每個(gè)站點(diǎn)根據(jù)等待時(shí)間和待處理事件決定是否增加/減少令牌激光控制器將當(dāng)前預(yù)測與歷史數(shù)據(jù)結(jié)合! k9 }1 Y1 @0 V+ j
[/ol]& I$ T/ W3 U4 G5 u4 }2 z" F
這允許在當(dāng)前條件的響應(yīng)性和穩(wěn)定性之間取得平衡。
: |9 ?5 V/ I; y7 T: W6 p
& ]1 b2 G/ D7 _5 I( N: p' `5 O' w$ d M7 b! \
多插槽系統(tǒng)(MULTI-SOCKET SYSTEMS)中的激光調(diào)制方案; [4 n0 P: F6 l2 t
對于像服務(wù)器這樣的多芯片系統(tǒng),像Nuplet這樣的設(shè)計(jì)將光網(wǎng)絡(luò)擴(kuò)展到插槽之間。Nuplet同時(shí)使用片內(nèi)和片間光網(wǎng)絡(luò)。
* F1 W& ~0 o+ r$ O" M
- T0 n, n. F6 @' f2 z* }片間預(yù)測機(jī)制旨在確定要流通的仲裁令牌數(shù)量。它考慮:發(fā)送到片間光學(xué)站(ICOS)的消息ICOS隊(duì)列中的待處理事件% R @1 b/ Z5 P. ~' {- ]
[/ol]
& w. e5 d& l$ y" p功率請求表(PRT)存儲歷史令牌計(jì)數(shù)。預(yù)測將PRT值與當(dāng)前流量趨勢和隊(duì)列狀態(tài)結(jié)合。8 q' M9 ?7 H4 e5 M1 a9 f
( A" k$ S; S4 S! S6 T" H" D/ ZGPU設(shè)計(jì)中的激光調(diào)制方案
?7 R e+ q: E4 A0 z: D! b由于GPU側(cè)重于內(nèi)存帶寬而非延遲,因此帶來了獨(dú)特的挑戰(zhàn)。GPUOpt設(shè)計(jì)將光學(xué)NoC適配于GPU架構(gòu)。
2 B9 \$ u, F6 o5 h5 H Z4 u9 N! j- j K( d
圖3顯示了GPUOpt的整體架構(gòu):8 [2 g) ~" G8 m, ^3 W# L
6 I/ ?8 o; J$ I+ l& |
2r1e3lybmxf64024513736.png (198.05 KB, 下載次數(shù): 3)
下載附件
保存到相冊
2r1e3lybmxf64024513736.png
2024-9-20 01:31 上傳
9 x' c" [) i1 q/ j9 d" X
圖3:GPU光學(xué)NoC的架構(gòu),顯示由光網(wǎng)絡(luò)連接的SM和LLC集群。
' d8 y6 {7 v7 D2 x
- i7 [0 e( S1 q; h# ^GPUOpt對流式多處理器(SM)站點(diǎn)和最后級緩存(LLC)站點(diǎn)使用不同的預(yù)測機(jī)制:: ~: A9 k4 t( j8 r& d _/ |
1. SM站點(diǎn)使用基于以下因素的受限預(yù)測器(Restr_Pred):
: f: h4 U7 k' N. i5 ~; j$ m接收的消息發(fā)送的消息等待時(shí)間
, j* m, D2 E2 W3 | z2 R) _0 A! j' z5 A
2. LLC站點(diǎn)使用考慮以下因素的靈活預(yù)測器(Flex_Pred):
) a. X0 L" ~% C0 f" Z- k- B接收的消息發(fā)送的消息待處理事件
) }# r, \% @; K( ^# g
# j' W0 J- y m8 n# _& [1 @7 a激光控制器將這些預(yù)測結(jié)合起來,確定整體功率需求。8 @( n" p3 g6 q3 w* _" J7 p5 w
9 ]4 N0 f8 u4 C9 _; [' b" L, B5 V0 c6 o/ E
關(guān)鍵概念和趨勢1 u% z6 J$ M9 @7 I7 [
雖然具體方案各不相同,但一些共同主題和最佳實(shí)踐浮現(xiàn)出來:9 _ Y1 y. m! C* b+ V, \: K
$ o8 h" x% Q0 H# T+ l: ]1.將時(shí)間劃分為固定時(shí)期進(jìn)行預(yù)測和重新配置" ?, k9 x7 P4 q/ [+ F2 V
2. 使用多個(gè)輸入指標(biāo):3 c! {$ {8 x+ U" u$ q
網(wǎng)絡(luò)利用率緩沖區(qū)占用率緩存未命中率指令類型待處理事件
' a" Y9 [: b. W7 X# C, O! |1 K- T3. 將當(dāng)前指標(biāo)與歷史數(shù)據(jù)結(jié)合5 K+ L. F# E7 Q+ T1 T
4. 使用非線性預(yù)測函數(shù)(如神經(jīng)網(wǎng)絡(luò))捕捉復(fù)雜關(guān)系. E( u- L+ h4 p3 `7 P' f
5. 對不同流量類型進(jìn)行單獨(dú)預(yù)測(如一致性與非一致性)
9 H* K/ O9 l B, ~" U6 c6. 分層設(shè)計(jì)以實(shí)現(xiàn)可擴(kuò)展性: l2 G2 U6 r) ^3 x
7. 盡可能重用未使用的光功率
' u0 n6 C$ S( q; \: @3 N7 P8. 為特定架構(gòu)經(jīng)驗(yàn)性地調(diào)整預(yù)測參數(shù)
4 M% v' g1 @9 R
3 W7 ~$ h1 J* w$ w8 u- _圖4說明了有效激光調(diào)制可能帶來的功率節(jié)。2 K# u N: V1 N! l
! x3 B8 i! ?% A- \2 R8 K
opnnfadxepq64024513836.png (100.12 KB, 下載次數(shù): 2)
下載附件
保存到相冊
opnnfadxepq64024513836.png
2024-9-20 01:31 上傳
& {# L4 M/ R! p2 P: w圖4:ideal、Probe和ColdBus方案在各種基準(zhǔn)測試中的相對激光功耗。
: G; R& y# D7 d+ w( f4 }: r Z6 P$ g8 |: [! P, A# R
. T7 R. ]# {* \& w未來方向
3 t5 |; T) D% b2 ?隨著光學(xué)NoC從研究轉(zhuǎn)向?qū)嶋H實(shí)施,可以期待這些技術(shù)的進(jìn)一步完善。方向包括:% n2 p, q# |! V9 ?2 T7 p
用于更準(zhǔn)確預(yù)測的機(jī)器學(xué)習(xí)技術(shù)與應(yīng)用層知識的集成在運(yùn)行時(shí)調(diào)整參數(shù)的自適應(yīng)方案考慮電氣和光網(wǎng)絡(luò)的整體優(yōu)化針對新興工作負(fù)載(如AI加速)的專門化9 N* s, g! v& }! h
% s( A3 A9 Q1 t0 o
S: z7 w0 E* d1 E. b7 x結(jié)論; { d$ S9 R1 h9 T0 U6 o* j$ u" s
有效的激光調(diào)制對實(shí)現(xiàn)光學(xué)片上網(wǎng)絡(luò)的潛在優(yōu)勢非常重要。通過準(zhǔn)確預(yù)測網(wǎng)絡(luò)活動并相應(yīng)調(diào)整激光功率,可以在保持性能的同時(shí)最小化靜態(tài)功耗。隨著處理器架構(gòu)繼續(xù)發(fā)展,激光調(diào)制方案需要適應(yīng)新的設(shè)計(jì)約束和流量模式。該領(lǐng)域的持續(xù)研究有望為未來計(jì)算系統(tǒng)解鎖新的能效水平。5 q0 p& I7 F( T/ u y+ w8 z+ i
# M! ^9 J8 _8 `( C3 o
+ N3 Y. [. j% n; K% E參考文獻(xiàn)) ?- d! L6 b5 F. y5 G
[1] M. Nikdast, S. Pasricha, G. Nicolescu, and A. Seyedi, Eds., Silicon Photonics for High-Performance Computing and Beyond, 1st ed. Boca Raton, FL, USA: CRC Press, 2021.3 o5 c' m0 v- h7 W# H" x
. L4 g2 j3 e# P- END -
E( H4 H) w7 k7 V, ^) C/ J* }/ ?" x' ^6 Y! z2 i' f
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
( d+ S5 u& o5 t i% B' |點(diǎn)擊左下角"閱讀原文"馬上申請; v, Z5 E9 z3 n/ k& ~6 K4 x8 U
! z: J7 ~, z! t- a6 ?3 c6 W歡迎轉(zhuǎn)載; D- O+ O- ? r1 d9 X
. A8 m/ O' a7 T/ N7 i
轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!, b7 U! x* j9 \; n; ^. P: [( K
/ x1 L; S* \9 \) B" o! H) _( J5 Z. b& J+ d2 R- e% \6 n
/ B4 z- L& ~: z8 G, j
pqequtkewc264024513936.gif (16.04 KB, 下載次數(shù): 2)
下載附件
保存到相冊
pqequtkewc264024513936.gif
2024-9-20 01:31 上傳
2 z% l0 p; _& q
0 Q p. P- t: A9 F& w關(guān)注我們0 h n' s4 p6 _; W
# H1 U+ E# d: K; M5 b# ~2 A
' l; P$ P) I" F
f04h1q5oxrw64024514036.png (31.33 KB, 下載次數(shù): 2)
下載附件
保存到相冊
f04h1q5oxrw64024514036.png
2024-9-20 01:31 上傳
- T6 G) w/ j4 C- h& g | 0 J% r H: n( M" i b
ckxurcq3lg364024514137.png (82.79 KB, 下載次數(shù): 2)
下載附件
保存到相冊
ckxurcq3lg364024514137.png
2024-9-20 01:31 上傳
. |. E' x* @* v* u; o N" F
| 4 W# ^8 W/ {! ]" c; @7 H3 \
rq40zwpyofx64024514237.png (21.52 KB, 下載次數(shù): 3)
下載附件
保存到相冊
rq40zwpyofx64024514237.png
2024-9-20 01:31 上傳
# ]; B) p5 ^* b+ N* L, Q | : ~0 J: K- `3 t5 I. f
+ o' t% A- E0 ?6 h8 z; c- {7 o" P4 v; ?# P T% k: x
1 g' t0 q( t0 v9 q關(guān)于我們:
* n4 e% I; n, o5 _+ ~& y7 d! O深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
' ?# M O7 [9 P0 ~" q+ h
9 \" c$ O" n6 s1 s# |# ihttp://www.latitudeda.com/
& Z! `( a' m6 Z8 W2 v- Z# g(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|