Isca13 study

ISCA’13 勉強会:
Orchestrated Scheduling and
Prefetching for GPGPUs
中村研究室
D3 薦田登志矢
2013年 8月 22日木曜日 ISCA'13 勉強会 1

紹介論文の概要
•  GPGPUと言えば, 涙ぐましいSW最適化の話ばかりなイメージ
•  特にメモリ周り
à こういうSW最適化をしなくて済むように, HW屋さん側でも様々な研究
がなされ始めている.
で, 今回の紹介論文.
•  「Orchestrated Scheduling and Prefetching for GPGPUs」
Adwait Jog et al. ISCA’13
HW プリフェッチを用いて, GPGPUプログラムのメモリアクセス
レイテンシ隠蔽を目指す.

(GP)GPUのアーキテクチャ
•  インオーダーSIMDコアが大量に詰まれており, 数千〜数万の
スレッドを並列実行.
•  各コアは数十KBのL1Dキャッシュを持つ.
•  今回の話は, 各コア上で並列スレッドの実行順序をHW側で工夫するとL1D
キャッシュへのプリフェッチが良く効くようになるという話.
NVIDIA Kepler Architecture

SIMDとSIMT(GPGPU)の実行方式の違い
•  SIMD
•  一つの命令を複数のデータに対して, 並列実行.
•  ベクタ長を大きくすることは難しい
•  PCが一つしかないため, メモリアクセスが発生すると全体が止まってしまうため.
Data
0
32
64
96
127
PC
Inst1
Inst2
Inst3
128 way SIMD の模式図

SIMDとSIMT(GPGPU)の実行方式の違い
Data
0
32
64
96
127
PC
warp1
Inst1
Inst2
Inst3
32 way SIMD
PC
warp2
PC
warp3
PC
warp4
2013年 8月 22日木曜日
•  SIMT
•  並列スレッド全体を固定長のwarpに分割. それぞれが, 独立のPCを持つ.
•  並列スレッド数 (SIMDではベクタ長に相当) を大きくしても問題ない.
•  PCが複数(warp ごとに)あるので, メモリアクセスによるストールは当該のwarp
がストールするだけで良い.
•  複数のWarpの実行順序に任意性が存在する
•  Warp Scheduling Problem
Warp 1
Warp 2
Warp 3
Warp 4
ISCA'13 勉強会 5

単純な Warp Scheduling
Data
0
32
64
96
127
Inst1
Inst2
Inst3
1
2
3
4
5
6
7
8
12
11
10
9
…
memi 404
403
402
401
Warp 1
Warp 2
Warp 3
Warp 4
実行順序
メモリアクセス
(Long Latency)
ISCA'13 勉強会 6
•  RR: Round Robin (商用GPUで良く使われる)
•  全ての Warp が同時にメモリストールし, 計算可能な warp が
なくなることが多い. 従って, 実行性能が低い.

Warp Schedulingによるオーバーラップ実行
Data
0
32
64
96
127
Inst1
Inst2
Inst3
1
2
3
4
6
5
…
mem 202
201
Group 1
Group 2
Warp 1
Warp 2
Warp 3
Warp 4
(Long Latency)
ISCA'13 勉強会 7
実行順序
•  Two-Level Warp Scheduling (Micro’11)
•  warp をグループ化し, グループ間でメモリアクセスが同時に発生しない
ように実行タイミングを調整することで, 性能向上.

Warp Schedulingによるオーバーラップ実行
Data
0
32
64
96
127
Inst1
Inst2
Inst3
1
2
3
4
6
5
…
mem 202
201
(Long Latency)
Group 1
Group 2
Warp 1
Warp 2
Warp 3
Warp 4
203
204
205
206
208
207
404
403
Group1のメモリ
アクセスとオーバー
ラップ実行することで
性能向上
ISCA'13 勉強会 8
実行順序
•  Two-Level Warp Scheduling (Micro’11)
•  warp をグループ化し, グループ間でメモリアクセスが同時に発生しない
ように実行タイミングを調整することで, 性能向上.

0
1
2
3
4
5
6
7
SSC
PVC
KMN
SPMV
BFSR
FFT
SCP
BLK
FWT
JPEG
GMEAN
Round-robin (RR) Two-level (TL)
理想的にプリフェッチが成功した場合のIPC向上率
2.20X 1.88X
予備評価: GPGPUでプリフェッチを考える
ことにどれくらい意味があるのか？
ISCA'13 勉強会 9
•  RR, TL ともにプリフェッチによって性能を向上できる余地は
大きい.

想定するプリフェッチアルゴリズム
•  様々なプリフェッチアルゴリズムが考えられるが, HWの実装
コストが小さい以下のアルゴリズムを想定.
•  Spatial Locality Detection Based Prefetching
1.  連続するアドレスに対応するCache Lineをグループ化する.
•  e.g. Cache Block 128B, 2つのCache Blockを一つのGroupにする
2.  各Group内に存在するCache Blockの半分がミスしたら, 残りの
Cache Blockをプリフェッチ
Line1
Line2
Miss
Prefetch
Group of Cache Lines

TL Scheduling時のプリフェッチ動作とその問題点
•  同一グループ内のwarp が利用するデータしかプリフェッチされず,
性能が向上しない
•  異なるWarp group は, 異なるCache Group内のデータを利用するた
め, プリフェッチ対象にならない.
Data
0
32
64
96
127
…
mem 202
201
Group 1
Group 2
Warp 1
Warp 2
Warp 3
Warp 4
(Long Latency)
Miss
Prefetch
Prefetch が間に合わないので, 結局ミス.
性能向上効果はない
à Schedulingの工夫で, 何とかならないか？
Cache
Group

提案手法:
Prefetch-aware warp (PA) scheduling
Data
0
32
64
96
127
Inst1
Inst2
Inst3
1
2
3
4
6
5
…
mem 202
201
Group 1
Group 2
Warp 1
Warp 2
Warp 3
Warp 4
(Long Latency)
(Long Latency)
ISCA'13 勉強会 12
実行順序
•  TL Scheduling における warp grouping の仕方を, ストライド方式に
変更

提案手法:
Prefetch-aware warp (PA) scheduling
Data
0
32
64
96
127
Inst1
Inst2
Inst3
1
2
3
4
6
5
…
mem 202
201
Group 1
Group 2
Warp 1
Warp 2
Warp 3
Warp 4
(Long Latency)
(Long Latency)
203
205
207
403
204
206
208
404
Group1のメモリ
アクセスとオーバー
ラップ実行することで
性能向上
実行順序
•  TL Scheduling における warp grouping の仕方を, ストライド方式に
変更

PA Scheduling 時のプリフェッチ動作
•  異なるグループの warp が利用するデータをプリフェッチできる
•  異なる warp group は, 異なる Cache Group内のデータを
利用しやすい.
Data
0
32
64
96
127
…
mem 202
201
Warp 1
Warp 2
Warp 3
Warp 4
(Long Latency)
Miss
Prefetch
Cache
Group
Group 1
Group 2
Miss
Prefetch

PA Scheduling 時のプリフェッチ動作
•  異なるグループの warp が利用するデータをプリフェッチできる
•  異なる warp group は, 異なる Cache Group内のデータを
利用しやすい.
Data
0
32
64
96
127
…
mem 202
201
Warp 1
Warp 2
Warp 3
Warp 4
(Long Latency)
Miss
Prefetch
Cache
Group
Group 1
Group 2
Miss
Prefetch
403
404
Group2 のメモリ命令以前の命令実行中に
プリフェッチが終了. L1D にヒットするため,
性能が向上する！
Hit
Hit

評価環境
•  GPGPU-Sim: GPUのサイクルレベルシミュレータ
•  ハードウェア構成
•  30 SMs, 8 memory controllers, crossbar connected
•  1300MHz, SIMT Width = 8, Max. 1024 threads/core
•  32 KB L1 データキャッシュ, 8 KB Texture and Constant Caches
•  L1 Prefetcher : Locality Detector based Prefetcher
•  GDDR3@1100MHz
•  ベンチマークアプリ
•  Mapreduce Applications
•  Rodinia
•  Parboil
•  NVIDIA CUDA SDK – GPGPU Applications

プリフェッチの正確さの評価
85% 89% 90%
0%
20%
40%
60%
80%
100%
89% 86% 69%
0%
20%
40%
60%
80%
100%
Fraction of Late Prefetches Prefetch Accuracy
RR+Prefetching TL+Prefetching PA+Prefetching
•  PA Scheduling によって, 間に合わないプリフェッチリクエストの
数が減少.

プリフェッチによるミス率の減少幅
•  間に合うプリフェッチが増えたことで, L1 D キャッシュのミス率
削減率が, 大幅に増加.
2%
4%
16%
0%
5%
10%
15%
20%
Reduction in L1D Miss Rates
RR+Prefetching TL+Prefetching PA+Prefetching

性能評価 (IPC向上率)
•  Round Robin+ Prefetching に対して 25% 性能向上
•  Two Level Scheduling + Prefetching に対して 7% 性能向上
0.5
1
1.5
2
2.5
3
SSC
PVC
KMN
SPMV
BFSR
FFT
SCP
BLK
FWT
JPEG
GMEAN
RR+Prefetching TL TL+Prefetching Prefetch-aware (PA) PA+Prefetching
1.01 1.16 1.19 1.20 1.26

まとめ
•  GPGPU アーキテクチャのHW最適化のお話
•  やはり, GPGPUはメモリがボトルネック. コア内での並列
スレッドの実行順序を工夫することで, 既存プリフェッチ手法の
効果を高めることに成功.
•  Round Robin+ Prefetching に対して 25% 性能向上
•  Two Level Scheduling + Prefetching に対して 7% 性能向上
•  プリフェッチの効果を高めるための, スレッドスケジューリング
という発想が面白い.

Isca13 study

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Isca13 study

Similar to Isca13 study (20)

More from Toshiya Komoda

More from Toshiya Komoda (6)

Isca13 study