Submit Search
Upload
ATTA2014基盤B導入(片桐)
•
2 likes
•
1,681 views
T
Takahiro Katagiri
Follow
平成26年度の科研費基盤B「実行時自動チューニング機能付き疎行列反復解法ライブラリのエクサスケール化」の プロジェクト概要 に関する説明です。
Read less
Read more
Technology
Report
Share
Report
Share
1 of 24
Download now
Download to read offline
Recommended
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
Extreme‐Scale Parallel Symmetric Eigensolver for Very Small‐Size Matrices Usi...
Extreme‐Scale Parallel Symmetric Eigensolver for Very Small‐Size Matrices Usi...
Takahiro Katagiri
Towards Auto‐tuning for the Finite Difference Method in Era of 200+ Thread Pa...
Towards Auto‐tuning for the Finite Difference Method in Era of 200+ Thread Pa...
Takahiro Katagiri
SCG-AT:静的コード生成のみによる自動チューニング実現方式
SCG-AT:静的コード生成のみによる自動チューニング実現方式
Takahiro Katagiri
iWAPT2015_katagiri
iWAPT2015_katagiri
Takahiro Katagiri
Towards Auto-tuning Facilities into Supercomputers in Operation - The FIBER a...
Towards Auto-tuning Facilities into Supercomputers in Operation - The FIBER a...
Takahiro Katagiri
ppOpen-HPCコードを自動チューニングする言語ppOpen-ATの現状と新展開
ppOpen-HPCコードを自動チューニングする言語ppOpen-ATの現状と新展開
Takahiro Katagiri
Ase20 20151016 hp
Ase20 20151016 hp
Takahiro Katagiri
Recommended
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
Extreme‐Scale Parallel Symmetric Eigensolver for Very Small‐Size Matrices Usi...
Extreme‐Scale Parallel Symmetric Eigensolver for Very Small‐Size Matrices Usi...
Takahiro Katagiri
Towards Auto‐tuning for the Finite Difference Method in Era of 200+ Thread Pa...
Towards Auto‐tuning for the Finite Difference Method in Era of 200+ Thread Pa...
Takahiro Katagiri
SCG-AT:静的コード生成のみによる自動チューニング実現方式
SCG-AT:静的コード生成のみによる自動チューニング実現方式
Takahiro Katagiri
iWAPT2015_katagiri
iWAPT2015_katagiri
Takahiro Katagiri
Towards Auto-tuning Facilities into Supercomputers in Operation - The FIBER a...
Towards Auto-tuning Facilities into Supercomputers in Operation - The FIBER a...
Takahiro Katagiri
ppOpen-HPCコードを自動チューニングする言語ppOpen-ATの現状と新展開
ppOpen-HPCコードを自動チューニングする言語ppOpen-ATの現状と新展開
Takahiro Katagiri
Ase20 20151016 hp
Ase20 20151016 hp
Takahiro Katagiri
ppOpen-ATによる静的コード生成で実現する自動チューニング方式の評価
ppOpen-ATによる静的コード生成で実現する自動チューニング方式の評価
Takahiro Katagiri
Impact of Auto-tuning of Kernel Loop Transformation by using ppOpen-AT
Impact of Auto-tuning of Kernel Loop Transformation by using ppOpen-AT
Takahiro Katagiri
自動チューニングとビックデータ:機械学習の適用の可能性
自動チューニングとビックデータ:機械学習の適用の可能性
Takahiro Katagiri
Towards Automatic Code Selection with ppOpen-AT: A Case of FDM - Variants of ...
Towards Automatic Code Selection with ppOpen-AT: A Case of FDM - Variants of ...
Takahiro Katagiri
Auto‐Tuning of Hierarchical Computations with ppOpen‐AT
Auto‐Tuning of Hierarchical Computations with ppOpen‐AT
Takahiro Katagiri
ppOpen-AT : Yet Another Directive-base AT Language
ppOpen-AT : Yet Another Directive-base AT Language
Takahiro Katagiri
ソフトウェア自動チューニング研究紹介
ソフトウェア自動チューニング研究紹介
Takahiro Katagiri
Code4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェスト
Masao Takaku
第4回 kochi.ex オン・オフラインミーティング
第4回 kochi.ex オン・オフラインミーティング
Yutaka Kikuchi
20210528_ACRi-panel_ksano_r2_submit
20210528_ACRi-panel_ksano_r2_submit
直久 住川
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)
RCCSRENKEI
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)
Akira Shibata
20100828 code4 lib_japan_事業説明(全事業)
20100828 code4 lib_japan_事業説明(全事業)
Code4Lib JAPAN
Open capi meetup20180409 (revised)
Open capi meetup20180409 (revised)
Yutaka Kawai
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
Hironori Washizaki
Code4Lib 2011 参加報告会 ONO Haruki
Code4Lib 2011 参加報告会 ONO Haruki
Code4Lib JAPAN
ナレッジグラフ推論チャレンジ技術勉強会(2018/10/18)
ナレッジグラフ推論チャレンジ技術勉強会(2018/10/18)
KnowledgeGraph
ICRA 2018 速報
ICRA 2018 速報
cvpaper. challenge
2018 07-23
2018 07-23
Yuji Oshima
ソフトウェアエンジニアリングとEssenceの広がり
ソフトウェアエンジニアリングとEssenceの広がり
Hironori Washizaki
2015.6.5 EMC主催OpenStackセミナー - 日本仮想化技術様講演スライド
2015.6.5 EMC主催OpenStackセミナー - 日本仮想化技術様講演スライド
EMC Japan
OpenStack最新動向と構築のポイント - EMC様セミナー 「あなたのビジネスを高速化! OpenStackが実現する戦略的なクラウドインフラ」
OpenStack最新動向と構築のポイント - EMC様セミナー 「あなたのビジネスを高速化! OpenStackが実現する戦略的なクラウドインフラ」
VirtualTech Japan Inc.
More Related Content
Viewers also liked
ppOpen-ATによる静的コード生成で実現する自動チューニング方式の評価
ppOpen-ATによる静的コード生成で実現する自動チューニング方式の評価
Takahiro Katagiri
Impact of Auto-tuning of Kernel Loop Transformation by using ppOpen-AT
Impact of Auto-tuning of Kernel Loop Transformation by using ppOpen-AT
Takahiro Katagiri
自動チューニングとビックデータ:機械学習の適用の可能性
自動チューニングとビックデータ:機械学習の適用の可能性
Takahiro Katagiri
Towards Automatic Code Selection with ppOpen-AT: A Case of FDM - Variants of ...
Towards Automatic Code Selection with ppOpen-AT: A Case of FDM - Variants of ...
Takahiro Katagiri
Auto‐Tuning of Hierarchical Computations with ppOpen‐AT
Auto‐Tuning of Hierarchical Computations with ppOpen‐AT
Takahiro Katagiri
ppOpen-AT : Yet Another Directive-base AT Language
ppOpen-AT : Yet Another Directive-base AT Language
Takahiro Katagiri
ソフトウェア自動チューニング研究紹介
ソフトウェア自動チューニング研究紹介
Takahiro Katagiri
Viewers also liked
(7)
ppOpen-ATによる静的コード生成で実現する自動チューニング方式の評価
ppOpen-ATによる静的コード生成で実現する自動チューニング方式の評価
Impact of Auto-tuning of Kernel Loop Transformation by using ppOpen-AT
Impact of Auto-tuning of Kernel Loop Transformation by using ppOpen-AT
自動チューニングとビックデータ:機械学習の適用の可能性
自動チューニングとビックデータ:機械学習の適用の可能性
Towards Automatic Code Selection with ppOpen-AT: A Case of FDM - Variants of ...
Towards Automatic Code Selection with ppOpen-AT: A Case of FDM - Variants of ...
Auto‐Tuning of Hierarchical Computations with ppOpen‐AT
Auto‐Tuning of Hierarchical Computations with ppOpen‐AT
ppOpen-AT : Yet Another Directive-base AT Language
ppOpen-AT : Yet Another Directive-base AT Language
ソフトウェア自動チューニング研究紹介
ソフトウェア自動チューニング研究紹介
Similar to ATTA2014基盤B導入(片桐)
Code4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェスト
Masao Takaku
第4回 kochi.ex オン・オフラインミーティング
第4回 kochi.ex オン・オフラインミーティング
Yutaka Kikuchi
20210528_ACRi-panel_ksano_r2_submit
20210528_ACRi-panel_ksano_r2_submit
直久 住川
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)
RCCSRENKEI
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)
Akira Shibata
20100828 code4 lib_japan_事業説明(全事業)
20100828 code4 lib_japan_事業説明(全事業)
Code4Lib JAPAN
Open capi meetup20180409 (revised)
Open capi meetup20180409 (revised)
Yutaka Kawai
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
Hironori Washizaki
Code4Lib 2011 参加報告会 ONO Haruki
Code4Lib 2011 参加報告会 ONO Haruki
Code4Lib JAPAN
ナレッジグラフ推論チャレンジ技術勉強会(2018/10/18)
ナレッジグラフ推論チャレンジ技術勉強会(2018/10/18)
KnowledgeGraph
ICRA 2018 速報
ICRA 2018 速報
cvpaper. challenge
2018 07-23
2018 07-23
Yuji Oshima
ソフトウェアエンジニアリングとEssenceの広がり
ソフトウェアエンジニアリングとEssenceの広がり
Hironori Washizaki
2015.6.5 EMC主催OpenStackセミナー - 日本仮想化技術様講演スライド
2015.6.5 EMC主催OpenStackセミナー - 日本仮想化技術様講演スライド
EMC Japan
OpenStack最新動向と構築のポイント - EMC様セミナー 「あなたのビジネスを高速化! OpenStackが実現する戦略的なクラウドインフラ」
OpenStack最新動向と構築のポイント - EMC様セミナー 「あなたのビジネスを高速化! OpenStackが実現する戦略的なクラウドインフラ」
VirtualTech Japan Inc.
Free Hardware and Open Processes | フリー・ハードウェアとオープン・プロセス
Free Hardware and Open Processes | フリー・ハードウェアとオープン・プロセス
Chen Dominique
Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)
Hirokatsu Kataoka
組込みSW開発技術研究会キックオフミーティング
組込みSW開発技術研究会キックオフミーティング
静岡大学情報学部 組込みシステムアーキテクト研究所
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Hironori Washizaki
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
Yasushi Hara
Similar to ATTA2014基盤B導入(片桐)
(20)
Code4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェスト
第4回 kochi.ex オン・オフラインミーティング
第4回 kochi.ex オン・オフラインミーティング
20210528_ACRi-panel_ksano_r2_submit
20210528_ACRi-panel_ksano_r2_submit
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)
20100828 code4 lib_japan_事業説明(全事業)
20100828 code4 lib_japan_事業説明(全事業)
Open capi meetup20180409 (revised)
Open capi meetup20180409 (revised)
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
Code4Lib 2011 参加報告会 ONO Haruki
Code4Lib 2011 参加報告会 ONO Haruki
ナレッジグラフ推論チャレンジ技術勉強会(2018/10/18)
ナレッジグラフ推論チャレンジ技術勉強会(2018/10/18)
ICRA 2018 速報
ICRA 2018 速報
2018 07-23
2018 07-23
ソフトウェアエンジニアリングとEssenceの広がり
ソフトウェアエンジニアリングとEssenceの広がり
2015.6.5 EMC主催OpenStackセミナー - 日本仮想化技術様講演スライド
2015.6.5 EMC主催OpenStackセミナー - 日本仮想化技術様講演スライド
OpenStack最新動向と構築のポイント - EMC様セミナー 「あなたのビジネスを高速化! OpenStackが実現する戦略的なクラウドインフラ」
OpenStack最新動向と構築のポイント - EMC様セミナー 「あなたのビジネスを高速化! OpenStackが実現する戦略的なクラウドインフラ」
Free Hardware and Open Processes | フリー・ハードウェアとオープン・プロセス
Free Hardware and Open Processes | フリー・ハードウェアとオープン・プロセス
Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)
組込みSW開発技術研究会キックオフミーティング
組込みSW開発技術研究会キックオフミーティング
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
Recently uploaded
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Recently uploaded
(7)
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
ATTA2014基盤B導入(片桐)
1.
科研基盤B 「実行時自動チューニング機能付き 疎行列反復解法ライブラリの エクサスケール化」 ー プロジェクト概要 ー 片桐孝洋 東京大学情報基盤センター 第6回
自動チューニング技術の現状と応用に関するシンポジウム 2014年12月25日(水) 10:10~10:45 / 10:10~10:25 プロジェクト概要 東京大学 理学部1号館 小柴ホール
2.
Agenda (片桐) 1. 2020年以降に進むべき道 2. エクサスケールで必要になる 数値計算ライブラリの課題 3.
本基盤Bの研究計画 4. 成果概要 (日立中研 櫻井) 1. XabclibのICCGソルバの開発とOpenFOAM への適用
3.
2020年以降に進むべき道 • 2020年以降、ハードウェア技術の進歩が止まり、 スパコンの性能向上が止まる(といわれている) • だが、ソフトウェアの品質向上はまだまだ不十分 •
人口(優秀な人材)も減っていく • 数値計算においては... – 計算誤差の累積(精度保証) – 計算が収束しない(数値解析) – 計算効率が悪い(高性能計算) – プログラム開発のコストかかかる・プログラムができる 人材がいない(生産性) – 手頃に使えるソフトがない(フリーソフトの普及) – 気が利かない(人工知能??) → 2020年以降も10年間ぐらいはAT研究が必要
4.
性能可搬性(Performance Portability)とは? 4 複数計算機環境での最適化を提供するパラダイム (HPCI 技術ロードマップ白書、数値計算ライブラリのための自動チューニング2012 年3 月) 2000年頃から日本で使われている技術用語
同一プログラムで計算機環境が変わっても高性能を維持 A社計算機 コンパイラA アプリケーション B社計算機 コンパイラB アプリケーション C社計算機 コンパイラC アプリケーション 自動チューニング(AT)機構 同一プログラム アルゴリズム(実装)選択 AT機構の機能 コード自動生成 パラメタ最適化 (探索、学習) 性能モニタ 性能データベース エクサに向けた 多様な ハードウェア 環境 GPU メニーコアCPU マルチコアCPU
5.
AT技術 【汎用ライブラリ】を専用化 AT技術は自動専用化(カスタマイズ) のための技術 汎用化 高性能 ドメイン・スペシフィック 専用数値ライブラリ 専用言語(DSL) 汎用利用 数値ライブラリ コンパイラ 低性能 専用化 ユーザ知識 ジェネレータ コード・ ジェネレータ 専用言語 探索・最適化 機能設計 API設計 アプリ分野との コ・デザインで決定
6.
使えるAT技術を目指して: コ・デザイン! 1. 計算科学分野のアプリで「実用」となれ!
実アプリケーションの性能要求をもとにATの効果を出す(コ・デザインの推進) ベンチマークはだめ(「ミニアプリ」を用いて、<機能>と<API>を決めよ) 最終的には実アプリのコードを用いて性能評価せよ! 2. 運用中のスパコンでも適用できるべし! スパコン運用環境でAT機能付きソフトウェアが動作すること 多数ユーザ(2000名超)を有するスパコンセンタでも使えること(低オーバーヘッド) ATのための計算機資源利用を極力少なくせよ 他ユーザの処理を絶対に阻害しない(マシンを落としてはならない!) 3. ソフトウェア・スタックの要求を少なくすべし! エクサマシンの環境想定はできない (好きなスクリプト言語が使えると思ってはいけない) いろいろソフトが必要だと、アプリ分野の人が自分でインストールできない 動的な「コードジェネレータ」は使わない デーモンが必要、OSカーネル修正が必須だと困る(ベンダ保守契約の問題) スクリプト言語は重い(場合により動かない) バッチジョブシステム依存のシステムだと動かない …など 「全てがユーザレベルで動作」する枠組みであるべし 6
7.
一つの方向(FIBERフレームワーク[Katagiri et.al., 2003 ]) オリジナルコード ディレクティブ による記載 ユーザ 知識ライブラリ 開発者 ① ライブラリ 公開前 Candidate 1 Candidate 2 Candidate 3 候補 n オートチューナー 公開ライブラリ 自動 コード生成 ② :対象 計算機 実行時間④ ライブラリ ユーザ ③ ライブラリ呼び出し 選択 ⑤ ⑥ 自動 チューニング された コード実行 実行時 Xabclib、 ABCLib、 ppOpen‐AT (ABCLibScript) のAT方式
8.
構成員 • 代表者 – 片桐
孝洋(東京大学・情報基盤センター) • 研究分担者 – 田中 輝雄(工学院大学・情報工学部) – 黒田 久泰(愛媛大学・理工学研究科) – 岩下 武史(北海道大学・情報基盤センター) – 佐藤 雅彦(核融合科学研究所) – 大島 聡史(東京大学・情報基盤センター) • 連携研究者 – 須田 礼仁(東京大学・情報理工学系研究科) – 今村 俊幸(理化学研究所・計算科学研究機構) – 櫻井 隆雄(日立製作所・中央研究所)
9.
研究計画
10.
概要 • エクサスケール環境では、高並列マルチコアCPUに加え、 演算アクセレータを持つ多様な計算機環境になる –“MPI + X” の実行環境 • ノード内はスレッド並列化
+ 演算アクセラレータ実行 • ノード外はMPIでプロセス並列化 –ハイブリッドMPI/OpenMP実行 • 実行時自動チューニング(AT)技術の方式研究 – 対象 • 疎行列反復解法の主要演算 • 上記を用いる数値計算ライブラリとシミュレーション – 実用アプリケーションで求められる実行時ATの要求要件 を調査のうえ同定 – エクサスケール化を達成する実行時AT方式を開発 • エクサスケール環境における高効率実行のための 数値計算用AT基盤ソフトウェアの確立
11.
研究の要点 • OpenATLib(既開発の疎行列反復解法用AT基盤) のハイブリットMPI/OpenMP化と、そのAT技術開発 • 研究開発項目 1.
OpenATLibのMPI実装: OpenATLib、および、Xabclibで実装されている 数値反復解法をMPI化(MPI実装) 2. XabclibのGPU(メニーコア)化: GPU(メニーコア)化に対応するため、疎行列‐ベクトル 積などの主要演算をGPU(メニーコア)化 3. 分散APIの開発: MPIの通信時間を最小化する、ライブラリ・ インターフェースの開発 4. 分散APIで機能するAT方式開発: 上記分散APIで必要となるAT機能の開発
12.
研究計画の概要 • AT方式開発グループ、数値計算ライブラリ適用グループ、 アプリケーション適用グループの3グループを編成 – エクサスケール化を達成する、実行時AT機能の仕様策定、 実装、および性能評価 •
CPUとGPU(メニーコア、インテルMIC(Xeon Phi)を含む)の 計算機環境でのAT評価 • 開発工程を5フェーズに分ける – 平成24年度 • 多様な計算機対応、ハイブリッドMPI/OpenMP実行を想定した AT機能を実現する新OpenATLibの設計 – 平成25年度以降 • 設計をもとにプロトタイプを開発 • AT仕様を高度化 • 広範な適用対象の要求要件を満たす実行時AT機能を実現 – 平成26年度 • 性能評価 • 開発したOpenATLibのソースコードをフリーソフトウェアとして公開
13.
図:新OpenATLib開発と既存要素技術の適用 要素技術の AT方式適用 CPU‐GPU切り替え (片桐) 実行時 データ形式変換 (片桐) 高効率GPU実装 (大島) AT性能安定化 (田中) AT時間削減 (須田) 新OpenATLib開発 エクサスケール環境向き 疎行列反復解法 ライブラリ 通信ライブラリMPI の最適化 (片桐・黒田) HxABCLibScript SpMV形式変換 高効率SpMV実装 D‐Spline 実験計画法 並列版SpMV の通信時間高速化 AT機能のAPI として利用 ライブラリ・インターフェース 多様なプロセッサ対応 メモリアクセス回数の削減 通信量の削減 多様なプロセッサ対応 多様なプロセッサ対応 メモリアクセス回数の削減 ライブラリ・インターフェース エクサスケールの課題 多様なプロセッサ対応 多様なプロセッサ対応 日立製作所
14.
図: 本研究における分担者・連携者と具体的な役割 ●統括 片桐孝洋(東大
准教授) ●AT方式開発グループ(ATMD) 【多様な計算環境サブグループ】 ★片桐孝洋(東大 准教授、代表):新OpenATLib実装、ハイブリッドMPI‐OpenMP最適化 大島聡史(東大 助教、分担):GPU実装、高効率SpMV実装 【理論研究サブグループ】 ★田中輝雄(工学院大 教授、分担):d‐splineによるAT性能安定化 須田礼仁(東大 教授、連携):実験計画法によるAT時間削減 ●数値計算ライブラリ適用グループ(NLAG) ★黒田久泰(愛媛大 准教授、分担):疎行列反復解法ライブラリ適用 今村俊幸(理研 チームリーダ、連携):固有値ライブラリ適用 ●アプリケーション適用グループ(APAG) ★岩下武史(北大 教授、分担):電磁気シミュレーション適用 佐藤雅彦(核融合研 助教、分担):陰解法MHDコード適用 仕様・実装変更 実性能の提示 AT方式適用 性能評価 仕様の提示、AT機能要求 仕様変更、AT方式の実装 実性能の提示AT方式の適用評価
15.
開発フェーズと工程 表: 開発フェーズと工程 フェーズ 平成
24 年度 平成 25 年度 平成 26 年度 (1)新 OpenATLib 設計 (2)AT 方式 要素技術開発 ↓(1)反映 (3)新 OpenATLib 機能高度化 ↓(1)(2)(4)反映 ↓(2)反映 (4)アプリケーション 適用評価 (5)開発コードの 公開・保守 パッケージ化↓ 新 OpenATLib 設計フェーズ: 平成 24 年度中期までに、非均質計算機対応、ハイブリッド M
16.
pXabclib の新規開発 • ハイブリッドMPI/OpenMP実行ができる、 MPI版XabclibのpXabclibを新規開発 –
分散版のAPI (pOpenATLib)を開発 – AT機能の一部を実装(フル実装は将来課題) • MPI通信について、通信に必要な処理時間を 削減する高性能実装を開発 – 送受信データのパック、アンパックの処理の実装 – 愛媛大学 黒田久泰 准教授 との共同研究成果 • 将来的には、通信を最小化するデータ分散を 考慮したAPIを開発(後で少し言及) – グラフ分割ツールMETISと連携 – 反復解法の収束特性も考慮 • 2014年12月17日 トライアル版 V0.10公開済み
17.
pXabclibの性能(ハイブリッドMPI/OpenMP、疎行列‐ベクトル積) 行列名 次元数 非ゼロ要素数
備考 Transport 1,602,111 23,500,731 流体力学 テスト行列(フロリダ大学コレクション) 評価環境 東京大学情報基盤センター FX10スーパコンピュータシステム Sparc64 IX‐fx 1ノード16コア 4ノード 3.64 3.50 3.38 3.50 3.30 1.73 1.73 1.33 0.93 0.69 0 0.5 1 1.5 2 2.5 3 3.5 4 P64T1(Pure MPI) P32T2 P16T4 P8T8 P4T16(Full Hybrid MPI/OpenMP) Total SpMV time [sec.] Total Communication Time [Sec.] 実験条件 BiCGStab法 (非対称行列) 前処理:ブロックJacobi データ分割:均等プロセス分割(N分割) 982 966 946 973 929 900 910 920 930 940 950 960 970 980 990 Iteration Number 反復回数 0.9 ms. 0.9 ms. 0.7 ms. 0.5 ms. 0.4 ms. 1回当たりの通信時間 ハイブリッドMPIで 実行時間減少 ハイブリッドMPIで 通信時間減少 疎行列‐ベクトル積時間[秒](PXPY:X MPIプロセス、Yスレッド/MPIプロセス)
18.
エクサスケールに向けたpXabclibのAT機能 • MPIプロセス単位、ダイナミック(オン・ザ・フライ)なAT機能 1. 問題特性の吸収 –
グラフ分割ツールで領域分割後、MPIプロセスごとのローカル行列 は、それぞれ数値特性が異なるはず • MPIプロセス単位の前処理選択のATが効果的と予想 – そもそも、MPIプロセスへの領域分割の方法自体を収束性が 良くなるようにATで決める • METISと連携し、強連結成分ごとにデータ分散 (ただし負荷バランスは考慮) • 前処理時の通信量を削減し、かつ、収束性を高めることが可能 2. ハードウェア特性の吸収 – エクサ環境ではメニーコアCPU(MICやGPUに限定しない意味で) – CPU性能やデータアクセス時間のぶれがあると予想 • NUMAの配置(確実)や、ひょっとすると、製造プロセスによる!? • CPU演算時間、および、3次元積層メモリ(HBM (High Bandwidth Memory) など) のアクセス時間 – 静的な情報(演算量による分散)だけでなく、実行時間を取得して、 動的にデータ再分散するAT機能が有効と予想 • MPIプロセス、および、OpenMPによるスレッド実行とも
19.
メニーコア向き実装技術(担当:大島) • OpenMPの実行時スケジューリング変更 • dynamicおよびチャンクサイズの変更 Satoshi Ohshima, Takahiro Katagiri, Masaharu Matsumoto:Performance optimization of SpMV using CRS format by considering OpenMP scheduling on CPUs and MIC, Proceedings of IEEE MCSoC2014, pp.253‐260 (2014) Xabclib_GMRES (富士通FX10) スケジューリングとチャンクサイズ変更で ~1.25x
20.
OpenACCによるCPU‐GPU切り替え • HxABCLib の技術をOpenACCで実現(今後の課題) 片桐孝洋、大島聡史、平澤将一、本多弘樹:HxABCLibScript: 非均質計算機向け自動チュー ニング記述言語拡張、情報処理学会研究報告HPC‐129 (2011)
21.
OpenFOAMへの展開 • 東大-日立-ペトロナス工科大学(マレーシア)との共同研究 – OpenFOAMにXabclibを組み込む研究 –
前処理方式のATに遺伝的アルゴリズムを適用する研究 Source: http://hpc.utp.edu.my/index.php/ ct‐menu‐item‐35/openfoam‐with‐ xabclib OpenFOAM with Xabclib
22.
まとめ エクサに向けたAT技術 – 実用を考慮したAT実装 •
(環境想定ができないので)ソフトウェアスタック依存をなくす – 実行時ATの知見 • ユーザ知識を利用して探索空間を減少させる • 行列サイズ、プロセス数やスレッド数はユーザ知識で固定化 • 行列情報(疎行列構造、非零要素の位置や値の固定化の有無)を ユーザ知識で固定化 • ユーザ知識の導入があれば基本的には全探索でよい – データ構造の変換 • CRSかELLか、それ以外か • 汎用ライブラリ化を考慮し、呼び出し時にデータ変換 実アプリへの展開 – OpenFOAMへ適用 AT高度化の課題 – データ分散最適化、前処理自動選択 – メニーコアでのオフロード対応 – OpenACC対応によるGPU対応
23.
謝辞 • XabclibをOpenFOAMに組み込む研究開発に 関し、以下にご協力を頂きました。 ここに感謝の意を表します。 – 戦略的創造研究推進事業CREST 「ポストペタスケール高性能計算に資する システムソフトウェア技術の創出」領域 自動チューニング機構を有する アプリケーション開発・実行環境 (代表:中島研吾
教授)
Download now