20180630 interact2018 rev1

Windows ストレージ機能のおさらい＆
専用ハードウェアとしてのストレージ未
来予想図
Interact 2018

 高野勝（ Masaru Takano ）
 日本ヒューレット・パッカードエバンジェリスト
 主な専門分野：ストレージ
 Microsoft MVP - Cloud and Datacenter Management
（Jul.2012 - Jun.2017）
2

 セッションの目的
◦ Microsoft HCIやAzure StackなどのベースとなっているWindowsに実装さ
れているストレージ機能について特徴や使い方理解する
◦ 業界が抱えている問題点を再確認することでコンピュータ、ストレージの
将来像を考える
3

5
SMB 2.0以降とレガシーな SMB 1.0/CIFS とは別物
 より速く！ FC SANと同等のパフォーマンスをシンプルに
 より安全に！成熟した管理機能、セキュリティ、高可用性
SMB
LAN Manager
Windows 95
Windows NT
SMB 2.0
Windows Vista
& Server 2008
SMB 2.1
Windows 7
& Server 2008 R2
SMB 3.0/3.0.2
Windows 8
& Server 2012
SMB 3.1.1
Windows 10
& Server 2016
1980年代～ 2006年 2009年 2012年 2015年
・コマンドの結合
・読取/書込サイズの拡大
・切断時の透過的再接続
・メッセージ署名の改善
(HMAC SHA-256)
・スケーラビリティの向上
・シンボリックリンクのサポート
・クライアント oplock リースモデ
ル
・大きい MTU のサポート
(最大64KB → 1MB)
・スリープモード移行の強化

6
セキュリティ
管理
パフォーマンス
可用性
SMB 透過
フェールオーバー
SMB
スケールアウト
SMB
マルチチャネル
ボリューム
シャドーコピーの
SMB 共有対応
SMB 暗号化
SMB
ディレクトリース
オフロード・
データ転送(ODX)
SMB 用
Windows
PowerShell
SMB 用の新しいパ
フォーマンス
カウンター
SOFS クライアン
トの自動再配分
セッション
事前認証の強化
(SHA-512)
SMB 暗号化の
高速化
(AES-128-GCM)
クラスター環境で
の SMB Dialect 自
動判別
スケールアウト
ファイルサーバー
での複数 SMB
インスタンスの
サポート
SMB
ダイレクト
SMB イベントメッ
セージの強化
Hyper-V ライブ
マイグレーション
over SMB
SMB 1.0の
オプション化
ゲスト
クラスタリング
(VHDX)の強化
SMB
帯域幅管理の向上
3.0.2 3.1.13.0.0

7
 ローカルストレージに匹敵する超高速な低遅延ネットワーク
 I/O処理におけるサーバー CPU 負荷の削減
 SMB マルチチャネルとの併用による高速化と冗長化に対応
RDMAを活用した高速なアクセス基盤の実現
SMB
サーバー
SMB
クライアント
ユーザー
モード
RDMA サポート
のネットワーク
NTFS
SCSI
RDMA サポート
のネットワーク
RDMA (Remote Direct Memory Access)
ネットワークデータ転送を、OS を介さずに
ディスクとNIC で直接やり取りをする I/O 方式
RDMA対応ネットワーク機器が必要
※ 3 種類の RDMA 提供方式
・iWARP
・InfiniBand
・RoCE (RDMA over Converged Ethernet)
カーネル
モード

8
 記憶域スペース（仮想ディスク）
◦ 記憶域プールから必要な領域を切り出し
◦ 柔軟な回復性タイプ
 記憶域プール
◦ 複数の物理ディスクを論理的に１つに統合
◦ ディスク増設時に動的な容量拡張が可能
◦ マルチテナントを想定した管理者の定義
 記憶域スペースはWindows Sever 2012か
ら実装
SAS
SATA
USB
共有 SAS

10
共有ストレージあり
Active Active
記憶域
スペース
共有ストレージなし (Storage Spaces Direct)
Active Active Active Active
記憶域スペース
 各ノードの“ローカルストレージ”でSOFS の信頼性と拡張性を実現

11
Compute Node / Storage Node 分離
• 明確な管理上の境界と柔軟な拡張性
• 大規模環境に最適
Compute Node/Storage Node 同居
• シンプルなシステム構成
• 中小規模環境の最適

12
 仮想ディスク
◦ 1GB ごとのエクステント (データ領域) による構成
(100GB の仮想ディスクであれば 100個のエクステント)
 スケールアウト
◦ エクステント単位で各サーバーに分散配置
 回復性
◦ 同一構成のエクステントを別のサーバー上で保持
(3方向ミラーにより、3つのサーバーに配置される)
仮想ディスクエクステント
ノード#5ノード#2 ノード#3 ノード#4ノード#1
A A’ A’’B B’ B’’C C’C’’

13
 2 – 16 ノード構成
◦ 2ノードからサポート
◦ 最大16ノードまで拡大可能
 拡張可能な記憶域プール
◦ 仮想ディスク上のデータを複数ノードに分散配置
 高速なクラスター内通信
◦ SMB 3.1.1
◦ SMB ダイレクト (RDMA) による
CPU 負荷およびネットワーク遅延の低減
 容易なストレージ拡張
◦ ストレージノードの追加およびプールの拡張後、データを自動再配置
ノード#5ノード#2 ノード#3 ノード#4ノード#1
A A’ A’’B B’B’’C
C’
C’’
D D’ D’’
3方向ミラー

14
 SCVMMからもStorage Spaces Directの管理が可能になった（TP5からの追加）

15
 以下のパターンの構成が可能
◦ SSD + HDD
◦ NVMe + HDD
◦ NVMe + SSD
◦ SSD + SSD
◦ NVMe + SSD + HDD

16
 「NVM Express（Non-Volatile Memory Express、NVMe）」
 PCI Expressの技術を使用した接続規格
 主にSSDやメモリ用に設計された接続規格
◦ SCSIやSATA（Serial ATA）ではSSDの能力についてこれなくなってしまった
◦ SATAの転送速度は600MB/s
◦ PCI Express Gen（Generation）3 は 1レーン当たり約1GB/sの転送速度があり、PCI Express Gen3x4レーン
の場合4GB/s
◦ たった1本のSSDで44万IOPSを出すことも可能に
http://www.intel.co.jp/content/www/jp/ja/solid-state-drives/solid-state-drives-750-series.html

17
柔軟性
• ストレージハードウェア非依存
• 同期モード / 非同期モード
• 4種類の複製パターン
複製機能の
提供
• ブロックレベル、ボリューム単位
• SMB 3.1.1 による転送
(SMB ダイレクト/マルチチャネル等
の活用)
統合管理
• フェールオーバークラスターマネー
ジャーまたは PowerShell による管理
• Azure Site Recovery との連携も可能
になる予定

18
アプリケーション
(local or remote)
Source Server
(複製元ノード)
Data
Log
1
t 2
Destination
Server
(複製先ノード)
Data
Log
t1 3
2
5
4
• I/O 発生時に、複製元/複製先両方のログディスクへの書き込みを保証する

19
アプリケーション
(local or remote)
Source Server
(複製元ノード)
Data
Log
1
t 2
Destination
Server
(複製先ノード)
Data
Log
t1 5
4
3
6
• 複製先ノードでの書き込みを待たずに I/O 完了とみなす
• ネットワークの帯域幅や遅延で同期モードを利用できない場合に検討

20
必須要件
Windows Server 2016 Datacenter Edition
Active Directory
ディスク [データディスク / ログディスク共通]
GPT 形式 (MBR 形式は不可)
JBOD, ローカルディスク, SAN (iSCSI /
FC) などのストレージ
(リムーバブルメディアは不可)
複製元と複製先での同一ディスク配置構成
およびパーティション
%SystemRoot%, page file, ハイバネー
ションファイル, Dump ファイルを含まない
こと
ディスク [ログディスク]
NTFS/ReFS ボリュームかつ固定サイズ
ファイアウォールポート
SMB, WS-MAN
 ネットワーク遅延

 ネットワーク帯域幅

 ディスク [ログディスク]


 ネットワーク遅延

 ネットワーク帯域幅

 ディスク [ログディスク]


21
 機能の追加で「Storage Replica」を追加

2222
モジュール名: StorageReplica
Get-SRGroup
Get-SRPartnership
New-SRGroup
New-SRPartnership (新規作成)
Remove-SRGroup
Remove-SRPartnership
Set-SRGroup
Set-SRPartnership (複製方向の変更)
Suspend-SRGroup
Sync-SRGroup
Test-SRTopology (Storage Replica システム
要件確認テスト)

23
同期/非同期モードを選択可能
手動フェールオーバーのみ対応
(PowerShell / Azure Site Recovery)
「汎用ファイルサーバー」シナリオに最適
《Server to Server》２つのサーバー間でのレプリケーション
《Cluster to Cluster》２つの異なるクラスター間でのレプリケーション
SRV1
SR over SMB3
SRV2
ManhattanDC
JerseyCityDC
NODE1 in FSCLUS NODE2 in DRCLUS
NODE3 in FSCLUS NODE4 in DRCLUS
NODE2 in FSCLUS
NODE4 in FSCLUS
NODE1 in DRCLUS
NODE4 in DRCLUS
SR over SMB3
ManhattanDC
JerseyCityDC
 Sever to Server のクラスター版
(機能／制約等は基本的に同一)
 クラスターによる高可用性 (HA) と、
レプリケーションによる災害対策
(DR) をそれぞれ独立した機能として提供
 「スケールアウトファイルサーバー」シナリオに最適

24
SRV1
SR over SMB3
NODE1 in HVCLUS
SR over SMB3
NODE3 in HVCLUS
NODE2 in HVCLUS NODE4 in HVCLUS
ManhattanDC
JerseyCityDC
高可用性 (HA) と災害対策 (DR)
を組み合わせて提供
自動的なフェールオーバーが可能
フェールオーバークラスター
マネージャーによる GUI 管理が可能
同期モードのみサポート
「Hyper-V」や「汎用ファイルサーバー」に最適 (スケールアウトファイルサーバーには不適)
《Stretch Cluster》単一クラスター内でのレプリケーション
《Server to Self》サーバー内でのボリューム間レプリケーション
 ボリュームの移設・転送に最適
(データコピーが実施できない環境など)

25
 運用Tips
◦ 「New-SRPartnership」のログサイズが小さすぎるとコマンドが実行できない（エ
ラーになる）
◦ 初回実行には結構時間がかかる
◦ Destination側のデータVolumeは表示されなくなる
◦ Destination側を表示する場合は「Remove-SRPartnership」で一旦関連を解除
 構成Tips
◦ Workgrpoup認証未サポート
◦ 別なWindows Domain同士のStorage Replicaは可能
◦ Cluster to Server , Server to Cluster の複製は未サポート。この場合はServer側を
シングルノードクラスタ構成にする
◦ GUIでコントロールできるのはクラスタ構成のみ

26
柔軟性
• 柔軟かつ公平なリソースの分配
 制御対象：
VHD, 仮想マシン, サービス, テナント
 制御項目：
最小IOPS, 最大 IOPS
帯域管理機
能の進化
• ストレージを共有するすべての Hyper-
V 環境を、ポリシーによって一元管理
• 帯域管理に必要なメトリクスを自動計
測(計測対象： VHD, VM, ホスト, ボリューム)
統合管理
• System Center (SCVMM / SCOM)
または PowerShell による管理
• Storage Health Provider によるすべて
のストレージレイヤーを包含した管理
仮想マシン
Rate
Limiters
Rate
Limiters
Rate
Limiters
Rate
Limiters
Hyper-V クラスター
SMB 3.x ストレージネットワーク
I/O
scheduler
I/O
scheduler
I/O
scheduler
スケールアウトファイルサーバー
ポリシー
マネージャー
Storage
performanc
e metrics

27




120
80
0
20
40
60
80
100
120
140
160
180
200
VM1 VM2
200 200
0
20
40
60
80
100
120
140
160
180
200
VM1 VM2

28
 モジュール名: StorageQoS
◦ Get-StorageQosFlow
◦ Get-StorageQosPolicy
◦ Get-StorageQosVolume
◦ New-StorageQosPolicy
◦ Remove-StorageQosPolicy
# QoS ポリシーの作成

第二部：専用ハードウェアとしてのストレージ未来予想図
29

今何が起きているのか？

今日のコンピューターの課題
データ爆発、要求の加速、そして向上し続けられない計算能力
33
データは2年でほぼ2倍に
(2013-2020)
Current!
Realtime!
Now!!
…
…
電気使用量
データ

メモリ主導型コンピューティング

GPU
ASIC
Quantum
RISC
V
メモリ
39
メモリ
メモリ
メモリ
メモリ
SoC
SoC
SoC
SoC
将来のアーキテクチャ
メモリ主導型コンピューティングへ
現在のアーキテクチャ
プロセッサー中心のコンピューティングから

メモリ主導型コンピューティングに必要な要素は?
40
処理速度の向上とエネル
ギー効率の促進のためにメ
モリとストレージを一つに
距離の制限をフォト二クス使
用して距離の制限をなくし、不
可能だったトポロジーを生成
全般的なタスクから特定のタ
スクへ処理を最適化
徹底的にプログラミングをシン
プルにしてこれまでできなかっ
た新しいアプリケーションを可
能にする
高速な永続性メモリ高速メモリファブリックタスク特化処理新しく順応したソフトウェア

次世代不揮発性メモリ（NVM: Non Volatile Memory）
41
電源を切ってもデータが消えないメモリ。次世代版では DRAM 並みの速度と、フラッシュ並みのビット単
価を実現することを目標としている。HPEとSanDiskが共同で開発しているメモリスタはこの次世代不揮発
性メモリの有力な候補の一つ。ストレージクラスメモリ（SCM）やユニバーサルメモリと呼ばれることも
ある。
ビット当たりのコスト
ns
L1-L4
SRAM
/eDRA
M/
STT
CP
U
DRAM
DIMM
レイテンシー
NAND
Flash
SSD
Magnetic
HDD
μs ms s
開発中
SCM
次世代不揮発性メモリ
1000倍高速
フラッシュ相当
の容量コスト

今後のメモリ/ストレージの比率の変化
10/11/2016 © Gen-Z Consortium 2016 42
3DXPointTM
Memory
メモリ
ストレージ
現在
DRAM DRAM
Disk/SSD
SCM SCM
DRAM
Disk/SSD
DRAM
SCM
SCM = ストレージ・クラス・メモリ（不揮発性メモリ）
Disk/SSD
Disk/SSD
DRAM = ダイナミック・ランダム・アクセス・メモリ
MRAM
RRAM PCM
Low
Latency
NAND
将来
現在開発中の主な不揮発性メモリ

Gen-Z（ジェンズィー）とは
44
は
プロトコルです
プロトコルとは伝送の決まり
DDR3
SAS 12G
Inter-Processor Links
(many variants)
SATA 24G
SAS 24G
NVLink
コンピューターの世界に溢れるプロトコル
PCIe Gen 3
PCIe Gen 2
SAS 6G

Gen-Z（じぇんじー）
プロセッサとメモリをつなぐ新たなデータアクセス規格
45
I/O
Accelerators
FPGA
GPU
CPUs
SoC SoC GPU
FPGA
MemoryMemoryMemory Memory
共有メモリ Network Storage
ダイレクト接続 / スイッチ接続
= 4096 ヨタバイト292bytes
数100GB/s
の帯域
広帯域/低遅延
広大なメモリ空間
高い互換性
オープンな
標準規格
物理層は複数の選択肢
HPEはフォトニクス
マルチパス
接続も可能

参加している企業/組織
46

参加している企業/組織
47
2018年5月現在のメンバー企業
*HPEはファウンダーですが主催はしていません
Alpha Data IDT PLDA Group
AMD IntelliProp, Inc. Qualcomm Technologies, Inc.
Amphenol Corporation Jabil Circuit Red Hat
ARM Jess-Link Products Co., Ltd. Samsung
Avery Design Systems Keysight Technologies Seagate
Broadcom Ltd. Lenovo Senko Advanced Components, Inc.
Cadence Design Systems, Inc. Lotes Ltd. Simula Research Laboratory
Cavium Inc. Luxshare-ICT SK hynix
Cisco Systems Inc. Mellanox Technologies Ltd. SMART Modular Technologies
Cray Mentor Graphics Spin Transfer Technologies
Dell EMC Micron TE Connectivity Corporation
Electronics and Telecommunications Research Institute Microsemi Storage Solutions, Inc. Toshiba Memory Corporation
Everspin Technologies Mobiveil, Inc. Tyco Electronics (Shanghai) Co., Ltd.
FoxConn Internconnect Technologies Molex University of New Hampshire InterOperability Laboratory
Hirose Electric NetApp VMware
HPE Nokia Western Digital Technologies, Inc. (Sandisk)
Huawei R&D USA Numascale Xilinx
IBM Oak Ridge National Laboratory YADRO Company

Gen-Z がやりたいことはプロセッサとメモリの分離
そしてあらゆるコンポーネントからのアクセスの提供
48
従来のシステム Gen-Z システム
プロセッサと
メモリが一体
メモリを増やすためにはプロセッサ
も増やす必要あり
プロセッサからメモリ
を分離
プロセッサを増やさなくてもメモリ
を増やせる

Gen-Z 応用例
49
Gen-Z を使うと内蔵メモリの配置が柔軟
に
Gen-Z は外部にメモリを配置することを可能
に
ラックスケールのファブリック接続メモリ

GPU
ASIC
Quantum
RISC
V
メモリ
50
メモリ
メモリ
メモリ
メモリ
SoC
SoC
SoC
SoC
データは常に使える状態
プロセッサは処理に合わせて都度選択
↓
用途特化型プロセッサで効率化
プロセッサー中心
プロセッサは最初から最後まで動作
何に使うか製造時には不明
↓
汎用（何でもできる）プロセッサが必要

51
豊富なメモリ
– 類似性検索
– 探索空間の最適化
– 金融先物のモデリング
メモリの不揮発性
– 拡張性の高いキーバリューストア
– マネージドデータ構造
– エネルギー消費における拡張性と保持性
メモリは共有
計算は適切な場所で
– Spark in-memory Hadoop
– ディープニューラルネットのトレーニング
– ネットワーク機能の仮想化
適用範囲の幅
– メモリ主導型コンピューティングエッジ
– ノード、エンクロージャー、ラック、複
数ラック、データセンターまで
メモリ主導型コンピューティングはアプリケーションをどう変える？
密集したデータセンターからインテリジェントエッジまで単一のアーキテクチャで拡張

52
導入シミュレーション結果

メモリ主導型コンピューティング向けの変更でパフォーマンス向上した例
53
インメモリ分析
15x
新たなアルゴリズム根本から再考
既存のフレーム
ワークを変更
類似検索
40x
金融モデル
10,000x
巨大な
グラフ推論
100x

メモリ主導型コンピューティングの開発者向けツールキット
ソフトウェアは既に入手可能
‒ アプリケーション例
‒ プラグラミングと分析ツール
‒ OSサポート
‒ エミュレーション/シミュレーショ
ンのツール
ツールキットの入手先:
https://www.labs.hpe.com/the-
machine/developer-toolkit
Open sourceの要素
マシーン (原型) ハードウェア
ノードOS
不揮発性メモリライブ
ラリー(pmem.io)
Librarianのファイルシステム(LFS)
メモリアトミックライブラリーに付随し
たファブリック
メモリ主導型
コンピューティン
グ
向けのLinux
アプリケーション例
管理サービス
Librarian
データ管理とプログラミングの骨組み
管理されたデー
タ構造
Sperkle
エミュレーション/シミュレーションのツール
NVMのための
性能エミュレーション
メモリエミュレーションに付随した
ファブリック
X’86 エミュレーション (Superdome X, MC990x,
ProLiant)
フォールトトレラン
トプログラミング
高速な楽観
的エンジン
画像検索巨大なスケールのグラフインターフェース
不揮発性メモリ
のツールキット

世界最大の単一メモリコンピューター
160テラバイトメモリ搭載のプロトタイプ
55
– 2017年5月16日発表
– コロラド州フォートコリンズにて稼働中
– LinuxベースのOSで160TBのシングルメモリ
システムを実現
– Cavium社のフラグシップThunderX2搭載
– エンクロージャ間のフォトニクスにHPEのX1
モジュールを使用

56
最初の協業:ドイツ神経変性疾患センター(DZNE)
• DZNEは特にアルツハイマーの研究に力を入れている機関:
• 患者の診断結果や遺伝子情報、MRIの画像などを総合的に比較
分析するため、大量のデータを処理することが出来る新しいコン
ピューターアーキテクチャが必要
• 大規模なデータを同時に処理することでこれまで見つけられてい
なかった隠れた相関関係を見つけ、
最終的にはアルツハイマー病の治癒に役立つ発見を期待
• 2017年6月のDiscoverで40倍以上の速度向上達成を
発表
• 機械学習の精度を上げ2017年11月のDiscoverでさら
に100倍まで高速化を発表
• SDX、SDFｌexでメモリ主導型のパイロットテスト実施

ムーアの法則を超える（計算能力そのものの向上への取り組み）
メモリ主導型コンピューティングのために
デザインされた非従来型のアクセラレーター
57
ニューロモーフィックコンピューティング:
脳のような計算のための専用ハードウェア
光学コンピューティング:
光の速さで計算する
– 典型的な回路は10要素未
満である。私たちは1つ
のチップに1000以上の光
学部品を統合する – 計算
のために機能する最も大
きいフォトニック要素
– フォトニックチップデザ
インの限界を推し進める
– スピードと省エネルギー
を高める光を通して複雑
な計算を推し進める
– ニューロモーフィックコ
ンピューティングは数時
間コンピューターをト
レーニングしたタスクを
素早く扱うことができ
る。
– ドットプロダクトエンジ
ンはアルゴリズムとアプ
リケーションがこの高速
化アーキテクチャーを最
大限使用するベクターマ
トリックス乗法と学習を
使用した私たちのテスト
ベッドです。

The Machine プロジェクトの成果を製品へ適用
58
インメモリ処理の先取り
エッジもメモリ主導型へ
規模に関係なく同じコードベースが可能
シリコンフォトニクスで接続
更なるコンポーザビリティへ
プロトタイプ
インテリジェント
エッジ
の実現
アプリと
データ
ハイブリッド
IT
をシンプルに
予定
予定
既出

59
Discover Forum 東京 2018
– 日時：2018年7月25日
– 場所：ANAインターコンチネンタルホテル東京（赤坂）
お申し込みはイベント公式サイトから
hpe.com/jp/discover2018
NASAが火星探査に持っていった
コンピュータやThe Machineの試作機
展示があるかも？
ハードウェアの最新情報をココでキャッチ！
Discover Forum 東京 2018 開催決定
59

60
アンケートにご協力ください！
–Compass Interract2018ページにアンケートへのリンクとQRコードがあります
– https://interact.connpass.com/event/77420/
–アンケートリンク
– URL
–https://forms.office.com/Pages/ResponsePage.aspx?id=0emDRJ2XDkOMJVhhhABT1kY0s84rWEFMh
6lvLSQ5jRNUQkQ1NzRUV1BZVUY5T1JNUVNSWlhCMlhNMy4u
– QRコード
60

Thank you
masaru.takano@hpe.com

20180630 interact2018 rev1

Recommended

Recommended

More Related Content

What's hot

What's hot (14)

Similar to 20180630 interact2018 rev1

Similar to 20180630 interact2018 rev1 (20)

More from Takano Masaru

More from Takano Masaru (7)

Recently uploaded

Recently uploaded (10)

20180630 interact2018 rev1

Editor's Notes