4. いろいろあります
14/10/30
Copyright 2014(C) OSS Laboratories Inc. All Rights
Reserved
4
製品名 開発主体 ライセンス
Amage クリエーションライン株式会社 プロプライエタリ
Ceph Inktank LGPL2
Chiron FS luisfurquim@gmail.com GPL3
Cloudian クラウディアン株式会社 プロプライエタリ
CloudStore/Kosmosfs/Quantcastfs Quantcast Apache License 2.0
Cosmos Microsoft internal 非公開
dCache DESY and others プロプライエタリ
FraunhoferFS (FhGFS) Competence Center for High Performance Computing FhGFS license
FS-Manager CDNetworks プロプライエタリ
General Parallel File System(GPFS) IBM プロプライエタリ
Gfarm file system 筑波大学/産業技術総合研究所 BSD
GlusterFS Gluster, a company acquired by Red Hat GPL3
Google File System(GFS) Google 非公開
Hadoop Distributed File System ASF, Cloudera, Pivot, Hortonworks, WANdisco, Intel Apache License 2.0
IBRIX Fusion IBRIX プロプライエタリ
LeoFS 楽天技術研究所 Apache License 2.0
Lustre
originally developed byCluster File System and currently supported
by Intel(formerly Whamcloud)
GPL
5. 分散ファイルシステムの種類
14/10/30
Copyright 2014(C) OSS Laboratories Inc. All Rights
Reserved
5
分類概要例
分散ファイルシステム複数のホストがコンピュータネットワークを経
由して共有しつつファイルにアクセスすること
を可能にする。複数のサーバ上に配置された
ファイルを、論理的に構造化された 1つ以上の
名前空間で透過的にアクセスできる。
Amazon S3
Andrew File System
(AFS) etc.
分散フォールト
トレラント
ファイルシステム
データを複製する事により、分散ファイルシス
テムを構成する要素に障害が発⽣生しても、デー
タ喪失する事なくアクセスが継続できる。
Microsoft DFS
Moose FS, etc.
分散並列
ファイルシステム
データを細かく分割し、分散ファイルシステム
上の各ホストに分散配置する事により、性能を
スケールアウトできる。
FraunhoferFS
(FhGFS)
PVFS/OrangeFS
etc.
分散並列フォールト
トレラント
ファイルシステム
上記全ての機能を備えたファイルシステムCeph
GlusterFS
sheepdog, XtreemFS
etc.
11. 従来型ストレージとの違い
14/10/30
従来型ストレージCephストレージ
TCP/IPTCPが通れば
Copyright 2014(C) OSS Laboratories Inc. All Rights
Reserved
11
Hypervisor
VM
⾼高価
VM
VM
FC/iSCSI SAN
RAID
ストレージ
Hypervisor
VM
VM
VM
RAID
ストレージ
筐体障害対応には
⼆二重化必要
スケールアップ
拡張に1ヶ⽉月?
Hypervisor
VM
安価
VM
VM
汎⽤用サーバ
Linux
Hypervisor
VM
VM
VM
汎⽤用サーバ
Linux
筐体障害対応は、不要
(最低3台以上)
スケールアウト
追加に数分
良い
ローリング
アップグレード
無停⽌止保守
FWアップ
グレード時
停⽌止
12. ブロックデバイスのマウント⽅方法
物理サーバ
QEMU/KVM
14/10/30
物理サーバ
Hypervisor
VM
Linux
Kernel
Kernel
ClientClient
librbd
Copyright 2014(C) OSS Laboratories Inc. All Rights
Reserved
12
RBD
(RADOS Block Device)
VM
物理サーバ
Linux
アプリケー
ションアプリケー
ション
アプリケー
ション
Linuxページ
キャッシュを使⽤用ユーザースペース
モジュール
LinuxのみサポートRBD Cacheを使⽤用
カーネルスペース
モジュール
Hypervisorの種類
は問わない
VM OSの種類は
問わない
Hypervisorの種類は
QEMU/KVMのみ
16. Multi-site Replication
オブジェクトストレージ(RADOSGW)
のみ対応
l 物理的ロケーションの離れた別ク
ラスターにメタデータとデータを
複製。
l 複製⽅方式は、マスター/スレーブ、
スレーブはRead Only
l 複製先は複数可能
l ディザスタリカバリー⽤用のバック
アップデータを保証する。
l ⼀一貫性はAP(Eventually
consistency)
14/10/30
Copyright 2014(C) OSS Laboratories Inc. All Rights 16
Reserved
17. Cephのユースケース
Traditional
14/10/30
Ceph
Target
NAS Object
Content Store
(traditional NAS)
Copyright 2014(C) OSS Laboratories Inc. All Rights
Reserved
17
Virtualization and
Private Cloud
(traditional SAN/NAS)
High Performance
(traditional SAN)
CapacityPerformance
IT
Cloud
Application
s
XaaS Compute Cloud
Open Source Block
XaaS Content Store
Open Source NAS/Object
Ceph Target
23. 参考情報
14/10/30
Copyright 2014(C) OSS Laboratories Inc. All Rights
Reserved
23
http://www.mellanox.com/related-docs/whitepapers/
WP_Deploying_Ceph_over_High_Performance_Networks.pdf
24. 参考情報
14/10/30
2,419MB/sec (8M Seq. READ)
110k IOPS (4k Seq. READ)
Copyright 2014(C) OSS Laboratories Inc. All Rights
Reserved
24
25. Incremental Object size test One Client ‒
180 OSDs, 1 x replicated pool
Monitor Nodes
Private Network (192.168.50)
Client Node
OSD Nodes
Public Network (172.27.50)
3GB/s
1GB/s
12GB/s 6GB/s
http://www.slideshare.net/Inktank_Ceph/06-ceph-day-october-8th-2014-smc?qid=34fdee3f-a686-4738-b0b1-
a02032480876v=qf1b=from_search=5
26. Incremental Object size test One Client ‒ 180 OSDs,
1 x erasure coded pool (k=4,m=2)
Monitor Nodes
Private Network (192.168.50)
Client Node
OSD Nodes
Public Network (172.27.50)
3GB/s
1GB/s
12GB/s 6GB/s
30. Ceph COW clone
l COW:Copy-on-write
l ⾼高速なボリューム作成、低容量消費
14/10/30
Copyright 2014(C) OSS Laboratories Inc. All Rights
Reserved
30
READ
クライアント
WRITE
31. Cinderボリューム作成
l Ceph COW cloneを使⽤用するため、⾼高速
14/10/30
Copyright 2014(C) OSS Laboratories Inc. All Rights
Reserved
31
32. Cinder snapshot/backup on Ceph
l CephのRBD Snapshotを使⽤用
l RBD snapshotは、読み込み専⽤用
l Snapshotから、ブート可能なボリュームを作成(COW
clone)
l Cinder backup on Ceph
l 差分バックアップサポート(Ceph RBD snapshot)
l 異なるPG(ラック/ゾーン)を指定
14/10/30
Copyright 2014(C) OSS Laboratories Inc. All Rights
Reserved
32
33. Cinder/Nova連携
ライブマイグレーション
VM
librbd
RBD
Nova/compute
VM
Libvirt
(QEMU/KVM)
Cinder Server
VM
Boot from volume
ボリューム作成/接続
VolumeImage
Copy-on-write clone
librbd
VM
Libvirt
(QEMU/KVM)
41. GIANT
41
§ Tree frozen September 9
§ 0.85 dev release includes
§ RDMA support groundwork
§ Improved SSD performance
§ Improvements to stand alone
civetweb-based RGW frontend
§ New ‘osd blocked by’ command
§ 0.86 released 07 Oct (Giant
RC)
§ Low level OSD debugging tool
§ Local repairable codes (LRC)
§ Librados locking refactor
§ MDS and mon improvements
42. RBD
42
l Client-side caching
l (Now enabled by default!)
l New option that makes cache
write-through until “flushed”
l Eucalyptus support
l https://
mdshaonimran.wordpress.com/
2014/09/17/eucalyptus-block-storage-
service-with-ceph-rbd/
43. RGW
43
l Stand-alone civetweb
front end
l Civetweb ‒ embedded C/C+
+ web server
l No need for Apache
overhead, dependencies, etc
44. CEPHFS
44
l Lots of activity!
l 1/3 of core team assigned here
l A lot of outside commits
l Inktank / Red Hat team using
CephFS internally on QA
infrastructure
l Sanding rough edges
l “Not Supported” vs “Not
Ready”
l Feedback encouraged
45. CephFS Dogfooding
l Using CephFS for internal build/test lab
l 80 TB (80 x 1 TB HDDs, 10 hosts)
l Old, crummy hardware with lots of failures
l Linux kernel clients (ceph.ko, bleeding edge kernels)
l Lots of good lessons
l Several kernel bugs found
l Recovery performance issues
l Lots of painful admin processes identified
l Several fat fingers, facepalms
14/10/30
Copyright 2014(C) OSS Laboratories Inc. All Rights
Reserved
45