Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All ri...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
• 以下の事項は、弊社の一般的な製品の方向性に関する概要を説明する
ものです。また、情報提供を唯一の目的...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
本日のお話
3
Hadoop
エキスパート
Hadoopを導入する人
Hadoop入門した人
Hadoo...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All ri...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
50万社データベースユーザ
5
As of 2016
3000社ビッグデータユーザ
出典:ビッグデータが...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 6
As of 2016
数万社ビッグデータユーザ
出典:ビッグデータが「みんなのもの」に?
オラクルが...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopの現在地
• 2016年Big Data市場における
Hadoopの普及率は約22%
• キ...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
2016/10/29 日本オラクル プレスリリース
セブン&アイ・ホールディングス様
8
• 「いつでも...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
構造データ
9
MES
機器ログ
ERP
ソース 収集 蓄積
DWH
Data
Visualizatio...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
非構造
データ
構造データ
10
MES
機器ログ
ERP
音声
ビデオ
テキスト
ソーシャル
ソース ...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 11
• メインフレーム・ダウンサイジング
– MIPS:30%削減
– バッチ処理時間:50%削減
•...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
弊社が提案するビッグデータの特徴
• ビッグデータ = RDB + Hadoop
⇒RDBと同等のSLA...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
SLAを満たすためのHadoop基盤検討ポイント(非機能)
• サーバ構成
– 従来通りのベストプラクテ...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All ri...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopを提案する側の考え方 ⇔ RDBお客様の要望
①サーバ構成の考え方
15
Hadoopベスト...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopを提案する側の考え方 ⇔ RDBお客様の要望
②ネットワークの考え方
16
Hadoopベス...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopを提案する側の考え方 ⇔ RDBお客様の要望
③番外編
17
Hadoopベストプラクティス...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All ri...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopを提案する側の考え方 ⇔ RDBお客様の要望
④バックアップ
19
Hadoopベストプラク...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
クラスター分割はエンドユーザからのBigクエリ対策にも有効
20
•Hadoop to Hadoopであ...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
基本的なバックアップ要件は、Hadoopだけでも対応可能
21
バックアップ要件例 Hadoopにおける...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
使い方も簡単
22
①snapshot作成の許可
-bash-4.1$ hdfs dfsadmin -a...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All ri...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
無防備なHadoopクラスタ (Security Level 0)
検証環境では、ありがちな構成
• H...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopのセキュリティ機能概要
25
セキュアなHadoop環境を実現可能
分類 機能 対応ツール例...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopの認証機能
• Hadoopの認証では以下の2つの設定がある
–認証なし: クライアント側の...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Security Level 1:エッジサーバを介したアクセス
• 不特定多数からHadoopクラスタ
...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Security Level 2:Kerberos認証
• Kerberos,LDAPによるユーザ認証
...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Security Level 3:認可、暗号化
• Hadoopそのものも守る
– RBAC
• HDF...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
HDFS Encryptionのアーキテクチャ
• HDFSクライアントが扱うファイルの暗号化・復号を担...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
HDFS Encryptionのアーキテクチャ
• Keystore
– keystoreは、 Key ...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
HDFS暗号化は本当にOSから参照できなくなる? 1/3
32
①HDFSの暗号化ゾーンを作成
[ora...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
HDFS暗号化は本当にOSから参照できなくなる? 2/3
33
③HDFSのブロック番号を検索
[ora...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
HDFS暗号化は本当にOSから参照できなくなる? 3/3
34
⑤ファイルの中身の確認
[oracle@...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
HDFS暗号化のパフォーマンス劣化が心配なんだけど。。。
35
出典: Intel® Xeon® Pro...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All ri...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopに出し入れする処の話
37
+
ストアド
プロシジャ
File ->
Hadoop
MapR...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoop連携技術はたくさんあるけど、何を選べば良い?
38
Stream loadingBatch ...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
バッチロードツールの比較
Hadoop Client Httpfs WebHDFS
Edgeサーバへ
の...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
hadoop fs -put test hdfs://scaj43bda02:8020/tmp/test...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 41
DISK
CPU
HttpFS WebHDFS Hadoop
client
•どれも同じような動き...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
• 前提として、分割されたファイルを用意する
# ls /stage/files/|wc -l
50
•...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 43
DISK
CPU
パラレル
ロード
シングル
ロード
•リソースは使い切れていない
ものの、シング...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
1) パラレル WebHDFSロード
for i in `ls /stage/files/`; do t...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
データロードに関する勘所
45
“マジな”Hadoop
導入の勘所⑧
データロードは、複数ファイルあれば...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All ri...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
エンタープライズユーザにHadoopを導入するための勘所
• スケールアウトするのは便利だけど。。。
–...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 48
“マジな”Hadoop
導入の勘所⑩
RDBユーザのど真ん中を開拓する事で、Hadoopはもっと広...
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
ご清聴ありがとうございました
その他、Hadoop関連Oracle製品↓
www.slideshare....
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 50
ご質問・ご相談等ございましたら、終了後もお受けしております
0120-155-096
(平日9:0...
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 51
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 52
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Upcoming SlideShare
Loading in …5
×

Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

4,299 views

Published on

2016/2/9に実施されたHadoop Conference Japan 2016でのセッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」のセッション資料です

Published in: Software
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... Download Full EPUB Ebook here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... Download EPUB Ebook here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... Download doc Ebook here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download Full EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

  1. 1. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所 日本オラクル株式会社 クラウド・テクノロジー事業統括 Cloud/Big Data/DISプロダクト本部 立山 重幸 (Shigeyuki.Tateyama@oracle.com) Hadoop Conference Japan 2016
  2. 2. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | • 以下の事項は、弊社の一般的な製品の方向性に関する概要を説明する ものです。また、情報提供を唯一の目的とするものであり、いかなる契約 にも組み込むことはできません。以下の事項は、マテリアルやコード、機 能を提供することをコミットメント(確約)するものではないため、購買決定 を行う際の判断材料になさらないで下さい。オラクル製品に関して記載さ れている機能の開発、リリースおよび時期については、弊社の裁量により 決定されます。 2 OracleとJavaは、Oracle Corporation 及びその子会社、関連会社の米国及びその他の国における登録商標です。 文中の社名、商品名等は各社の商標または登録商標である場合があります。
  3. 3. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 本日のお話 3 Hadoop エキスパート Hadoopを導入する人 Hadoop入門した人 Hadoop知らない人 HDFSやMapReduceの概要は理 解したが、実際のHadoop導入と なると壁の高さを感じてしまう人 のためのワダチ的な内容です。
  4. 4. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopの現在地と エンタープライズのお客様に提案する際の 論点 4
  5. 5. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 50万社データベースユーザ 5 As of 2016 3000社ビッグデータユーザ 出典:ビッグデータが「みんなのもの」に? オラクルが予測する2016年の見通し http://www.oracle.com/jp/corporate/features/pr/b ig-data-for-all-oracles-2016-predictions/index.html
  6. 6. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 6 As of 2016 数万社ビッグデータユーザ 出典:ビッグデータが「みんなのもの」に? オラクルが予測する2016年の見通し http://www.oracle.com/jp/corporate/features/pr/b ig-data-for-all-oracles-2016-predictions/index.html RDBユーザが、ど真ん中で Hadoopも利用
  7. 7. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopの現在地 • 2016年Big Data市場における Hadoopの普及率は約22% • キャズムを超えて、アーリーマジョ リティへの導入が進んでいる 7 出典:Hortonworks Inc. Big Data & Hadoop Market 2.5% 13.5% 34% 34% 16% イノベーター アーリー アダプター アーリー マジョリティ レイト マジョリティ ラガード キャズム 16% 22%
  8. 8. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 2016/10/29 日本オラクル プレスリリース セブン&アイ・ホールディングス様 8 • 「いつでも、どこでも、スムーズに、お客様が求める商 品を購入でき、人に紹介したくなるサービス」をコンセ プト に、国内1万9,000以上の店舗とインターネット販 売を融合させるオムニチャネルの構築を推進 • 2016年11月1日グループ横断型の新通販サイト 「omni7(オムニセブン)」を開設 • ネットとリアルの融合と複数事業体のシームレスな連 携を可能にするオムニチャネルを実現するため、IT基 盤を新たに構築 • ネットや実店舗から発生する膨大なデータを セキュアに蓄積、管理、分 析 • オラクルのエンジニアド・システムやクラウドなど最先 端の技術を駆 使したオラクル製品の包括的な導入 (Oracle Big Data Appliance含) 2016/10/29 日本オラクルプレスリリースより抜粋
  9. 9. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 構造データ 9 MES 機器ログ ERP ソース 収集 蓄積 DWH Data Visualization Analytics Platform 分析 • これまでの取り組み – ERPをグローバルシングルインスタンス化 • Oracle Applicationsを活用 • 業務プロセス標準化、ITコスト削減($7.7M) – グローバルKPIシステム(DWH)を構築 • Exadata、Exalyticsを活用 • 世界中の各生産ラインの生産状況や歩留情報、 在庫情報、販売情報のKPIを可視化 • 影響分析等、効率的な工場管理が可能に • 新たな課題 – 長期間データの蓄積、分析が不可 • 毎24時間毎にデータ収集が必要 – サマリデータのみが分析対象のため、 詳細かつ正確な分析ができない、工数増大 バッチデータフロー インテラクティブなデータフロー お客様 事例① 製造業 機器データ活用により、詳細な生産状況の分析を実現 某グローバル製造業様
  10. 10. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 非構造 データ 構造データ 10 MES 機器ログ ERP 音声 ビデオ テキスト ソーシャル ソース 収集 蓄積 DWH データ 貯蔵庫 Data Visualization Analytics Platform 分析 • 新たな取り組み – 既存DWHの隣に、データ貯蔵庫を構築 • Oracle Big Data Applianceを活用 • MES、装置の詳細かつ長期間データを リアルタイムに取得 • 効果 – 生産工程における新たなデータ分析を実現 • 長期間でのデータ分析の実現 • 生産条件最適化のための分析 • 操業率低下の原因分析 • 複数のセル-モジュールをまたいだ原因分析 • 品質の可視化 – データ分析の効率化 • データ分析作業の期間短縮 • 対象データのカバレッジ(種類、量、期間) バッチデータフロー インテラクティブなデータフロー マスター、 サマリー、 詳細データ サマリー 分析結果 アーカイブ お客様 事例① 製造業 機器データ活用により、詳細な生産状況の分析を実現 某グローバル製造業様
  11. 11. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 11 • メインフレーム・ダウンサイジング – MIPS:30%削減 – バッチ処理時間:50%削減 • Exadata+Big Data Appliance(Hadoop 基 盤)のハイブリッド構成 – 既存データマートの集約 – OPEX:約40% 削減 • データ配布モデルの近代化 – 「データありき」 vs 「スキーマ/モデルありき」 – 顧客360°ビューの実現 お客様 事例② 金融業 ITコスト削減と、情報の一元化によるビジネス変革実現 La Caixa様メインフレームテープ サブシステム・DWHバッチ処理 レポート Data Reservoir (Hadoop) ソーシャルデータ 顧客情報 決済情報 バッチ処理の削減による コスト削減メインフレーム およびテープ上の ストレステスト データの移行 レポート 顧客360° DWH (RDBMS)
  12. 12. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 弊社が提案するビッグデータの特徴 • ビッグデータ = RDB + Hadoop ⇒RDBと同等のSLAが求められる事が多い 12 提案構成例
  13. 13. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | SLAを満たすためのHadoop基盤検討ポイント(非機能) • サーバ構成 – 従来通りのベストプラクティスで良いのか? • バックアップ – どこにどうやって取るべきか? • セキュリティ – 認証、暗号化 • パフォーマンス – ロード 13
  14. 14. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | サーバ構成 14
  15. 15. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ①サーバ構成の考え方 15 Hadoopベストプラクティス 提案時におけるお客様からの指摘 安いIAサーバを、たくさん積んでください PXEやPuppetを組み合わせれば運用も楽です 会社の方針でサーバ統合している中で数百台の サーバ導入は説明がつかない 故障率1%として、300台クラスタの場合、ほとんど毎 日故障が発生する事になるため許容されない 初期サイジングより増えた場合にデータセンターに 場所がなくなってしまう “マジな”Hadoop 導入の勘所① パフォーマンスと運用を鑑みた、ある程度の集約を意識した分散構成を組む 例)10PBクラスタの場合 4TB HDD × 8本 ⇒ 313台(ラック18台分) 8TB HDD × 12本 ⇒ 105台(ラック6台分)
  16. 16. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ②ネットワークの考え方 16 Hadoopベストプラクティス 提案時におけるお客様からの指摘 DN内で処理をして、DN間はほとんどデータ転送が 発生しないのでノード間は細い線でも大丈夫 バックアップデータをクラスタに復旧させる際にボト ルネックになるのでは? DNが破損した時のリバランス処理は問題にならな いか? “マジな”Hadoop 導入の勘所② ノード間の結線は10GbE以上が望ましい 多少コスト高になったとしても、安定的な運用を求められる
  17. 17. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ③番外編 17 Hadoopベストプラクティス 提案時におけるお客様からの指摘 Master とSlaveは、別構成にすべき 理屈はわかるが、本番、開発、テスト、DRそれぞれ にMasterだけの役割のノードを持たせるのは無駄 が多い “マジな”Hadoop 導入の勘所③ 最近はNNとDNは同居する事も可能 メモリが128GB以上あればNNの管理領域が不足するケースは少ない
  18. 18. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | バックアップ 18
  19. 19. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ④バックアップ 19 Hadoopベストプラクティス 提案時におけるお客様からの指摘 ログ等非クリティカルなデータである(従来捨ててい た)ため、バックアップは必須ではない データは3重化されているため、メタデータだけバッ クアップしておけば十分 エンドユーザは裏がHadoopだろうがRDBだろうが気 にしない ⇒弊社のポリシーに準拠して提案してください “マジな”Hadoop 導入の勘所④ HadoopのバックアップはHadoopで! バックアップのために、NASやTapeを提案するとHadoopのコストメ リットが薄らいでしまう (StorageServerに仕事をさせるのが、Hadoopの売りなのに)
  20. 20. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | クラスター分割はエンドユーザからのBigクエリ対策にも有効 20 •Hadoop to Hadoopであればコピー先を参照用として利用するなど、運用の幅が広がる (リソース制御やセキュリティ制御などにも有用) ソース Hadoop #1 バッチ利用 ターゲット Hadoop #2 バックアップ、データ参照 Hadoop Cluster #1 バッチ処理 Hadoop Cluster #2 データ参照 (Sandbox) バック アップ
  21. 21. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 基本的なバックアップ要件は、Hadoopだけでも対応可能 21 バックアップ要件例 Hadoopにおける対応 バックアップの断面が取得可能であること Snapshot ・対象ディレクトリのブロックをReadOnlyで参照する仕組み ・複数バージョン取得可 ・バージョン間の比較も可 クラスタ停止時間以内にバックアップが完了すること DistCp ・複数mapperが並列で他Hadoopに並列コピーする ・差分更新も可能 Hiveメタ情報とHDFSの同期が取れていること 作り込み ⇒Cloudera BDR (Backup & Disaster Recovery)などで対応 リアルタイムに同期が取れていること Hadoop to Hadoop かなり大変 ⇒ Wandiscoなどで対応 DB to Hadoop かなり大変 ⇒Oracle GoldenGateなどで対応
  22. 22. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 使い方も簡単 22 ①snapshot作成の許可 -bash-4.1$ hdfs dfsadmin -allowSnapshot /tmp/26860-tera-in Allowing snaphot on /tmp/26860-tera-in succeeded 100GBのデータ ②snapshotの作成 -bash-4.1$ hdfs dfs -createSnapshot /tmp/26860-tera-in Created snapshot /tmp/26860-tera-in/.snapshot/s20160125-174328.432 .snapshotディレクトリに ReadOnlyとして作成される ③DistCPによる他クラスタへのレプリケーション --bash-4.1$ hadoop distcp -atomic /tmp/26860-tera-in/.snapshot/s20160125-174328.4 32 webhdfs://benkei01/tmp/26860-tera-in/ ・・・ 16/01/27 15:38:34 INFO mapreduce.Job: map 0% reduce 0% 16/01/27 15:38:45 INFO mapreduce.Job: map 2% reduce 0% ・・・ 16/01/27 15:48:04 INFO mapreduce.Job: Job job_1452235540015_0003 completed successfully Mapperが並列にコピー
  23. 23. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | セキュリティ 23
  24. 24. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 無防備なHadoopクラスタ (Security Level 0) 検証環境では、ありがちな構成 • Hadoopクライアント – 認証なし – どの端末からもアクセス可能 • Beeline , JDBCクライアント – HiveServer2になりすまし認証 24 Hadoop Cluster HDFS YARN HIVE 管理画面 Hadoop Client OSユーザ JDBC JDBCユーザ ブラウザ
  25. 25. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopのセキュリティ機能概要 25 セキュアなHadoop環境を実現可能 分類 機能 対応ツール例 認証 ユーザーの認証 Apache Hadoopのベース機能(Kerberos認証) 認可 Hive, ImpalaでのRole単位での認可 Sentry 暗号化 通信路の暗号化 Apache Hadoopのベース機能 保存データの暗号化・マスキング HDFSの暗号化 監査 監査の取得・レポーティング 3rd Party Tool
  26. 26. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopの認証機能 • Hadoopの認証では以下の2つの設定がある –認証なし: クライアント側のOSユーザーをHadoopユーザーとして認識 –Kerberos認証 “マジな”Hadoop 導入の勘所⑤ Edgeサーバ+Kerberos認証の設定はHadoopのセキュリティ設定のスタート地点 •悪意のあるユーザーがクライアントにhdfs OSユーザーを作成し、hdfsユーザーで HDFSユーザーでHadoopにアクセスすると全データを操作できてしまう ⇒不特定多数の端末からアクセスさせない
  27. 27. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Security Level 1:エッジサーバを介したアクセス • 不特定多数からHadoopクラスタ にアクセスさせない – 利用者は、エッジサーバにログイン した上で、Hadoopを操作する 27 Hadoop Cluster HDFS YARN HIVE 管理画面 Edge Server Hadoop Client FireWall
  28. 28. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Security Level 2:Kerberos認証 • Kerberos,LDAPによるユーザ認証 – 利用者は、認証サーバに許可を取 得した上で利用する • 余談 – SqoopでRDB連携する時は、 Oracle walletで鍵アクセス可能 28 Hadoop Cluster HDFS YARN HIVE 管理画面 Edge Server Hadoop Client FireWall KRB5 LDAP 認証
  29. 29. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Security Level 3:認可、暗号化 • Hadoopそのものも守る – RBAC • HDFSのアクセス権設定 • SentryによるHive表等のアクセス制御 – データ暗号化 • HDFS Data at Rest Encryption – 監査 • HDFS監査ログ • Cloudera Navigator • Oracle Audit Vault & Database Firewall • etc 29 Hadoop Cluster HDFS YARN HIVE 管理画面 Edge Server Hadoop Client FireWall KRB5 LDAP 認証 Sentry HDFS Encryption Audit
  30. 30. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | HDFS Encryptionのアーキテクチャ • HDFSクライアントが扱うファイルの暗号化・復号を担当 • Encryption Zoneごとに鍵が存在 Encryption Zone Key = EZK EZKは鍵管理を行うコンポーネントであるKMSが管理。 ただし、EZKを使って個々のファイルを暗号化するわけではない • Encryption Zone 内のファイルごとに鍵をKMSが生成 Data Encryption Key = DEK • ただしDEKをそのまま保管するのは危険なため、DEKをEZKで暗 号化したencrypted DEK = EDEKをNameNodeにメタデータの一部 として保持 • NameNodeの管理権限のある(OS上のファイルとしてEDEKを不 正に取得することもできる)HDFS管理ユーザーにKMSに対する 権限を与えないように設定をしておく(ブラックリスト) 30
  31. 31. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | HDFS Encryptionのアーキテクチャ • Keystore – keystoreは、 Key Management Server (KMS)の鍵保管を行う – 通常はファイルベースの keystore(Java KeyStore) – Clouderaの場合Cloudera Navigator Key Trustee Server(PostgreSQL) 31
  32. 32. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | HDFS暗号化は本当にOSから参照できなくなる? 1/3 32 ①HDFSの暗号化ゾーンを作成 [oracle@server01 ~]# kinit hdfs@EXA.JP.ORACLE.COM Password for hdfs@EXA.JP.ORACLE.COM: [oracle@server01 ~]# hdfs dfs -mkdir /cipher [oracle@server01 ~]# hdfs dfs -mkdir /plain [oracle@server01 ~]# hadoop key create nokk [oracle@server01 ~]# hdfs crypto -createZone -keyName nokk -path /cipher Added encryption zone /cipher [oracle@server01 ~]# hdfs crypto -listZones /cipher nokk Kerberos認証 暗号化ゾーン作成 [oracle@server01 ~]# echo テストデータ > /oracle/テスト [oracle@server01 ~]# hdfs dfs -put /oracle/テスト /cipher/ [oracle@server01 ~]# hdfs dfs -put /oracle/テスト /plain/ ②テストデータをHDFSに保存 「テスト」というファイルを暗号化、非暗号化に配置
  33. 33. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | HDFS暗号化は本当にOSから参照できなくなる? 2/3 33 ③HDFSのブロック番号を検索 [oracle@server01 ~]# hdfs fsck /cipher/テスト -files -blocks Connecting to namenode via http://server02.exa.jp.oracle.com:50070 FSCK started by test (auth:KERBEROS_SSL) from /xxx.xxx.xx.xx for path /cipher/テスト at Thu Dec 10 11:34:06 JST 2016 /cipher/テスト 19 bytes, 1 block(s): OK 0. BP-529482047-192.168.21.81-1448469031064:blk_1073773664_32840 len=19 repl=3 以下略 暗号化ファイルのブロック [oracle@server01 ~]# find /u[0-1][0-9] -name blk_1073773664 /u07/hadoop/dfs/current/BP-529482047-192.168.21.81- 1448469031064/current/finalized/subdir0/subdir124/blk_1073773664 ④ブロックの場所を検索 当該ブロックの絶対パス /cipher/テスト blk_1073773664 /plain/テスト blk_1073773668 IPadress IPadress
  34. 34. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | HDFS暗号化は本当にOSから参照できなくなる? 3/3 34 ⑤ファイルの中身の確認 [oracle@server01 ~]# cat /u07/hadoop/dfs/current/BP-529482047-192.168.21.81-1448469031064/ current/finalized/subdir0/subdir124/blk_1073773664 ▒▒▒qqa>▒▒▒▒▒▒Λ`▒ [oracle@server01 ~]# cat /u03/hadoop/dfs/current/BP-529482047-192.168.21.81-1448469031064/ current/finalized/subdir0/subdir124/blk_1073773668 テストデータ 暗号化ファイルされたファイル IPadress IPadress 暗号化されていないファイル “マジな”Hadoop 導入の勘所⑥ お客様のデータはHadoopでもしっかり守れます! •ディスク交換を頻繁に行うシステムだからこそ、しっかり暗号化が必要
  35. 35. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | HDFS暗号化のパフォーマンス劣化が心配なんだけど。。。 35 出典: Intel® Xeon® Processor E5-2600 v3 Accelerates Hadoop HDFS Encryption http://www.intel.com/newsroom/kits/xeon/e7v3/pdfs/Xeo n_E7v3_Cloudera-aes-ni.pdf 暗号化による劣化はReadで5% Writeはほぼなし ベンチマークterasortの結果は1% “マジな”Hadoop 導入の勘所⑦ HDFS暗号化のデメリットは少ない •処理能力が大幅に劣化するというのは都市伝説。
  36. 36. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | パフォーマンス 36
  37. 37. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopに出し入れする処の話 37 + ストアド プロシジャ File -> Hadoop MapReduce Hadoop -> DB ここの話 •MapReduceやSparkが早いのは当たり前(数台 VS 数百台) •ただし、ロードの部分を何とかしないと全体のスループットとして効果が薄い
  38. 38. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoop連携技術はたくさんあるけど、何を選べば良い? 38 Stream loadingBatch loading Kafka Flume GoldenGate HDFS Put Kite CLI distcp sqoop WebHDFS HttpFS •エコシステムはたくさんあって便利ですが、セキュリティやリソース制御とか監視な どを考えると、可能な限り万能選手を厳選して利用したい
  39. 39. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | バッチロードツールの比較 Hadoop Client Httpfs WebHDFS Edgeサーバへ のインストール 必要 不要 不要 Hadoop側の GateWay有無 無 必要(SPoF) 無(動的) 使いやすさ ◎ コマンドライン ○ HTTP REST API ○ HTTP REST API パフォーマンス 思っていたより遅い(1ファイル1スレッド処理) 39 Hadoop Cluster HDFS nodes Edge Server Client
  40. 40. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | hadoop fs -put test hdfs://scaj43bda02:8020/tmp/test31; curl -i -X PUT -L -H 'Content-Type:application/octet-stream' "http://scaj43bda03:14000/webhdfs/v1/tmp/test11?op=CREATE&user.name=root" -T test.txt; ロードパフォーマンスの違いを比較してみた 40 コマンドは以下の通り: 1) HttpFS 2) WebHDFS curl -i -X PUT -L "http://scaj43bda02:50070/webhdfs/v1/tmp/test21?op=CREATE&user.name=root" -T test.txt 3) Hadoop Client ServerName ServerName curl -i -X PUT -L "http://scaj43bda02:50070/webhdfs/v1/tmp/test21?op=CREATE&user.name=root" -T test.txtServerName
  41. 41. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 41 DISK CPU HttpFS WebHDFS Hadoop client •どれも同じような動き •HttpFS、WebHDFSはGateway が動作しているノードだけ若干 CPUを利用している リソースを使い切れていない DBのように並列ロードする仕 組みを考えてみる
  42. 42. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | • 前提として、分割されたファイルを用意する # ls /stage/files/|wc -l 50 • ファイルサイズは51GB # du -sh /stage/files 51G /stage/files • まずは普通にHDFSに書き込んで見る(シングルスレッド): # time hadoop fs –put /stage/files/*hdfs://scaj43bda03:8020/tmp/load_test3 real 3m36.966s • クライアントを複数起動して、同時にHDFSに書き込む # for i in `ls /stage/files/`; do time hadoop fs -put /stage/files/$i hdfs://scaj43bda03:8020/tmp/load_test3 2>&1 & done; real 1m13.156s Hadoop Clientから並列ロードをやってみよう 3分半かかる 約3倍の速さに 42
  43. 43. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 43 DISK CPU パラレル ロード シングル ロード •リソースは使い切れていない ものの、シングルよりは大幅に 改善
  44. 44. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 1) パラレル WebHDFSロード for i in `ls /stage/files/`; do time curl -i -X PUT -L "http://scaj43bda02:50070/webhdfs/v1/tmp/load_test3/$i?op=CREATE&user.name=root" -T /stage/files/$i 2>&1 & done; WebHDFS やHttpFSでも同様の効果があるか? 2) パラレルHttpFS ロード for i in `ls /stage/files/`; do time curl -i -X PUT -L -H 'Content-Type:application/octet-stream' "http://scaj43bda03:14000/webhdfs/v1/tmp/load_test3/$i?op=CREATE&user.name=root" -T /stage/files/$i; 2>&1 & done; 結果 •WebHDFSは、Hadoopクライアントと同等性能が測定された •しかし、HttpFSには、ほとんど効果なし(Gatewayだけがんばる) 44
  45. 45. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | データロードに関する勘所 45 “マジな”Hadoop 導入の勘所⑧ データロードは、複数ファイルあれば並列化して高速ロードできる ・クライアントインストール可能な場合は Hadoop Client(操作が楽) ・インストール不可な場合はWebHDFSを利用 “マジな”Hadoop 導入の勘所⑨ Edgeサーバは必ず導入しましょう ・セキュリティ ・DNのローカルから実行すると、当該ノードにブロックが作成されるので偏りが起きる Hadoop Cluster HDFS nodes Edge Server Client
  46. 46. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | まとめ 46
  47. 47. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | エンタープライズユーザにHadoopを導入するための勘所 • スケールアウトするのは便利だけど。。。 – > IAサーバは故障するから、大規模構成にしすぎずにある程度の高集約サーバ • セキュリティやバックアップの運用が心配 – > 機能は充足してきており充分に対応可能 • パフォーマンス – >処理だけではなく、ロードの部分なども考慮して、より効果を高めよう 47
  48. 48. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 48 “マジな”Hadoop 導入の勘所⑩ RDBユーザのど真ん中を開拓する事で、Hadoopはもっと広がる! ・SPoFもなくなり、国内事例も増えてきており、Hadoopを静観する時期は過ぎた
  49. 49. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | ご清聴ありがとうございました その他、Hadoop関連Oracle製品↓ www.slideshare.net/oracle4engineer/ oraclehadoop 49
  50. 50. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 50 ご質問・ご相談等ございましたら、終了後もお受けしております 0120-155-096 (平日9:00-12:00 / 13:00-18:00) http://www.oracle.com/jp/direct/index.html 各種無償支援サービスもございます。 Oracle Direct 検索 Oracle Direct あなたにいちばん近いオラクル
  51. 51. Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 51
  52. 52. Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 52

×