Sparkをノートブックにまとめちゃおう。Zeppelinでね！（Hadoopソースコードリーディング第19回発表資料）

1Copyright © 2015 NTT DATA Corporation
to
NTTデータ基盤システム事業本部
OSSプロフェッショナルサービス
土橋昌
Sparkをノートブックにまとめちゃおう。
Zeppelinでね！

 氏名
 土橋昌（NTTデータ）
 経歴
 OSSを使い倒すことをミッションとしたチームに所属
 ５～６年ほど前からHadoop関連のお仕事をはじめた
 ３～４年前からストリーム処理とか、オンメモリ処理とか
 Spark Summit 2014で発表しました
 普段のお仕事
 インフラエンジニア
 データ処理
自己紹介

 Apache Zeppelinの簡単なご紹介
 （個人的な）所感
 動かしてみよう（デモ）
アジェンダ

Apache Zeppelinとは？
ウェブベースのインタラクティブなノートブック
SQL、Scala、Pythonで処理を書けます
https://zeppelin.incubator.apache.org/

 ApacheのIncubatorプロジェクト
 Lead: Roman Shaposhnik（Apache BigTopのFounder、Pivotal）
 開発体制は小さいながらも活発？
 まだまだ発展途上のプロダクトです。なので、ビシバシやさしく接します。
Apache Zeppelinの開発体制
Leemoonsoo（NFLabs）、anthonycorbacho（NFLabs）
韓国の企業
データ分析関連ツールを提供
主要開発者

 ここではウェブブラウザのコンソール上に、コードを記述し、ドキュメントを記載し、グラ
フを描画してビジュアライズするようなものを想定しています
 Zeppelinの他にも有名どころではJupyter (IPython Notebook)
 数年前からPython界隈ではデファクトあったけれども、Python感を薄めてGeneralな感じに
なった
 Pythonだけではなく、色んな実行基盤と連携できる
 https://jupyter.org/
ノートブックとは？

 ウェブブラウザで気軽に利用できる
 試行錯誤の過程も含めて記録できる
 実際に試しながらメモ化できる
 結果も一緒に残る
 実行手順と結果が同じ媒体に残るのが都合よい
 気が付いたら、いつの間にかレポートが出来上がる（かも）
 理想的には…というお話です
 2015/5現在、Zeppelinにはレポーティング機能がないから付けたいところです
ノートブックのここが嬉しい

 実際のデータ処理、分析作業は、分析アルゴリズムを適用する以外の面倒なところも
含めた試行錯誤が泥臭い。色々とツールを使い分けるのも面倒。
様々な作業に適した処理系（SQL、Python、Scala）を一緒に用いれるのが便利。
 ひとつのノートブックで複数のインタープリタ（Jupyterでいうとカーネル？）を利用できます
 ビルドイン機能で、わりと綺麗にグラフ化します
 （でもグラフの種類がまだ少ない…）
 みんな大好き、Sparkに標準対応しています
 他にもFlinkに対応中
 汎用的なフロントエンドに育てる予定のようです
 他にも…
 ニアリアルタイムのストリーム処理もできます（Spark Streaming利用）
 コラボレーションツールとして頑張ろうとしているようです
Zeppelinのここが嬉しい

Zeppelinの動かし方
• まだインストールパッケージがありません
• GitクローンしてMVNビルドします
– パッケージ化して再利用できます
• Q）Sparkクラスタは必要？
– デフォルトはローカルモードで単体動作
– 設定すればクラスタに接続できます
• Q）YARNは利用できる？
– 利用できます
– ノートブック起動時にアプリケーション
がデプロイされて、アプリケーションが
使いまわされます
公式ドキュメント
https://github.com/dobachi/ansible-hadoop
有志がメンテナンスしている、Hadoopなどの環境を
構築・運用するためのAnsibleプレイブック集の例

 本デモの構成イメージ
こんな感じで動きます（デモ）
ブラウザ Spark
インタープリタ
YARN
（疑似分散）
事情により
非力な環境ですみません
１）何か処理を投入
２）Spark実行基盤に伝わって
AM
３）出力が戻ってきます
HDFS
（疑似分散）
もちろんHDFSに対して
入出力できます

 「試行錯誤しながら考えをまとめていく」用途でノートブックは便利です
 Zeppelinを利用すると気軽に分散処理の恩恵を受けられます
 わりと綺麗な点が嬉しい
 インタープリタが充実してくると面白いことになるかも
- 処理基盤系のインタプリタの他にも、Angularインタプリタが最近追加されました。
インタラクティブなUIも作成可能になりました。
（例: Angularによるフォームからデータを受け取って、Sparkに変数として渡す）
 一方で足りない機能や改善したい点もまだまだ見られます。
 ノートブックのエクスポート、インポート
 グラフ種類 … ビルトインでないビジュアライズ機能を利用したい
まとめ

Copyright © 2011 NTT DATA Corporation
Copyright © 2015 NTT DATA Corporation
お問い合わせ先：
株式会社ＮＴＴデータ基盤システム事業本部
OSSプロフェッショナルサービス
URL: http：//oss.nttdata.co.jp/hadoop
メール： hadoop@kits.nttdata.co.jp TEL： 050-5546-2496

Sparkをノートブックにまとめちゃおう。Zeppelinでね！（Hadoopソースコードリーディング第19回発表資料）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (15)

Similar to Sparkをノートブックにまとめちゃおう。Zeppelinでね！（Hadoopソースコードリーディング第19回発表資料）

Similar to Sparkをノートブックにまとめちゃおう。Zeppelinでね！（Hadoopソースコードリーディング第19回発表資料） (20)

More from NTT DATA OSS Professional Services

More from NTT DATA OSS Professional Services (20)