20180627 databricks ver1.1

Spark Overview
Demo
• ETL
• Structured Streaming
• Machine Learning
• Deep Learning

Bigdata システムのユースケース
POS システム、EC サイト、IoT データ分析、CDR 分析、コールセンター
データ、・・・
バッチ処理 ⇒ 限られ
た時間で大量データ
を
処理したい
リアルタイム分析 ⇒
データの生成から遅延
時間を
最小限にして分析した
い
蓄積された大量データを活用した
アドバンストアナリティクスを実
施したい

システムの要件をクリアするソリューション
並列分散処理を可能にする
オープンソース分析エンジン
Apache Spark の
PaaS ソリューション

 UC Berkeley で 2009 年に始まった研究プロジェクト
 汎用的で高速なクラスター型コンピューティングシス
テム
 Scala、Java、Python、R、SQL が利用可能
 200以上の企業から 1,000人以上のディベロッパーの手
によって開発された

JVM
JVM JVM JVM JVM
© Databricks 2018
• 並列処理による高速化

• メモリを利用した高速化
MapReduce
© Databricks 2018
Spark

RDD
 R
 D
 D
DATAFRAME
 データをテーブル型に保持
 オプティマイザーを用いてパフォーマンスを向上
 Tungsten & Catalyst によるオプティマイズ
 言語を問わず統一された API を提供
• RDD から DataFrames を中心
とした高レベル API にシフト
• Spark Streaming 
Structured Streaming
• spark.mllib  spark.ml
• Graph X  Graph Frames

1. SQL/Data Frame の分析
2. 論理プランの最適化
3. 物理プランの生成（コストベース）
4. コード生成
© Databricks 2018
SQL Query
Data Frame
Unresolved
Logical Plan
Logical Plan Optimized
Logical Plan
Selected
Physical
Plan
RDDsPhysical
Plans
CostModel
Catalog
Analysis
Logical
Optimization
Physical
Planning
Code
Generation

© Databricks 2018
https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html

バッチ分析 ⇒ 限られた時間で大量データを処理をしたい
構造化データ
分析アプリ
ダッシュボード
ログ、メ
ディア
r
センサーデータ
CDR、POSデータど
データ加工集計非構造化データ
基幹業務
DWH
システム
オンライン
データ

ETL Parquet ファ
イルの読込み
と
時間列の加工
SQL Data
Warehouse
Blob
Storage

Structured Streaming
Machine Learning

リアルタイム分析 ⇒ データの生成から遅延時間を最小限にした分析をし
たい
加工・集計データ
ストリームデー
タ
ストリーム処
理センサーデータ
CDR、POS データなど分析アプ
リ
データリポジト
リ

ライブストリームデータ
インプットテーブル
クエリ
―
アウトプットテー
ブル
外部データスト
ア
センサーデータのリアルタイムな分析
金融市場の変化をリアルタイムに追跡
モバイル端末データのリアルタイムな可視
POS端末データのリアルタイム分析と需要

Kafka
データストリームの定義
ストリーム
データの
表示
SQL DB データ
との結合
結合データの
表示
SQL DB

蓄積された大量データを活用したアドバンストアナリティクス
を実施したい
データコレク
ター
ストリーム
データセンサーデータ
CDR、POS など
データリポジト
リ
基幹業務
オンライン
データ
アドバンスト
アナリティク
ス
分析アプリ

• Spark MLlib プリインストール済
• DataFrame ベースの API サポート
• Tungsten や Catalyst による最適化
• 言語・ML アルゴリズムをとおして統一された API を提供
• ML pipeline サポート
• 複数の ML 処理を一つのパイプラインとして記述
• MMLSpark
• マシンラーニング・モデルの構築に必要なデータ操作を効率化
• Cognitive Toolkit, TensorFlowOnSpark, BigDL などのライブラ
リ/フレームワークを用いたディープラーニングモデル開発

コンテンツベースフィルタ
リング
協調フィルタリング

https://en.wikipedia.org/wiki/Collaborative_filtering
協調フィルタリングによるユーザー評価の予測

Test Set
Validation Set
Validation Set
Validation Set
 全てのハイパーパラメタの組合せについて
train Set を用いた学習を実行
 評価メトリックは平均されて最善のパラメ
タを決定する
 最善のパラメタセットが決定したら、全ト
レインセットを用いてモデルを学習する
モデルの最終評価に使う

• Python ベースのハイレベル API でディー
プラーニングを簡潔に記述
• Spark Cluster を利用した大規模スコアリ
ング（Batch/Streaming）
• イメージデータのための転移学習、
ハイパーパラメタチューニングの支援
• ImageNet の学習済モデルを利用可能
Deep Learning Pipelines for Apache Spark
Spark クラスタ上でハイパーパラメタ
チューニング
転移学習への応用

Deep Learning
 Keras
 TensorFlow
 GPU libraries
Distributed Deep Learning
 Distributed training with Horovod and Spark
 Distributed TensorFlow and Keras training with Horovod
 Distributed TensorFlow and Keras prediction
XGBoost
 XGBoost4j
Deep Learning に必要なライブラリがプリインストール済
GPU 搭載 VM によるクラスター構成可能

• Pre-trained ネットワークによ
る特徴抽出
• Fine-tuning による転移学習
http://www.nlab.ci.i.u-tokyo.ac.jp/pdf/CNN_survey.pdf

https://azure.microsoft.com/ja-jp/services/databricks/
https://docs.azuredatabricks.net/administration-guide/index.html
https://docs.microsoft.com/ja-jp/azure/azure-databricks/databricks-connect-to-data-sources
• Serverless Pools
https://docs.azuredatabricks.net/user-guide/clusters/serverless-pools.html
https://docs.azuredatabricks.net/spark/latest/structured-streaming/index.html
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html
https://docs.azuredatabricks.net/spark/latest/mllib/index.html
https://docs.azuredatabricks.net/applications/deep-learning/deep-learning-pipelines.html

• ETL
限られた時間で大量データを処理
• Structured Streaming
データの生成から遅延時間を最小限にして分析
• Machine Learning
蓄積された大量データを活用したアドバンストアナリティク
スが可能
• Deep Learning
ディープラーニングへの応用を容易にする Deep Learning

20180627 databricks ver1.1

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 20180627 databricks ver1.1

Similar to 20180627 databricks ver1.1 (20)

More from Hirono Jumpei

More from Hirono Jumpei (20)

Recently uploaded

Recently uploaded (9)

20180627 databricks ver1.1

Editor's Notes