Quick Overview of Upcoming Spark 3.0 + α

Copyright©2019 NTT corp. All Rights Reserved.
Quick Overview of Upcoming
Spark 3.0 +
Takeshi Yamamuro @ NTT
α

2Copyright©2019 NTT corp. All Rights Reserved.
Who am I?

MLflow公式に宣伝してもらえたので簡単な紹介
https://bit.ly/2pwvPaE

• MLflowは企業での機械学習活用を支援するためのOSS
• SparkのOriginal CreatorであるMateiが開発を主導
• 再現性や再利用性を向上させるために３つの機能を提供: MLflow
Tracking/Projects/Models
• 詳しく知りたい方は前回のMeetup（2019.6）での発表を参照
• MLflowによる機械学習モデルのライフサイクルの管理, Spark
Meetup Tokyo#1, https://bit.ly/2QtE2as
• MLflow Kyenote @ SAIS Europe 2019
• Simplifying Model Management with MLflow, Matei
Zaharia, https://bit.ly/33XOsDb
• 1.0から1.4までの主要な追加機能
• Autologging in TensorFlow & Keras
• DataFrame search API
• Kubernetes, HDFS & Seldon
integrations
MLflow 1.4 Release

Autologging in TensorFlow & Keras
SAIS Europe Keynoteから引用
MLflow 1.0 MLflow 1.4

Today’s Agenda
• Sparkの次期リリース概要と主だった変更点
• リリース時期は公式的には未定だが，2020 Q1だと予測
• SAIS Europe 2019で個人的に注目した発表
• Powering Custom Apps at Facebook using Spark Script
Transformation @ Facebook
• SparkのScript Transformationを用いたユースケースや，
Facebook内での独自の最適化手法に関して

Spark 3.0 Preview Release
• 正式リリースに向けて，ユーザからのフィードバックを
目的とした先行的な公開という位置付け
• 正式リリースではないためMaven Repositoryや
PyPIにはアップロードされていない
• 試すためにはアーカイブを自分で展開する必要あり
https://bit.ly/2KavYHV

// DataFrame /SQL
SPARK-23128 A new approach to do adaptive execution in Spark SQL
SPARK-27225 Implement join strategy hints
SPARK-28588 Build a SQL reference doc (ongoing)
SPARK-27763 Port test cases from PostgreSQL to Spark SQL (ongoing )
SPARK-26215 define reserved keywords after SQL standard
SPARK-11150 Implement Dynamic Partition Pruning
SPARK-20636 Eliminate unnecessary shuffle with adjacent Window expressions
SPARK-25603 Generalize Nested Column Pruning
SPARK-27699 Partially push down disjunctive predicated in Parquet /ORC
SPARK-28753 Dynamically reuse subqueries in AQE
SPARK-27240 Use pandas DataFrame for struct type argument in Scalar Pandas UDF
SPARK-26412 Allow Pandas UDF to take an iterator of pd.DataFrames
// Core
SPARK-23710 Upgrade the built-in Hive to 2.3.5 for hadoop-3.2
SPARK-24417 Build and Run Spark on JDK11
SPARK-26132 Remove support for Scala 2.11 in Spark 3.0.0
SPARK-27884 Deprecate Python 2 support
// ML
SPARK-11215, SPARK-22796 Multiple columns support added to various Transformers
SPARK-24333 Add fit with validation set to Gradient Boosted Trees: Python API
SPARK-24615 Accelerator-aware task scheduling for Spark
SPARK-13677 Support Tree-Based Feature Transformation
SPARK-16692 Add MultilabelClassificationEvaluator
SPARK-19591 Add sample weights to decision trees
Notable Feature List in Spark 3.0 Preview
A full list of Spark 3.0 preview major features is found in: https://bit.ly/2rBOhzh
・この後のスライドで紹介する項目
・他のコア性能に関する改善
・（個人的に選んだ）他の注目の変更点

• クエリは入力データの統計情報を用いて妥
当な物理プランへ変換，その後DAGで表
現されたRDDとして実行
• 実行中は物理プランと対応するDAGは不変
Current Spark Execution Model
クエリ入力クエリの分析
物理プランの決定
実行
SPARK-23128 Adaptive Execution in Spark SQL

• クエリは入力データの統計情報を用いて妥
当な物理プランへ変換，その後DAGで表
現されたRDDとして実行
• 実行中は物理プランと対応するDAGは不変
Current Spark Execution Model
クエリ入力クエリの分析
物理プランの決定
実行

• 複雑なクエリの場合，中間データのサイズ予測の誤差の
影響で妥当な物理プランが選択されない問題
Optimization Error
Too
Large
“Too Large”と予測したが
実際は”Too Small”
本来であれば
BroadcastHashJoin
のほうが妥当

• 物理プランを複数のQueryStageに分割，各Stageの
実際の出力データの統計情報を用いて次のStageの物理
プランの再最適化
• “spark.sql.adaptive.enabled=true“で有効化
Runtime Re-Optimization
Spark SQL Adaptive Execution Unleashes The Power of Cluster in Large Scale,
SAIS 2018, https://bit.ly/33WrVXB

Dynamic Partition Pruning in Apache Spark
• SAIS Europe 2019での発表
• https://bit.ly/2Qs2pFt
• Dynamic Partition Pruning
• JOIN処理において片方のテーブルの部分集合を読み取る場合，
その読み込んだ部分集合を活用することで，もう片方の不要な
パーティションの読み込みを動的に除去
• スタースキーマに対する分析クエリで効果が高い
• SF=10KのTPC-DS Q98
で100倍の性能差
100X

Static Partition Pruning
• 隣接するFilter処理の述語（WHERE句）を用いて，不
要なパーティションの読み込みを除去
スライドp4から引用
WHERE
day_of_week = ‘Mon’
必要なパーティション
だけを読み込み
• Filter処理のPush-Down（ルール
ベース最適化）と好相性
• サービスのログや売上情報など肥
大化しやすいFactテーブルを事前
に分割しておくことで，分析クエ
リを高速化

DPPの論理プラン DPPの物理プラン
テーブル大
（e.g., Factテーブル）
テーブル小
（e.g., Dim.テーブル）
Dynamic Partition Pruning
• Join処理において，Filter処理後の片方のテーブルの内
容を用いて，もう片方の不要なパーティション読み取り
を除去するDynamic Filterを導入
• Filter処理後のテーブル内容の共有は既存のBroadcast Hash
Joinの機構に相乗りする形で実装
スライドp6,11から引用

Dynamic Partition Pruning
デフォルトで有効
パーティション分割された大きいテーブルの読み込み
DPPが適用

• EXPLAINの出力を構造化するFORMATTEDが追加
New Option in EXPLAIN
SPARK-27395 New format of EXPLAIN command

• Pandas UDFでグループ化してMAP処理が可能に
Dataframe Cogroup
SPARK-27463 Support Dataframe Cogroup via Pandas UDFs

Join Hints
• 3.0からは全てのJoinに対するHintが指定可能に
• BROADCAST（2.4.4でも指定可能）
• SHUFFLE_MERGE
• SHUFFLE_HASH
• SHUFFLE_REPLICATE_NL
SPARK-27225 Implement join strategy hints
SELECT /*+ SHUFFLE_HASH(a, b) */ *
FROM a, b, c
WHERE a.a1 = b.b1
AND b.b1 = c.c1
Join Hintの使用例

PostgreSQL Dialect Support
• PostgreSQLとの挙動の違いや未サポート機能を把握
するためRegressionテストの一部を移植
• 把握された課題はSPARK-27764（Feature Parity between
PostgreSQL and Spark）に記録、全233個！
• 共通性の高い課題に関してはSparkの動作に反映、
PostgreSQLの独自振る舞いに関しては以下のオプシ
ョンを設定した場合に反映
• “spark.sql.dialect=POSTGRESQL”で有効化
SPARK-27763 Port test cases from PostgreSQL to Spark SQL

POWERING CUSTOM APPS AT
FACEBOOK USING SPARK SCRIPT
TRANSFORMATION
My Interest Topic in SAIS Europe 2019
発表資料: https://bit.ly/2q5OH0w

• FacebookはSparkのヘビーユーザ
• Migrating Apache Hive Workload to Apache Spark:
Bridge the Gap, 2018@SF, https://bit.ly/2Qh0FPs
• Apache Spark at Scale: A 60 TB+ production use case,
2017@Europe, https://bit.ly/2pjK4iO
Spark @ Facebook
Migrationを検討されている方必見:
HiveからSparkへ移行する際に
気をつけるべき
機能差に関する発表

• SQL構文の中で任意のスクリプト処理をSparkクラス
タの外部プロセス経由で実行する拡張
• もともとApache Hiveで用いられていた機能
• 使い方次第でUDFに比べて柔軟で効率的な処理が可能
Script Transformation

• SQL構文の中で任意のスクリプト処理をSparkクラス
タの外部プロセス経由で実行する拡張
• もともとApache Hiveで用いられていた機能
• 使い方次第でUDFに比べて柔軟で効率的な処理が可能
Script Transformation
ProcessBuilderで
外部プロセスとして実行

• Script Transformationで推論とインデキシング
• PyTorchインストール済みのSparkの実行ノード（Executor）
に学習済みのモデルを配布して推論をバッチ的に実行
• 学習モデルの配布は”ADD FILES”で実施
Facebook’s Use Cases
スライドp17,19から引用

• Script Transformationで推論とインデキシング
• 分散キーでShuffleすることで，分散キーで分割されたパーティ
ションごとにデータに対するインデクスを作成
Facebook’s Use Cases

• Sparkと外部プロセスの間のI/O処理の効率化
• SQL構文上からユーザが定義した独自のI/O処理を指定可能
• 開発環境ではデバック効率重視のテキスト形式、プロダ
クション環境では速度重視のバイナリ形式
• 現在はSparkの内部表現（UnsafeRow）をそのまま活用，今後
はArrowなどの高効率なバイナリ形式を検討
• Int/Doubleなどの単純型でテキスト形式と比較して，バイナリ
形式は最大で4倍程度の高速化
• Map/Arrayなどの複雑型では性能差が拡大
効率化のためのFacebook独自の取り組み

• 推論のバッチ処理はPySparkのUDFでも可能
Off-Topic: PySpark UDF for Batch
Inference
>>>
// scikit-learnで学習モデルを作成
>>> clf = DecisionTreeClassifier()
>>> clf.fit(X_train, y_train)
// 作成したモデルをSparkクラスタで共有
>>> broadcasted_clf = spark.sparkContext.broadcast(clf)
// 共有したモデルを使用して推論を行うUDFを定義
>>> @pandas_udf(returnType='int')
... def predict(*cols):
... X = pd.concat(cols, axis=1)
... predicted = broadcasted_clf.value.predict(X)
... return pd.Series(predicted)
// 定義したUDFを用いて推論処理をSparkで分散・並列実行
>>> df.select('y', predict(*X.columns).alias('predicted'))
デモコード: https://bit.ly/357C0kp

• 本日の発表概要
• Spark 3.0 Preview Releaseの気になった変更点を紹介
• Spark 3.0に関して特に以下の内容を簡単に紹介
• Adaptive Execution in Spark SQL
• Dynamic Partition Pruning
• New Option in EXPLAIN
• Dataframe Cogroup
• Join Strategy Hints
• PostgreSQL Dialect Support
• SAIS Europe 2019で個人的に注目した発表を紹介
• Powering Custom Apps at Facebook using Spark Script
Transformation @ Facebook
Wrap-up

Quick Overview of Upcoming Spark 3.0 + α

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Quick Overview of Upcoming Spark 3.0 + α

Similar to Quick Overview of Upcoming Spark 3.0 + α (20)

More from Takeshi Yamamuro

More from Takeshi Yamamuro (20)

Recently uploaded

Recently uploaded (9)

Quick Overview of Upcoming Spark 3.0 + α