SlideShare a Scribd company logo
1 of 48
© 2019 NTT DATA Corporation
2019年 11月 19日
株式会社NTTデータ 技術革新統括本部
システム技術本部 生産技術部 インテグレーション技術センタ
Spark+AI Summit Europe 2019 セッションハイライト
© 2019 NTT DATA Corporation 2
はじめに
• 本資料は、Spark+AI Summit Europe 2019で行われたプレゼンテーションの一部を
ピックアップして、ダイジェストで紹介するものである。
• 本資料の内容は、必ずしも当社の見解を表すものではない。
• 本資料の掲載された社名、商品名は各社の商標または登録商標である。
© 2019 NTT DATA Corporation 3
アジェンダ
1. Spark+AI Summit Europe 2019について
2. 個別セッション紹介
1. 萩原パート
2. 酒井パート
© 2019 NTT DATA Corporation 4
Spark+AI Summit Europe 2019
日時: 2019年10月15日(火) – 2019年10月17日(木)
場所: RAI Amsterdam Convention Centre, Amsterdam, Netherland.
参加人数:2,300人超(公式発表)
https://databricks.com/sparkaisummit/europe/sponsorsより引用
© 2019 NTT DATA Corporation 5
Spark+AI Summit Europe 2019 雑感
• 盛況
• 昼食会場は席が足りていない状況
• 日本からの参加者は少ない印象
• ヨーロッパ開催なだけあり、周辺国からの参加が多かった
セッションタイトルから生成したWordCloud
© 2019 NTT DATA Corporation 6
萩原パート
© 2019 NTT DATA Corporation 7
自己紹介
氏名:萩原 悠二(はぎわら ゆうじ)
所属:NTTデータ 技術革新統括本部 システム技術本部 生産技術部
業務内容:
• Hadoop/Spark等を用いた商用案件の設計・検証支援
• 機械学習を活用するビッグデータ基盤の研究開発
• 各種OSSのサポート提供
• 外部発表、記事執筆など
© 2019 NTT DATA Corporation 8
Keynote: Simplifying Model Management with MLflow
Matei Zaharia (Databricks), Corey Zumar (Databricks)
https://databricks.com/session_eu19/1-simplifying-model-management-with-mlflow
MLflowの最新動向と
新機能についてご紹介
© 2019 NTT DATA Corporation 9
MLflowについて
• MLflowは”An Open Source ML Platform”である。
• Tracking, Projects, Modelsの3つのコンポーネントで構成
• MLflowについての詳細はYamamuroさん(@maropu)のMeetup#1発表(※1)を参照
※1: https://www.slideshare.net/maropu0804/mlflow
今回のKeynoteのポイント
• ここ6カ月の機能アップデート
• Autologging in Tensorflow & Keras
• DataFrame Search API
• Kubernetes, HDFS & Seldon integration
• MLflow Model Registryの発表
• MLflowの新たなコンポーネントの一つ Tracking
学習条件等を
記録する。
Projects
機械学習コードを再
現可能にパッケージす
る
Models
学習モデルの
フォーマット
画像はhttps://mlflow.org/より引用
© 2019 NTT DATA Corporation 10
Autologging in Tensorflow & Keras
• MLflow Trackingに関する新機能
• TensorflowやKerasで一般的に必要となるであろうParameters, Metricsを自動でトラッキングする。
NNのパラメータ
(隠れ層のユニット数、学
習率)をログに残す
NNのメトリクス
(損失関数の値)をログ
に残す
モデルの構造に合わせて、
ParameterとMetricを自動で拾って
ログに残す
画像は“Keynote: Simplifying Model Management with MLflow”の発表より引用
© 2019 NTT DATA Corporation 11
MLflow Model Registry - モデル管理の課題
大人数で様々なモデルを管理するとき、、、
発生する課題:
• どのモデルを使えばいいのか?
• どうやってモデルが作られたのか?
• どうやって各モデルのドキュメント
を追跡する?
• どうやってモデルをレビューする?
画像は“Keynote: Simplifying Model Management with MLflow”の発表より引用
© 2019 NTT DATA Corporation 12
MLflow Model Registryとは
• モデルに対して名前やコメント、タグをつけてバージョン管理できるレジストリ。
• 各モデルのステージ(開発用、ステージング用、本番用、アーカイブ済)の状態遷移、その履歴も管理する。
• モデルに関わる人々のワークフローを定義し、実現する。
ワークフロー
1. モデル開発者がモデルを登録する。
2. レビュアによるレビューや、CI/CDに
よるテストを通じてモデルを承認する。
3. モデルを利用する
1. ユーザ
2. ジョブ
3. サービング
画像は“Keynote: Simplifying Model Management with MLflow”の発表より引用
© 2019 NTT DATA Corporation 13
MLflow Model Registryデモ
画像は“Keynote: Simplifying Model Management with MLflow”の発表より引用
モデルの説明を
記述できる
モデルはMLflow Trackingと紐づく
モデルのステージを変更
(デモではNone →
Production)
モデルの名前と
バージョンを特定
モデルの名前とステージ
を指定してロードできる
ステージの
変更履歴が記録される
従来はモデルのファイル
パスで指定していたが、
© 2019 NTT DATA Corporation 14
おまけ
10/30にMLflow1.4リリース!
Model Registry(Beta)がリリースに
含まれるようになった。
https://mlflow.org/news/2019/10/30/1.4.0-release/index.htmlより引用
© 2019 NTT DATA Corporation 15
Machine Learning at Scale with MLflow and Apache Spark
Chongguang Liu (Société Générale)
https://databricks.com/session_eu19/machine-learning-at-scale-with-mlflow-and-apache-spark
プロダクションで機械学習を使うときの
「ハマったところ」「対応方法」をご紹介
© 2019 NTT DATA Corporation 16
Société Généraleにおけるデータ活用
Société Générale : フランスのメガバンク
• プロダクション環境のデータレイクにおいて、80以上のデータパイプライン
• 200人以上のデータサイエンティスト
• 新商品の開発、顧客体験の改善、効率化にデータを活かす
• マネーロンダリング防止や不正検知など
© 2019 NTT DATA Corporation 17
データやモデルのやり取りの問題点
ステークホルダたち
• ビジネスサイド
• データサイエンティスト
• データエンジニア
ステークホルダ間のやりとり
1. ビジネスサイドからデータサイエンティストへデータを渡す
• プロトタイピングのために、データを手でコピーしていた
• データの品質がわからない
2. データサイエンティストからデータエンジニアへプロトタイプの機械学習コードを渡す
• 商用環境向けにプログラミング言語の書き換えが必要になった
• プログラムを書き換えたことにより、出力結果が同じになるのかがわからない
3. データエンジニアからデータサイエンティストへ商用環境向け機械学習コードを渡す
• 自動化されておらず、コードを手動でデプロイしなければならなかった
• データの違い(データサイエンティストが使ったデータ vs プロダクションデータ)があり
4. データサイエンティストからビジネスサイドへ学習済みモデルを渡す
• 最適でないプレディクション
• モデルアップデート頻度の低下
© 2019 NTT DATA Corporation 18
取り組んできたこと(1/7)
1. データローカリティ
2. アプリケーションの信頼性
3. 様々なPythonパッケージ
4. モデル管理
5. トラッキングサーバの信頼性
6. モデルサービング
© 2019 NTT DATA Corporation 19
取り組んできたこと(2/7)
1. データローカリティ
2. アプリケーションの信頼性
3. 様々なPythonパッケージ
4. モデル管理
5. トラッキングサーバの信頼性
6. モデルサービング
画像は“Machine Learning at Scale with MLflow and Apache Spark”の発表より引用
HDFSによるデータレイクにデータを集中させる。
データサイエンティストはデータレイクのデータを
利用する。(データの違いの解消)
銀行のデータの規制が厳しいため、クラウドへの
アップロードがむずかしい。
学習と予測をデータレイク内で実行する。
© 2019 NTT DATA Corporation 20
取り組んできたこと(3/7)
1. データローカリティ
2. アプリケーションの信頼性
3. 様々なPythonパッケージ
4. モデル管理
5. トラッキングサーバの信頼性
6. モデルサービング
プロダクションフェーズ
• YARNによるリソースマネジメントで分散処理
• PythonのスタンドアロンアプリやPySparkアプリを実行
• ジョブスケジューリングにOozieを使用
プロトタイプフェーズ
• データサイエンティストたちで1台の高性能なマシンを共有
• 処理時間の保証は無し
• プロトタイプフェーズとプロダクションフェー
ズそれぞれで、求められる特性に合わせ
て異なる開発手法・実行環境を用いる。
© 2019 NTT DATA Corporation 21
取り組んできたこと(4/7)
1. データローカリティ
2. アプリケーションの信頼性
3. 様々なPythonパッケージ
4. モデル管理
5. トラッキングサーバの信頼性
6. モデルサービング
画像は“Machine Learning at Scale with MLflow and Apache Spark”の発表より引用
• Hadoopが最新じゃないのでDocker
は使ってない
• 各チームで好みのPythonライブラリ・
バージョンがあるので、すべてを満たすの
が困難
• 環境を含めて、HDFSへ格納する。自
動で。
MLflow Projects
形式でgitへ格納
conda.yamlから
Conda環境を作成し、
Nexusへ登録
Ansibleで
デプロイ
© 2019 NTT DATA Corporation 22
取り組んできたこと(5/7)
1. データローカリティ
2. アプリケーションの信頼性
3. 様々なPythonパッケージ
4. モデル管理
5. トラッキングサーバの信頼性
6. モデルサービング
画像は“Machine Learning at Scale with MLflow and Apache Spark”の発表より引用
• 週次や日次でモデルを作っている。
• データサイエンティストは、それらを簡単
に比較したり、数週間前のものを見つけ
たい。
• データエンジニアはモデルをHDFSにまと
め、推論時にロードできるようにしたい。
使っているMLflow
バージョンが古く
HDFS未対応だった
pickle等はデカいの
で別途HDFSへ保存
MLflowでモデルの
メタデータを管理
© 2019 NTT DATA Corporation 23
取り組んできたこと(6/7)
1. データローカリティ
2. アプリケーションの信頼性
3. 様々なPythonパッケージ
4. モデル管理
5. トラッキングサーバの信頼性
6. モデルサービング
画像は“Machine Learning at Scale with MLflow and Apache Spark”の発表より引用
DBを
共有
MLflow Tracking Serverを
2つ動かして冗長化
© 2019 NTT DATA Corporation 24
取り組んできたこと(7/7)
1. データローカリティ
2. アプリケーションの信頼性
3. 様々なPythonパッケージ
4. モデル管理
5. トラッキングサーバの信頼性
6. モデルサービング
画像は“Machine Learning at Scale with MLflow and Apache Spark”の発表より引用
ストリームでの
推論
REST APIに
よる推論
データは全て内部に完結可能
セキュリティ的にうれしい
Knoxでリクエ
ストをプロキシ
© 2019 NTT DATA Corporation 25
具体例
インターネットから得られるニュースの解析(コンプライアンス部門で使用)
ユーザからのフィー
ドバック収集
画像は“Machine Learning at Scale with MLflow and Apache Spark”の発表より引用
フィードバックを
用いて再学習
グリッドサーチ
MLflowのメトリクスをもとに
最善のモデルを選択
• 手動でモデルを
デプロイ
• 更新が大変
© 2019 NTT DATA Corporation 26
酒井パート
© 2019 NTT DATA Corporation 27
自己紹介
氏名:酒井 遼平(さかい りょうへい)
所属:NTTデータ 技術革新統括本部 システム技術本部 生産技術部
業務内容:
• Hadoop/Spark等を用いた商用案件の設計・検証支援
• ストリームデータ処理に関するビッグデータ基盤の研究開発
• 各種OSSのサポート提供
© 2019 NTT DATA Corporation 28
Keynote: New Developments in the Open Source Ecosystem:
Apache Spark 3.0, Delta Lake, and Koalas
Michael Armbrust(Databricks), Brooke Wenig (Databricks), Burak
Yavuz (Databricks)
https://databricks.com/session_eu19/new-developments-in-the-open-source-ecosystem-
apache-spark-3-0-delta-lake-and-koalas
© 2019 NTT DATA Corporation 29
New Developments in the Open Source Ecosystem
今回のKeynoteのポイント
Sparkエコシステムに関する最近の取り組みについて紹介
• Apache Spark 3.0
• Spark SQLのパフォーマンス改善ポイント
• Delta Lake
• SparkでACIDトランザクションを実現
• コミュニティ急成長中
• Linux Foundationがプロジェクトをホスト
• Koalas
• Koalasとは
© 2019 NTT DATA Corporation 30
New Developments in the Open Source Ecosystem
今回のKeynoteのポイント
Sparkエコシステムに関する最近の取り組みについて紹介
• Apache Spark 3.0
• Spark SQLのパフォーマンス改善ポイント
• Delta Lake
• SparkでACIDトランザクションを実現
• コミュニティ急成長中
• Linux Foundationがプロジェクトをホスト
• Koalas
• Koalasとは
© 2019 NTT DATA Corporation 31
Apache Spark 3.0 – Spark SQLのパフォーマンス改善ポイント (1/3)
クエリ実行段階で必ずしも最適化に必要な統計情報を持ち合わせていない
-> Adaptive Query Execution
実行中にデータを見てからクエリプランを変更
*画像は以下より引用
https://databricks.com/session_eu19/new-developments-in-the-open-source-ecosystem-apache-spark-3-0-delta-lake-and-koalas
© 2019 NTT DATA Corporation 32
Apache Spark 3.0 – Spark SQLのパフォーマンス改善ポイント (2/3)
Dynamic partition pruning
ディメンションテーブルに対するフィルタ条件をもとにして巨大なファクトテーブルをフィルタ
*画像は以下より引用
https://databricks.com/session_eu19/new-developments-in-the-open-source-ecosystem-apache-spark-3-0-delta-lake-and-koalas
© 2019 NTT DATA Corporation 33
Apache Spark 3.0 – Spark SQLのパフォーマンス改善ポイント (3/3)
Spark 3.0 preview (2019/11/06)
https://spark.apache.org/news/spark-3.0.0-preview.html
© 2019 NTT DATA Corporation 34
Delta Lake – Spark on ACID (1/4)
Delta Lake
• ACID transaction on Spark
• Scalable metadata handling
• Steraming and batch unification
• Schema enforcement
• Time travel
• Upserts, deletes
© 2019 NTT DATA Corporation 35
Delta Lake – Spark on ACID (2/4)
これまでのアーキテクチャのつらいポイント
*画像は以下より引用
https://databricks.com/session_eu19/new-developments-in-the-open-source-ecosystem-apache-spark-3-0-delta-lake-and-koalas
© 2019 NTT DATA Corporation 36
Delta Lake – Spark on ACID (3/4)
これまでのアーキテクチャのつらいポイント
*画像は以下より引用
https://databricks.com/session_eu19/new-developments-in-the-open-source-ecosystem-apache-spark-3-0-delta-lake-and-koalas
© 2019 NTT DATA Corporation 37
Delta Lake – Spark on ACID (4/4)
DELTA LAKE Architecture
*画像は以下より引用
https://databricks.com/session_eu19/new-developments-in-the-open-source-ecosystem-apache-spark-3-0-delta-lake-and-koalas
© 2019 NTT DATA Corporation 38
Delta Lake – コミュニティ
• 2018年4月にOSS化して以来、成長を続けている
• 2019年9月
• 20,000DL, 4,000以上の組織で使用されている
• 単月で2 exabytesがDelta Lakeで読み書きされている
• Sparkを超えた使われ方
• HiveやPrestoがDelta Lakeをサポートする動きが出ている
• Delta LakeプロジェクトをLinux Foundationへ移管
*画像は以下より引用
https://databricks.com/session_eu19/new-developments-in-the-open-source-ecosystem-apache-spark-3-0-delta-lake-and-koalas
© 2019 NTT DATA Corporation 39
Koalas – Koalasとは
• Koalas : pandas API on Apache Spark
• pandasと同じコードでSparkを動かす
• モチベーション
• データサイエンティストは自身のラップトップ上でコーディング
• より大量データでトレーニングしたい、分散処理環境で動かしたい
• 分散処理環境で動かすためにコードを書き換えたくない(pandas->PySpark)
import pandas as pd
df = pd.DataFrame({'x':[1,2],'y':[3,4],'z':[5,6]})
# Rename columns
df.columns = [‘x’, ‘y’, ‘z1’]
# Do some operations in place
df[‘x2’] = df.x * df.x
import databricks.koalas as ks
df = ks.DataFrame({'x':[1,2],'y':[3,4],'z':[5,6]})
# Rename columns
df.columns = [‘x’, ‘y’, ‘z1’]
# Do some operations in place
df[‘x2’] = df.x * df.x
Pandas: Koalas:
*プログラムコードは以下より引用
https://databricks.com/blog/2019/04/24/koalas-easy-transition-from-pandas-to-apache-spark.html
© 2019 NTT DATA Corporation 40
Koalas – 活用が進むKoalas
• 10,000+ Downloads per day
• 204,452 Downloads this Sept.
• ~100% Month-over-month download growth
• 21 Bi-weekly release
• ユースケース
• Hyperloop One
• PandasからSparkへの移行が負担
• 1%以下のコード書き換えで10倍超の高速化
*画像は以下より引用
https://databricks.com/session_eu19/new-developments-in-the-open-source-ecosystem-apache-spark-3-0-delta-lake-and-koalas
© 2019 NTT DATA Corporation 41
Downscaling: The Achilles heel of Autoscaling Apache Spark
Clusters
Prakhar Jain (Qubole)Venkata Krishnan Sowrirajan (Qubole)
https://databricks.com/session_eu19/downscaling-the-achilles-heel-of-autoscaling-apache-spark-
clusters
© 2019 NTT DATA Corporation 42
Downscaling: The Achilles heel of Autoscaling Apache Spark Clusters(1/5)
なぜクラウドでオートスケーリングが重要か?
• クラウドはノードの増減が柔軟
• 必要な時にノードを立ち上げ
• 用が済んだら捨てる
• 使った分だけ課金
• クラスタのオートスケーリングはこの性質を利用
• 必要になったらクラスタにノードを追加
• クラスタのリソース使用率が下がったらノードを除外
• データはオブジェクトストアに保存
© 2019 NTT DATA Corporation 43
Downscaling: The Achilles heel of Autoscaling Apache Spark Clusters(2/5)
Sparkクラスタにおけるノードの役割
• コンピュート
• 各ノード上にexecutorが立ち上がり、処理を実行
• 一時データの保管
• shuffle/cacheなどの一時的なデータの保管
Upscale easy, downscale difficult
• Upscaling
• 負荷が高まったら単純にノードを追加すればよい
• Downscaling
ノードの除外にあたって、以下の確認が必要
• 実行中のコンテナが存在しないこと
• shuffle/cacheデータがディスク上に存在しないこと
© 2019 NTT DATA Corporation 44
Downscaling: The Achilles heel of Autoscaling Apache Spark Clusters(2/5)
Sparkクラスタにおけるノードの役割
• コンピュート
• 各ノード上にexecutorが立ち上がり、処理を実行
• 一時データの保管
• shuffle/cacheなどの一時的なデータの保管
Upscale easy, downscale difficult
• Upscaling
• 負荷が高まったら単純にノードを追加すればよい
• Downscaling
ノードの除外にあたって、以下の確認が必要
• 実行中のコンテナが存在しないこと
• shuffle/cacheデータがディスク上に存在しないこと
Executorのフラグメンテーション
既存のリソースアロケーションロジックでは、空
いているノードが優先的に使われ、
「空のノード=downscale可能なノード」が
発生しづらい。
課題①
一時データの保持
後々利用されるshuffleデータを保持してい
る限り、当該Executorを削除できない
課題②
© 2019 NTT DATA Corporation 45
Downscaling: The Achilles heel of Autoscaling Apache Spark Clusters(3/5)
課題①Executorのフラグメンテーションへの対処(packing of executors)
リソース使用状況ごとにノードを3種に分類。分類ごとにジョブ割り当ての優先度を設定。
*画像は以下より引用
https://www.slideshare.net/databricks/downscaling-the-achilles-heel-of-autoscaling-apache-spark-clusters
© 2019 NTT DATA Corporation 46
Downscaling: The Achilles heel of Autoscaling Apache Spark Clusters(4/5)
課題②一時データの保持に対する対処
の前に…、
shuffleファイルに関する前提
• shuffleファイルは各executorのローカルストレージ上に存在。
• executorはファイルの保持だけでなく、後続のreduceタスクに対してファイルをサーブする役割も担う。
• executorのロス=shuffleファイルのロス”
“External” Shuffle Service(ESS)
• shuffleファイルを”外部”に置く
• 1ノードに1ESSが存在。executorプロセスとは独立してshuffleファイルの管理を担当。
• 外部とは、executorの外部であって、マシンの外部ではない
• したがってexecutorの増減は可能だが、マシンの増減は不可
シャッフルファイルはいつ消える?
• アプリケーション終了時にESSによって消される。
アプリケーションの終了を待たなければノード
を減らせない
© 2019 NTT DATA Corporation 47
Downscaling: The Achilles heel of Autoscaling Apache Spark Clusters(5/5)
課題②一時データの保持に対する対処
Shuffle Cleanup
• TTLベースでshuffleファイルを削除
• [SPARK-4287]Add TTL-based cleanup in external shuffle service
コンピュートとストレージ分離
• 真に柔軟性を活かすためには、分離が必要
• Shuffleデータをどこか他の場所に置けないか?
→クラスタ上の各ノードにNFSをマウント(NFSに読み書きできるようshuffle managerを変更)
© 2019 NTT DATA Corporation

More Related Content

What's hot

NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
堅牢な国内システムへの導入でも安心!実践的Mulesoft設計テクニック(NTTデータ テクノロジーカンファレンス 2020 発表資料)
堅牢な国内システムへの導入でも安心!実践的Mulesoft設計テクニック(NTTデータ テクノロジーカンファレンス 2020 発表資料)堅牢な国内システムへの導入でも安心!実践的Mulesoft設計テクニック(NTTデータ テクノロジーカンファレンス 2020 発表資料)
堅牢な国内システムへの導入でも安心!実践的Mulesoft設計テクニック(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)NTT DATA Technology & Innovation
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...NTT DATA Technology & Innovation
 
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...NTT DATA Technology & Innovation
 
プログラムを自動生成する技術 ~ Programming by Example ~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
プログラムを自動生成する技術 ~ Programming by Example ~(NTTデータ テクノロジーカンファレンス 2020 発表資料)プログラムを自動生成する技術 ~ Programming by Example ~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
プログラムを自動生成する技術 ~ Programming by Example ~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...NTT DATA Technology & Innovation
 
コロナ禍で挑んだ超高速アジャイル開発 ~最速1.5ヶ月でローンチしたおでかけ混雑マップの舞台裏 (技術編) ~(NTTデータ テクノロジーカンファレンス ...
コロナ禍で挑んだ超高速アジャイル開発 ~最速1.5ヶ月でローンチしたおでかけ混雑マップの舞台裏 (技術編) ~(NTTデータ テクノロジーカンファレンス ...コロナ禍で挑んだ超高速アジャイル開発 ~最速1.5ヶ月でローンチしたおでかけ混雑マップの舞台裏 (技術編) ~(NTTデータ テクノロジーカンファレンス ...
コロナ禍で挑んだ超高速アジャイル開発 ~最速1.5ヶ月でローンチしたおでかけ混雑マップの舞台裏 (技術編) ~(NTTデータ テクノロジーカンファレンス ...NTT DATA Technology & Innovation
 
大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)
大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)
大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)NTT DATA Technology & Innovation
 
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、Databricksでもやってみましょうか平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、DatabricksでもやってみましょうかRyuichi Tokugami
 
COVID-19によるリモートワークIT環境強化の裏側 ~NTTデータにおける同時接続数拡大との戦い~(NTTデータ テクノロジーカンファレンス 2020...
COVID-19によるリモートワークIT環境強化の裏側 ~NTTデータにおける同時接続数拡大との戦い~(NTTデータ テクノロジーカンファレンス 2020...COVID-19によるリモートワークIT環境強化の裏側 ~NTTデータにおける同時接続数拡大との戦い~(NTTデータ テクノロジーカンファレンス 2020...
COVID-19によるリモートワークIT環境強化の裏側 ~NTTデータにおける同時接続数拡大との戦い~(NTTデータ テクノロジーカンファレンス 2020...NTT DATA Technology & Innovation
 
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)NTT DATA Technology & Innovation
 
まだプログラム手で書いて消耗してるの?~入出力例からプログラムを自動生成する技術~(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
まだプログラム手で書いて消耗してるの?~入出力例からプログラムを自動生成する技術~(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...まだプログラム手で書いて消耗してるの?~入出力例からプログラムを自動生成する技術~(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
まだプログラム手で書いて消耗してるの?~入出力例からプログラムを自動生成する技術~(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...NTT DATA Technology & Innovation
 
クラウドネイティブ時代の大規模ウォーターフォール開発(CloudNative Days Tokyo 2021 発表資料)
クラウドネイティブ時代の大規模ウォーターフォール開発(CloudNative Days Tokyo 2021 発表資料)クラウドネイティブ時代の大規模ウォーターフォール開発(CloudNative Days Tokyo 2021 発表資料)
クラウドネイティブ時代の大規模ウォーターフォール開発(CloudNative Days Tokyo 2021 発表資料)NTT DATA Technology & Innovation
 
PostgreSQL開発コミュニティに参加しよう!(PostgreSQL Conference Japan 2021 発表資料)
PostgreSQL開発コミュニティに参加しよう!(PostgreSQL Conference Japan 2021 発表資料)PostgreSQL開発コミュニティに参加しよう!(PostgreSQL Conference Japan 2021 発表資料)
PostgreSQL開発コミュニティに参加しよう!(PostgreSQL Conference Japan 2021 発表資料)NTT DATA Technology & Innovation
 
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)NTT DATA Technology & Innovation
 

What's hot (20)

NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
堅牢な国内システムへの導入でも安心!実践的Mulesoft設計テクニック(NTTデータ テクノロジーカンファレンス 2020 発表資料)
堅牢な国内システムへの導入でも安心!実践的Mulesoft設計テクニック(NTTデータ テクノロジーカンファレンス 2020 発表資料)堅牢な国内システムへの導入でも安心!実践的Mulesoft設計テクニック(NTTデータ テクノロジーカンファレンス 2020 発表資料)
堅牢な国内システムへの導入でも安心!実践的Mulesoft設計テクニック(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
 
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
 
プログラムを自動生成する技術 ~ Programming by Example ~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
プログラムを自動生成する技術 ~ Programming by Example ~(NTTデータ テクノロジーカンファレンス 2020 発表資料)プログラムを自動生成する技術 ~ Programming by Example ~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
プログラムを自動生成する技術 ~ Programming by Example ~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
Apache spark 2.3 and beyond
Apache spark 2.3 and beyondApache spark 2.3 and beyond
Apache spark 2.3 and beyond
 
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
 
Big Data Architecture 全体概要
Big Data Architecture 全体概要Big Data Architecture 全体概要
Big Data Architecture 全体概要
 
Apache Spark 2.4 and 3.0 What's Next?
Apache Spark 2.4 and 3.0  What's Next? Apache Spark 2.4 and 3.0  What's Next?
Apache Spark 2.4 and 3.0 What's Next?
 
コロナ禍で挑んだ超高速アジャイル開発 ~最速1.5ヶ月でローンチしたおでかけ混雑マップの舞台裏 (技術編) ~(NTTデータ テクノロジーカンファレンス ...
コロナ禍で挑んだ超高速アジャイル開発 ~最速1.5ヶ月でローンチしたおでかけ混雑マップの舞台裏 (技術編) ~(NTTデータ テクノロジーカンファレンス ...コロナ禍で挑んだ超高速アジャイル開発 ~最速1.5ヶ月でローンチしたおでかけ混雑マップの舞台裏 (技術編) ~(NTTデータ テクノロジーカンファレンス ...
コロナ禍で挑んだ超高速アジャイル開発 ~最速1.5ヶ月でローンチしたおでかけ混雑マップの舞台裏 (技術編) ~(NTTデータ テクノロジーカンファレンス ...
 
大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)
大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)
大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)
 
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、Databricksでもやってみましょうか平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、Databricksでもやってみましょうか
 
COVID-19によるリモートワークIT環境強化の裏側 ~NTTデータにおける同時接続数拡大との戦い~(NTTデータ テクノロジーカンファレンス 2020...
COVID-19によるリモートワークIT環境強化の裏側 ~NTTデータにおける同時接続数拡大との戦い~(NTTデータ テクノロジーカンファレンス 2020...COVID-19によるリモートワークIT環境強化の裏側 ~NTTデータにおける同時接続数拡大との戦い~(NTTデータ テクノロジーカンファレンス 2020...
COVID-19によるリモートワークIT環境強化の裏側 ~NTTデータにおける同時接続数拡大との戦い~(NTTデータ テクノロジーカンファレンス 2020...
 
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)
 
まだプログラム手で書いて消耗してるの?~入出力例からプログラムを自動生成する技術~(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
まだプログラム手で書いて消耗してるの?~入出力例からプログラムを自動生成する技術~(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...まだプログラム手で書いて消耗してるの?~入出力例からプログラムを自動生成する技術~(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
まだプログラム手で書いて消耗してるの?~入出力例からプログラムを自動生成する技術~(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
 
クラウドネイティブ時代の大規模ウォーターフォール開発(CloudNative Days Tokyo 2021 発表資料)
クラウドネイティブ時代の大規模ウォーターフォール開発(CloudNative Days Tokyo 2021 発表資料)クラウドネイティブ時代の大規模ウォーターフォール開発(CloudNative Days Tokyo 2021 発表資料)
クラウドネイティブ時代の大規模ウォーターフォール開発(CloudNative Days Tokyo 2021 発表資料)
 
PostgreSQL開発コミュニティに参加しよう!(PostgreSQL Conference Japan 2021 発表資料)
PostgreSQL開発コミュニティに参加しよう!(PostgreSQL Conference Japan 2021 発表資料)PostgreSQL開発コミュニティに参加しよう!(PostgreSQL Conference Japan 2021 発表資料)
PostgreSQL開発コミュニティに参加しよう!(PostgreSQL Conference Japan 2021 発表資料)
 
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
 

Similar to Spark+AI Summit Europe 2019 セッションハイライト(Spark Meetup Tokyo #2 講演資料)

NTTデータ流Infrastructure as Code~ 大規模プロジェクトを通して考え抜いた基盤自動化の新たな姿~(NTTデータ テクノロジーカンフ...
NTTデータ流Infrastructure as Code~ 大規模プロジェクトを通して考え抜いた基盤自動化の新たな姿~(NTTデータ テクノロジーカンフ...NTTデータ流Infrastructure as Code~ 大規模プロジェクトを通して考え抜いた基盤自動化の新たな姿~(NTTデータ テクノロジーカンフ...
NTTデータ流Infrastructure as Code~ 大規模プロジェクトを通して考え抜いた基盤自動化の新たな姿~(NTTデータ テクノロジーカンフ...NTT DATA Technology & Innovation
 
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdataMLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdataNTT DATA Technology & Innovation
 
Spring Initializrをハックする-カスタマイズを通してその内部実装を覗く
Spring Initializrをハックする-カスタマイズを通してその内部実装を覗くSpring Initializrをハックする-カスタマイズを通してその内部実装を覗く
Spring Initializrをハックする-カスタマイズを通してその内部実装を覗くapkiban
 
商用導入実績世界1位! ミランティスが提供するOpenStackとお客様の導入事例
商用導入実績世界1位! ミランティスが提供するOpenStackとお客様の導入事例商用導入実績世界1位! ミランティスが提供するOpenStackとお客様の導入事例
商用導入実績世界1位! ミランティスが提供するOpenStackとお客様の導入事例Ataru Shimodaira
 
システム間連携を担うSpring Integrationのエンタープライズ開発での活用
システム間連携を担うSpring Integrationのエンタープライズ開発での活用システム間連携を担うSpring Integrationのエンタープライズ開発での活用
システム間連携を担うSpring Integrationのエンタープライズ開発での活用apkiban
 
基調講演「データのグループウェア化」
基調講演「データのグループウェア化」基調講演「データのグループウェア化」
基調講演「データのグループウェア化」Cybozucommunity
 
Tokyo H2O.ai Meetup#2 by Iida
Tokyo H2O.ai Meetup#2 by IidaTokyo H2O.ai Meetup#2 by Iida
Tokyo H2O.ai Meetup#2 by IidaHidenori Fujioka
 
[DevSumi2019]Cloud Native アプリケーションに最適!Oracle Cloud Infrastructureの魅力!
[DevSumi2019]Cloud Native アプリケーションに最適!Oracle Cloud Infrastructureの魅力![DevSumi2019]Cloud Native アプリケーションに最適!Oracle Cloud Infrastructureの魅力!
[DevSumi2019]Cloud Native アプリケーションに最適!Oracle Cloud Infrastructureの魅力!オラクルエンジニア通信
 
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Atsushi Tsuchiya
 
de:code2018 登壇資料
de:code2018 登壇資料de:code2018 登壇資料
de:code2018 登壇資料Hiroshi Senga
 
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏Daisuke Ikeda
 
ビッグIoTデータに対応したデータベース GridDB
ビッグIoTデータに対応したデータベース GridDBビッグIoTデータに対応したデータベース GridDB
ビッグIoTデータに対応したデータベース GridDBgriddb
 
グローバルソフトウェア企業が辿り着いたkintoneを 活用した『ハイブリッド』な最適化
グローバルソフトウェア企業が辿り着いたkintoneを 活用した『ハイブリッド』な最適化グローバルソフトウェア企業が辿り着いたkintoneを 活用した『ハイブリッド』な最適化
グローバルソフトウェア企業が辿り着いたkintoneを 活用した『ハイブリッド』な最適化Cybozucommunity
 
グローバルソフトウェア企業が辿り着いたkintoneを 活用した『ハイブリッド』な最適化
グローバルソフトウェア企業が辿り着いたkintoneを 活用した『ハイブリッド』な最適化グローバルソフトウェア企業が辿り着いたkintoneを 活用した『ハイブリッド』な最適化
グローバルソフトウェア企業が辿り着いたkintoneを 活用した『ハイブリッド』な最適化CData Software Japan
 
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツールDevelopers Summit
 

Similar to Spark+AI Summit Europe 2019 セッションハイライト(Spark Meetup Tokyo #2 講演資料) (20)

NTTデータ流Infrastructure as Code~ 大規模プロジェクトを通して考え抜いた基盤自動化の新たな姿~(NTTデータ テクノロジーカンフ...
NTTデータ流Infrastructure as Code~ 大規模プロジェクトを通して考え抜いた基盤自動化の新たな姿~(NTTデータ テクノロジーカンフ...NTTデータ流Infrastructure as Code~ 大規模プロジェクトを通して考え抜いた基盤自動化の新たな姿~(NTTデータ テクノロジーカンフ...
NTTデータ流Infrastructure as Code~ 大規模プロジェクトを通して考え抜いた基盤自動化の新たな姿~(NTTデータ テクノロジーカンフ...
 
Aws summit tokyo 2016
Aws summit tokyo 2016Aws summit tokyo 2016
Aws summit tokyo 2016
 
Spark SQL - The internal -
Spark SQL - The internal -Spark SQL - The internal -
Spark SQL - The internal -
 
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdataMLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
 
OSS光と闇
OSS光と闇OSS光と闇
OSS光と闇
 
Spring Initializrをハックする-カスタマイズを通してその内部実装を覗く
Spring Initializrをハックする-カスタマイズを通してその内部実装を覗くSpring Initializrをハックする-カスタマイズを通してその内部実装を覗く
Spring Initializrをハックする-カスタマイズを通してその内部実装を覗く
 
ベンダーロックインフリーのビジネスクラウドの世界
ベンダーロックインフリーのビジネスクラウドの世界ベンダーロックインフリーのビジネスクラウドの世界
ベンダーロックインフリーのビジネスクラウドの世界
 
商用導入実績世界1位! ミランティスが提供するOpenStackとお客様の導入事例
商用導入実績世界1位! ミランティスが提供するOpenStackとお客様の導入事例商用導入実績世界1位! ミランティスが提供するOpenStackとお客様の導入事例
商用導入実績世界1位! ミランティスが提供するOpenStackとお客様の導入事例
 
システム間連携を担うSpring Integrationのエンタープライズ開発での活用
システム間連携を担うSpring Integrationのエンタープライズ開発での活用システム間連携を担うSpring Integrationのエンタープライズ開発での活用
システム間連携を担うSpring Integrationのエンタープライズ開発での活用
 
20180319 ccon sync kintone
20180319 ccon sync kintone20180319 ccon sync kintone
20180319 ccon sync kintone
 
基調講演「データのグループウェア化」
基調講演「データのグループウェア化」基調講演「データのグループウェア化」
基調講演「データのグループウェア化」
 
Tokyo H2O.ai Meetup#2 by Iida
Tokyo H2O.ai Meetup#2 by IidaTokyo H2O.ai Meetup#2 by Iida
Tokyo H2O.ai Meetup#2 by Iida
 
[DevSumi2019]Cloud Native アプリケーションに最適!Oracle Cloud Infrastructureの魅力!
[DevSumi2019]Cloud Native アプリケーションに最適!Oracle Cloud Infrastructureの魅力![DevSumi2019]Cloud Native アプリケーションに最適!Oracle Cloud Infrastructureの魅力!
[DevSumi2019]Cloud Native アプリケーションに最適!Oracle Cloud Infrastructureの魅力!
 
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
 
de:code2018 登壇資料
de:code2018 登壇資料de:code2018 登壇資料
de:code2018 登壇資料
 
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
 
ビッグIoTデータに対応したデータベース GridDB
ビッグIoTデータに対応したデータベース GridDBビッグIoTデータに対応したデータベース GridDB
ビッグIoTデータに対応したデータベース GridDB
 
グローバルソフトウェア企業が辿り着いたkintoneを 活用した『ハイブリッド』な最適化
グローバルソフトウェア企業が辿り着いたkintoneを 活用した『ハイブリッド』な最適化グローバルソフトウェア企業が辿り着いたkintoneを 活用した『ハイブリッド』な最適化
グローバルソフトウェア企業が辿り着いたkintoneを 活用した『ハイブリッド』な最適化
 
グローバルソフトウェア企業が辿り着いたkintoneを 活用した『ハイブリッド』な最適化
グローバルソフトウェア企業が辿り着いたkintoneを 活用した『ハイブリッド』な最適化グローバルソフトウェア企業が辿り着いたkintoneを 活用した『ハイブリッド』な最適化
グローバルソフトウェア企業が辿り着いたkintoneを 活用した『ハイブリッド』な最適化
 
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
 

More from NTT DATA Technology & Innovation

OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)NTT DATA Technology & Innovation
 
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)NTT DATA Technology & Innovation
 
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方NTT DATA Technology & Innovation
 
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...NTT DATA Technology & Innovation
 
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)NTT DATA Technology & Innovation
 
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)NTT DATA Technology & Innovation
 
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...NTT DATA Technology & Innovation
 
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
 
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
 
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
 
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)NTT DATA Technology & Innovation
 
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...NTT DATA Technology & Innovation
 
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)NTT DATA Technology & Innovation
 
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)NTT DATA Technology & Innovation
 
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)NTT DATA Technology & Innovation
 
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...NTT DATA Technology & Innovation
 
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)NTT DATA Technology & Innovation
 
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)NTT DATA Technology & Innovation
 
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)NTT DATA Technology & Innovation
 
PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)NTT DATA Technology & Innovation
 

More from NTT DATA Technology & Innovation (20)

OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
 
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
 
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
 
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
 
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
 
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
 
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
 
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
 
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
 
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
 
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
 
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
 
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
 
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
 
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
 
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
 
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
 
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
 
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
 
PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
 

Recently uploaded

新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 

Recently uploaded (9)

新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 

Spark+AI Summit Europe 2019 セッションハイライト(Spark Meetup Tokyo #2 講演資料)

  • 1. © 2019 NTT DATA Corporation 2019年 11月 19日 株式会社NTTデータ 技術革新統括本部 システム技術本部 生産技術部 インテグレーション技術センタ Spark+AI Summit Europe 2019 セッションハイライト
  • 2. © 2019 NTT DATA Corporation 2 はじめに • 本資料は、Spark+AI Summit Europe 2019で行われたプレゼンテーションの一部を ピックアップして、ダイジェストで紹介するものである。 • 本資料の内容は、必ずしも当社の見解を表すものではない。 • 本資料の掲載された社名、商品名は各社の商標または登録商標である。
  • 3. © 2019 NTT DATA Corporation 3 アジェンダ 1. Spark+AI Summit Europe 2019について 2. 個別セッション紹介 1. 萩原パート 2. 酒井パート
  • 4. © 2019 NTT DATA Corporation 4 Spark+AI Summit Europe 2019 日時: 2019年10月15日(火) – 2019年10月17日(木) 場所: RAI Amsterdam Convention Centre, Amsterdam, Netherland. 参加人数:2,300人超(公式発表) https://databricks.com/sparkaisummit/europe/sponsorsより引用
  • 5. © 2019 NTT DATA Corporation 5 Spark+AI Summit Europe 2019 雑感 • 盛況 • 昼食会場は席が足りていない状況 • 日本からの参加者は少ない印象 • ヨーロッパ開催なだけあり、周辺国からの参加が多かった セッションタイトルから生成したWordCloud
  • 6. © 2019 NTT DATA Corporation 6 萩原パート
  • 7. © 2019 NTT DATA Corporation 7 自己紹介 氏名:萩原 悠二(はぎわら ゆうじ) 所属:NTTデータ 技術革新統括本部 システム技術本部 生産技術部 業務内容: • Hadoop/Spark等を用いた商用案件の設計・検証支援 • 機械学習を活用するビッグデータ基盤の研究開発 • 各種OSSのサポート提供 • 外部発表、記事執筆など
  • 8. © 2019 NTT DATA Corporation 8 Keynote: Simplifying Model Management with MLflow Matei Zaharia (Databricks), Corey Zumar (Databricks) https://databricks.com/session_eu19/1-simplifying-model-management-with-mlflow MLflowの最新動向と 新機能についてご紹介
  • 9. © 2019 NTT DATA Corporation 9 MLflowについて • MLflowは”An Open Source ML Platform”である。 • Tracking, Projects, Modelsの3つのコンポーネントで構成 • MLflowについての詳細はYamamuroさん(@maropu)のMeetup#1発表(※1)を参照 ※1: https://www.slideshare.net/maropu0804/mlflow 今回のKeynoteのポイント • ここ6カ月の機能アップデート • Autologging in Tensorflow & Keras • DataFrame Search API • Kubernetes, HDFS & Seldon integration • MLflow Model Registryの発表 • MLflowの新たなコンポーネントの一つ Tracking 学習条件等を 記録する。 Projects 機械学習コードを再 現可能にパッケージす る Models 学習モデルの フォーマット 画像はhttps://mlflow.org/より引用
  • 10. © 2019 NTT DATA Corporation 10 Autologging in Tensorflow & Keras • MLflow Trackingに関する新機能 • TensorflowやKerasで一般的に必要となるであろうParameters, Metricsを自動でトラッキングする。 NNのパラメータ (隠れ層のユニット数、学 習率)をログに残す NNのメトリクス (損失関数の値)をログ に残す モデルの構造に合わせて、 ParameterとMetricを自動で拾って ログに残す 画像は“Keynote: Simplifying Model Management with MLflow”の発表より引用
  • 11. © 2019 NTT DATA Corporation 11 MLflow Model Registry - モデル管理の課題 大人数で様々なモデルを管理するとき、、、 発生する課題: • どのモデルを使えばいいのか? • どうやってモデルが作られたのか? • どうやって各モデルのドキュメント を追跡する? • どうやってモデルをレビューする? 画像は“Keynote: Simplifying Model Management with MLflow”の発表より引用
  • 12. © 2019 NTT DATA Corporation 12 MLflow Model Registryとは • モデルに対して名前やコメント、タグをつけてバージョン管理できるレジストリ。 • 各モデルのステージ(開発用、ステージング用、本番用、アーカイブ済)の状態遷移、その履歴も管理する。 • モデルに関わる人々のワークフローを定義し、実現する。 ワークフロー 1. モデル開発者がモデルを登録する。 2. レビュアによるレビューや、CI/CDに よるテストを通じてモデルを承認する。 3. モデルを利用する 1. ユーザ 2. ジョブ 3. サービング 画像は“Keynote: Simplifying Model Management with MLflow”の発表より引用
  • 13. © 2019 NTT DATA Corporation 13 MLflow Model Registryデモ 画像は“Keynote: Simplifying Model Management with MLflow”の発表より引用 モデルの説明を 記述できる モデルはMLflow Trackingと紐づく モデルのステージを変更 (デモではNone → Production) モデルの名前と バージョンを特定 モデルの名前とステージ を指定してロードできる ステージの 変更履歴が記録される 従来はモデルのファイル パスで指定していたが、
  • 14. © 2019 NTT DATA Corporation 14 おまけ 10/30にMLflow1.4リリース! Model Registry(Beta)がリリースに 含まれるようになった。 https://mlflow.org/news/2019/10/30/1.4.0-release/index.htmlより引用
  • 15. © 2019 NTT DATA Corporation 15 Machine Learning at Scale with MLflow and Apache Spark Chongguang Liu (Société Générale) https://databricks.com/session_eu19/machine-learning-at-scale-with-mlflow-and-apache-spark プロダクションで機械学習を使うときの 「ハマったところ」「対応方法」をご紹介
  • 16. © 2019 NTT DATA Corporation 16 Société Généraleにおけるデータ活用 Société Générale : フランスのメガバンク • プロダクション環境のデータレイクにおいて、80以上のデータパイプライン • 200人以上のデータサイエンティスト • 新商品の開発、顧客体験の改善、効率化にデータを活かす • マネーロンダリング防止や不正検知など
  • 17. © 2019 NTT DATA Corporation 17 データやモデルのやり取りの問題点 ステークホルダたち • ビジネスサイド • データサイエンティスト • データエンジニア ステークホルダ間のやりとり 1. ビジネスサイドからデータサイエンティストへデータを渡す • プロトタイピングのために、データを手でコピーしていた • データの品質がわからない 2. データサイエンティストからデータエンジニアへプロトタイプの機械学習コードを渡す • 商用環境向けにプログラミング言語の書き換えが必要になった • プログラムを書き換えたことにより、出力結果が同じになるのかがわからない 3. データエンジニアからデータサイエンティストへ商用環境向け機械学習コードを渡す • 自動化されておらず、コードを手動でデプロイしなければならなかった • データの違い(データサイエンティストが使ったデータ vs プロダクションデータ)があり 4. データサイエンティストからビジネスサイドへ学習済みモデルを渡す • 最適でないプレディクション • モデルアップデート頻度の低下
  • 18. © 2019 NTT DATA Corporation 18 取り組んできたこと(1/7) 1. データローカリティ 2. アプリケーションの信頼性 3. 様々なPythonパッケージ 4. モデル管理 5. トラッキングサーバの信頼性 6. モデルサービング
  • 19. © 2019 NTT DATA Corporation 19 取り組んできたこと(2/7) 1. データローカリティ 2. アプリケーションの信頼性 3. 様々なPythonパッケージ 4. モデル管理 5. トラッキングサーバの信頼性 6. モデルサービング 画像は“Machine Learning at Scale with MLflow and Apache Spark”の発表より引用 HDFSによるデータレイクにデータを集中させる。 データサイエンティストはデータレイクのデータを 利用する。(データの違いの解消) 銀行のデータの規制が厳しいため、クラウドへの アップロードがむずかしい。 学習と予測をデータレイク内で実行する。
  • 20. © 2019 NTT DATA Corporation 20 取り組んできたこと(3/7) 1. データローカリティ 2. アプリケーションの信頼性 3. 様々なPythonパッケージ 4. モデル管理 5. トラッキングサーバの信頼性 6. モデルサービング プロダクションフェーズ • YARNによるリソースマネジメントで分散処理 • PythonのスタンドアロンアプリやPySparkアプリを実行 • ジョブスケジューリングにOozieを使用 プロトタイプフェーズ • データサイエンティストたちで1台の高性能なマシンを共有 • 処理時間の保証は無し • プロトタイプフェーズとプロダクションフェー ズそれぞれで、求められる特性に合わせ て異なる開発手法・実行環境を用いる。
  • 21. © 2019 NTT DATA Corporation 21 取り組んできたこと(4/7) 1. データローカリティ 2. アプリケーションの信頼性 3. 様々なPythonパッケージ 4. モデル管理 5. トラッキングサーバの信頼性 6. モデルサービング 画像は“Machine Learning at Scale with MLflow and Apache Spark”の発表より引用 • Hadoopが最新じゃないのでDocker は使ってない • 各チームで好みのPythonライブラリ・ バージョンがあるので、すべてを満たすの が困難 • 環境を含めて、HDFSへ格納する。自 動で。 MLflow Projects 形式でgitへ格納 conda.yamlから Conda環境を作成し、 Nexusへ登録 Ansibleで デプロイ
  • 22. © 2019 NTT DATA Corporation 22 取り組んできたこと(5/7) 1. データローカリティ 2. アプリケーションの信頼性 3. 様々なPythonパッケージ 4. モデル管理 5. トラッキングサーバの信頼性 6. モデルサービング 画像は“Machine Learning at Scale with MLflow and Apache Spark”の発表より引用 • 週次や日次でモデルを作っている。 • データサイエンティストは、それらを簡単 に比較したり、数週間前のものを見つけ たい。 • データエンジニアはモデルをHDFSにまと め、推論時にロードできるようにしたい。 使っているMLflow バージョンが古く HDFS未対応だった pickle等はデカいの で別途HDFSへ保存 MLflowでモデルの メタデータを管理
  • 23. © 2019 NTT DATA Corporation 23 取り組んできたこと(6/7) 1. データローカリティ 2. アプリケーションの信頼性 3. 様々なPythonパッケージ 4. モデル管理 5. トラッキングサーバの信頼性 6. モデルサービング 画像は“Machine Learning at Scale with MLflow and Apache Spark”の発表より引用 DBを 共有 MLflow Tracking Serverを 2つ動かして冗長化
  • 24. © 2019 NTT DATA Corporation 24 取り組んできたこと(7/7) 1. データローカリティ 2. アプリケーションの信頼性 3. 様々なPythonパッケージ 4. モデル管理 5. トラッキングサーバの信頼性 6. モデルサービング 画像は“Machine Learning at Scale with MLflow and Apache Spark”の発表より引用 ストリームでの 推論 REST APIに よる推論 データは全て内部に完結可能 セキュリティ的にうれしい Knoxでリクエ ストをプロキシ
  • 25. © 2019 NTT DATA Corporation 25 具体例 インターネットから得られるニュースの解析(コンプライアンス部門で使用) ユーザからのフィー ドバック収集 画像は“Machine Learning at Scale with MLflow and Apache Spark”の発表より引用 フィードバックを 用いて再学習 グリッドサーチ MLflowのメトリクスをもとに 最善のモデルを選択 • 手動でモデルを デプロイ • 更新が大変
  • 26. © 2019 NTT DATA Corporation 26 酒井パート
  • 27. © 2019 NTT DATA Corporation 27 自己紹介 氏名:酒井 遼平(さかい りょうへい) 所属:NTTデータ 技術革新統括本部 システム技術本部 生産技術部 業務内容: • Hadoop/Spark等を用いた商用案件の設計・検証支援 • ストリームデータ処理に関するビッグデータ基盤の研究開発 • 各種OSSのサポート提供
  • 28. © 2019 NTT DATA Corporation 28 Keynote: New Developments in the Open Source Ecosystem: Apache Spark 3.0, Delta Lake, and Koalas Michael Armbrust(Databricks), Brooke Wenig (Databricks), Burak Yavuz (Databricks) https://databricks.com/session_eu19/new-developments-in-the-open-source-ecosystem- apache-spark-3-0-delta-lake-and-koalas
  • 29. © 2019 NTT DATA Corporation 29 New Developments in the Open Source Ecosystem 今回のKeynoteのポイント Sparkエコシステムに関する最近の取り組みについて紹介 • Apache Spark 3.0 • Spark SQLのパフォーマンス改善ポイント • Delta Lake • SparkでACIDトランザクションを実現 • コミュニティ急成長中 • Linux Foundationがプロジェクトをホスト • Koalas • Koalasとは
  • 30. © 2019 NTT DATA Corporation 30 New Developments in the Open Source Ecosystem 今回のKeynoteのポイント Sparkエコシステムに関する最近の取り組みについて紹介 • Apache Spark 3.0 • Spark SQLのパフォーマンス改善ポイント • Delta Lake • SparkでACIDトランザクションを実現 • コミュニティ急成長中 • Linux Foundationがプロジェクトをホスト • Koalas • Koalasとは
  • 31. © 2019 NTT DATA Corporation 31 Apache Spark 3.0 – Spark SQLのパフォーマンス改善ポイント (1/3) クエリ実行段階で必ずしも最適化に必要な統計情報を持ち合わせていない -> Adaptive Query Execution 実行中にデータを見てからクエリプランを変更 *画像は以下より引用 https://databricks.com/session_eu19/new-developments-in-the-open-source-ecosystem-apache-spark-3-0-delta-lake-and-koalas
  • 32. © 2019 NTT DATA Corporation 32 Apache Spark 3.0 – Spark SQLのパフォーマンス改善ポイント (2/3) Dynamic partition pruning ディメンションテーブルに対するフィルタ条件をもとにして巨大なファクトテーブルをフィルタ *画像は以下より引用 https://databricks.com/session_eu19/new-developments-in-the-open-source-ecosystem-apache-spark-3-0-delta-lake-and-koalas
  • 33. © 2019 NTT DATA Corporation 33 Apache Spark 3.0 – Spark SQLのパフォーマンス改善ポイント (3/3) Spark 3.0 preview (2019/11/06) https://spark.apache.org/news/spark-3.0.0-preview.html
  • 34. © 2019 NTT DATA Corporation 34 Delta Lake – Spark on ACID (1/4) Delta Lake • ACID transaction on Spark • Scalable metadata handling • Steraming and batch unification • Schema enforcement • Time travel • Upserts, deletes
  • 35. © 2019 NTT DATA Corporation 35 Delta Lake – Spark on ACID (2/4) これまでのアーキテクチャのつらいポイント *画像は以下より引用 https://databricks.com/session_eu19/new-developments-in-the-open-source-ecosystem-apache-spark-3-0-delta-lake-and-koalas
  • 36. © 2019 NTT DATA Corporation 36 Delta Lake – Spark on ACID (3/4) これまでのアーキテクチャのつらいポイント *画像は以下より引用 https://databricks.com/session_eu19/new-developments-in-the-open-source-ecosystem-apache-spark-3-0-delta-lake-and-koalas
  • 37. © 2019 NTT DATA Corporation 37 Delta Lake – Spark on ACID (4/4) DELTA LAKE Architecture *画像は以下より引用 https://databricks.com/session_eu19/new-developments-in-the-open-source-ecosystem-apache-spark-3-0-delta-lake-and-koalas
  • 38. © 2019 NTT DATA Corporation 38 Delta Lake – コミュニティ • 2018年4月にOSS化して以来、成長を続けている • 2019年9月 • 20,000DL, 4,000以上の組織で使用されている • 単月で2 exabytesがDelta Lakeで読み書きされている • Sparkを超えた使われ方 • HiveやPrestoがDelta Lakeをサポートする動きが出ている • Delta LakeプロジェクトをLinux Foundationへ移管 *画像は以下より引用 https://databricks.com/session_eu19/new-developments-in-the-open-source-ecosystem-apache-spark-3-0-delta-lake-and-koalas
  • 39. © 2019 NTT DATA Corporation 39 Koalas – Koalasとは • Koalas : pandas API on Apache Spark • pandasと同じコードでSparkを動かす • モチベーション • データサイエンティストは自身のラップトップ上でコーディング • より大量データでトレーニングしたい、分散処理環境で動かしたい • 分散処理環境で動かすためにコードを書き換えたくない(pandas->PySpark) import pandas as pd df = pd.DataFrame({'x':[1,2],'y':[3,4],'z':[5,6]}) # Rename columns df.columns = [‘x’, ‘y’, ‘z1’] # Do some operations in place df[‘x2’] = df.x * df.x import databricks.koalas as ks df = ks.DataFrame({'x':[1,2],'y':[3,4],'z':[5,6]}) # Rename columns df.columns = [‘x’, ‘y’, ‘z1’] # Do some operations in place df[‘x2’] = df.x * df.x Pandas: Koalas: *プログラムコードは以下より引用 https://databricks.com/blog/2019/04/24/koalas-easy-transition-from-pandas-to-apache-spark.html
  • 40. © 2019 NTT DATA Corporation 40 Koalas – 活用が進むKoalas • 10,000+ Downloads per day • 204,452 Downloads this Sept. • ~100% Month-over-month download growth • 21 Bi-weekly release • ユースケース • Hyperloop One • PandasからSparkへの移行が負担 • 1%以下のコード書き換えで10倍超の高速化 *画像は以下より引用 https://databricks.com/session_eu19/new-developments-in-the-open-source-ecosystem-apache-spark-3-0-delta-lake-and-koalas
  • 41. © 2019 NTT DATA Corporation 41 Downscaling: The Achilles heel of Autoscaling Apache Spark Clusters Prakhar Jain (Qubole)Venkata Krishnan Sowrirajan (Qubole) https://databricks.com/session_eu19/downscaling-the-achilles-heel-of-autoscaling-apache-spark- clusters
  • 42. © 2019 NTT DATA Corporation 42 Downscaling: The Achilles heel of Autoscaling Apache Spark Clusters(1/5) なぜクラウドでオートスケーリングが重要か? • クラウドはノードの増減が柔軟 • 必要な時にノードを立ち上げ • 用が済んだら捨てる • 使った分だけ課金 • クラスタのオートスケーリングはこの性質を利用 • 必要になったらクラスタにノードを追加 • クラスタのリソース使用率が下がったらノードを除外 • データはオブジェクトストアに保存
  • 43. © 2019 NTT DATA Corporation 43 Downscaling: The Achilles heel of Autoscaling Apache Spark Clusters(2/5) Sparkクラスタにおけるノードの役割 • コンピュート • 各ノード上にexecutorが立ち上がり、処理を実行 • 一時データの保管 • shuffle/cacheなどの一時的なデータの保管 Upscale easy, downscale difficult • Upscaling • 負荷が高まったら単純にノードを追加すればよい • Downscaling ノードの除外にあたって、以下の確認が必要 • 実行中のコンテナが存在しないこと • shuffle/cacheデータがディスク上に存在しないこと
  • 44. © 2019 NTT DATA Corporation 44 Downscaling: The Achilles heel of Autoscaling Apache Spark Clusters(2/5) Sparkクラスタにおけるノードの役割 • コンピュート • 各ノード上にexecutorが立ち上がり、処理を実行 • 一時データの保管 • shuffle/cacheなどの一時的なデータの保管 Upscale easy, downscale difficult • Upscaling • 負荷が高まったら単純にノードを追加すればよい • Downscaling ノードの除外にあたって、以下の確認が必要 • 実行中のコンテナが存在しないこと • shuffle/cacheデータがディスク上に存在しないこと Executorのフラグメンテーション 既存のリソースアロケーションロジックでは、空 いているノードが優先的に使われ、 「空のノード=downscale可能なノード」が 発生しづらい。 課題① 一時データの保持 後々利用されるshuffleデータを保持してい る限り、当該Executorを削除できない 課題②
  • 45. © 2019 NTT DATA Corporation 45 Downscaling: The Achilles heel of Autoscaling Apache Spark Clusters(3/5) 課題①Executorのフラグメンテーションへの対処(packing of executors) リソース使用状況ごとにノードを3種に分類。分類ごとにジョブ割り当ての優先度を設定。 *画像は以下より引用 https://www.slideshare.net/databricks/downscaling-the-achilles-heel-of-autoscaling-apache-spark-clusters
  • 46. © 2019 NTT DATA Corporation 46 Downscaling: The Achilles heel of Autoscaling Apache Spark Clusters(4/5) 課題②一時データの保持に対する対処 の前に…、 shuffleファイルに関する前提 • shuffleファイルは各executorのローカルストレージ上に存在。 • executorはファイルの保持だけでなく、後続のreduceタスクに対してファイルをサーブする役割も担う。 • executorのロス=shuffleファイルのロス” “External” Shuffle Service(ESS) • shuffleファイルを”外部”に置く • 1ノードに1ESSが存在。executorプロセスとは独立してshuffleファイルの管理を担当。 • 外部とは、executorの外部であって、マシンの外部ではない • したがってexecutorの増減は可能だが、マシンの増減は不可 シャッフルファイルはいつ消える? • アプリケーション終了時にESSによって消される。 アプリケーションの終了を待たなければノード を減らせない
  • 47. © 2019 NTT DATA Corporation 47 Downscaling: The Achilles heel of Autoscaling Apache Spark Clusters(5/5) 課題②一時データの保持に対する対処 Shuffle Cleanup • TTLベースでshuffleファイルを削除 • [SPARK-4287]Add TTL-based cleanup in external shuffle service コンピュートとストレージ分離 • 真に柔軟性を活かすためには、分離が必要 • Shuffleデータをどこか他の場所に置けないか? →クラスタ上の各ノードにNFSをマウント(NFSに読み書きできるようshuffle managerを変更)
  • 48. © 2019 NTT DATA Corporation

Editor's Notes

  1. 簡単に自己紹介させていただきます。 私はNTTデータにおいて、技術部隊に所属しておりまして、エンジニアとして、HadoopやSparkを用いた商用案件での支援などを行っております。 また今回の発表での取り組みのような、機械学習を活用するビッグデータ基盤の研究開発に取り組んでいたり、そのほか外部での発表や雑誌記事の執筆なども行っております
  2. 簡単に自己紹介させていただきます。 私はNTTデータにおいて、技術部隊に所属しておりまして、エンジニアとして、HadoopやSparkを用いた商用案件での支援などを行っております。 また今回の発表での取り組みのような、機械学習を活用するビッグデータ基盤の研究開発に取り組んでいたり、そのほか外部での発表や雑誌記事の執筆なども行っております
  3. Downscaling: The Achilles heel of Autoscaling Apache Spark Clusters Prakhar Jain (Qubole)Venkata Krishnan Sowrirajan (Qubole)