SlideShare a Scribd company logo
1 of 33
Spark Overview
Demo
• ETL
• Structured Streaming
• Machine Learning
• Deep Learning
Bigdata システムのユースケース
POS システム、EC サイト、IoT データ分析、CDR 分析、コールセンター
データ、・・・
バッチ処理 ⇒ 限られ
た時間で大量データ
を
処理したい
リアルタイム分析 ⇒
データの生成から遅延
時間を
最小限にして分析した
い
蓄積された大量データを活用した
アドバンストアナリティクスを実
施したい
システムの要件をクリアする ソリューション
並列分散処理を可能にする
オープンソース分析エンジン
Apache Spark の
PaaS ソリューション
Spark Overview
 UC Berkeley で 2009 年に始まった研究プロジェクト
 汎用的で高速なクラスター型コンピューティングシス
テム
 Scala、Java、Python、R、SQL が利用可能
 200以上の企業から 1,000人以上のディベロッパーの手
によって開発された
JVM
JVM JVM JVM JVM
© Databricks 2018
• 並列処理による高速化
• メモリを利用した高速化
MapReduce
© Databricks 2018
Spark
RDD
 R
 D
 D
DATAFRAME
 データをテーブル型に保持
 オプティマイザーを用いてパフォーマンスを向上
 Tungsten & Catalyst によるオプティマイズ
 言語を問わず統一された API を提供
• RDD から DataFrames を中心
とした高レベル API にシフト
• Spark Streaming 
Structured Streaming
• spark.mllib  spark.ml
• Graph X  Graph Frames
1. SQL/Data Frame の分析
2. 論理プランの最適化
3. 物理プランの生成(コストベース)
4. コード生成
© Databricks 2018
SQL Query
Data Frame
Unresolved
Logical Plan
Logical Plan Optimized
Logical Plan
Selected
Physical
Plan
RDDsPhysical
Plans
CostModel
Catalog
Analysis
Logical
Optimization
Physical
Planning
Code
Generation
© Databricks 2018
https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html
DEMO
バッチ分析 ⇒ 限られた時間で大量データを処理をしたい
構造化データ
分析アプリ
ダッシュボード
ログ、メ
ディア
r
センサーデータ
CDR、POSデータど
データ加工集計非構造化データ
基幹業務
DWH
システム
オンライン
データ
ETL Parquet ファ
イルの読込み
と
時間列の加工
SQL Data
Warehouse
Blob
Storage
Structured Streaming
Machine Learning
リアルタイム分析 ⇒ データの生成から遅延時間を最小限にした分析をし
たい
加工・集計データ
ストリームデー
タ
ストリーム処
理センサーデータ
CDR、POS データなど 分析アプ
リ
ダッシュボード
データリポジト
リ
ライブストリームデータ
インプットテーブル
クエリ
―
アウトプットテー
ブル
外部データスト
ア
センサーデータのリアルタイムな分析
金融市場の変化をリアルタイムに追跡
モバイル端末データのリアルタイムな可視
POS端末データのリアルタイム分析と需要
Kafka
データストリームの定義
ストリーム
データの
表示
SQL DB データ
との結合
結合データの
表示
SQL DB
蓄積された大量データを活用したアドバンストアナリティクス
を実施したい
データコレク
ター
ストリーム
データセンサーデータ
CDR、POS など
データリポジト
リ
基幹業務
オンライン
データ
アドバンスト
アナリティク
ス
分析アプリ
ダッシュボード
• Spark MLlib プリインストール済
• DataFrame ベースの API サポート
• Tungsten や Catalyst による最適化
• 言語・ML アルゴリズムをとおして 統一された API を提供
• ML pipeline サポート
• 複数の ML 処理を一つのパイプラインとして記述
• MMLSpark
• マシンラーニング・モデルの構築に必要なデータ操作を効率化
• Cognitive Toolkit, TensorFlowOnSpark, BigDL などのライブラ
リ/フレームワークを用いたディープラーニングモデル開発
コンテンツベースフィルタ
リング
協調フィルタリング
https://en.wikipedia.org/wiki/Collaborative_filtering
協調フィルタリングによるユーザー評価の予測
Test Set
Validation Set
Validation Set
Validation Set
 全てのハイパーパラメタの組合せについて
train Set を用いた学習を実行
 評価メトリックは平均されて最善のパラメ
タを決定する
 最善のパラメタセットが決定したら、全ト
レインセットを用いてモデルを学習する
モデルの最終評価に使う
• Python ベースの ハイレベル API でディー
プラーニングを簡潔に記述
• Spark Cluster を利用した大規模スコアリ
ング(Batch/Streaming)
• イメージデータのための転移学習、
ハイパーパラメタチューニングの支援
• ImageNet の学習済モデルを利用可能
Deep Learning Pipelines for Apache Spark
Spark クラスタ上でハイパーパラメタ
チューニング
転移学習への応用
Deep Learning
 Keras
 TensorFlow
 GPU libraries
Distributed Deep Learning
 Distributed training with Horovod and Spark
 Distributed TensorFlow and Keras training with Horovod
 Distributed TensorFlow and Keras prediction
XGBoost
 XGBoost4j
Deep Learning に必要なライブラリがプリインストール済
GPU 搭載 VM によるクラスター構成可能
• Pre-trained ネットワークによ
る特徴抽出
• Fine-tuning による転移学習
http://www.nlab.ci.i.u-tokyo.ac.jp/pdf/CNN_survey.pdf
https://azure.microsoft.com/ja-jp/services/databricks/
https://docs.azuredatabricks.net/administration-guide/index.html
https://docs.microsoft.com/ja-jp/azure/azure-databricks/databricks-connect-to-data-sources
• Serverless Pools
https://docs.azuredatabricks.net/user-guide/clusters/serverless-pools.html
https://docs.azuredatabricks.net/spark/latest/structured-streaming/index.html
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html
https://docs.azuredatabricks.net/spark/latest/mllib/index.html
https://docs.azuredatabricks.net/applications/deep-learning/deep-learning-pipelines.html
• ETL
限られた時間で大量データを処理
• Structured Streaming
データの生成から遅延時間を最小限にして分析
• Machine Learning
蓄積された大量データを活用したアドバンストアナリティク
スが可能
• Deep Learning
ディープラーニングへの応用を容易にする Deep Learning
20180627 databricks ver1.1

More Related Content

What's hot

【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情Hideo Takagi
 
Azure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/SparkAzure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/SparkRyoma Nagata
 
BrainPad - Doors - A-1 - Microsoft Data and AI
BrainPad - Doors - A-1 - Microsoft Data and AIBrainPad - Doors - A-1 - Microsoft Data and AI
BrainPad - Doors - A-1 - Microsoft Data and AIDaiyu Hatakeyama
 
Data x AI x API で考えるビジネスインフラ
Data x AI x API で考えるビジネスインフラData x AI x API で考えるビジネスインフラ
Data x AI x API で考えるビジネスインフラDaiyu Hatakeyama
 
Azure Machine Learning Hands-on - AutoML編 - 2020年1月
Azure Machine Learning Hands-on - AutoML編 - 2020年1月Azure Machine Learning Hands-on - AutoML編 - 2020年1月
Azure Machine Learning Hands-on - AutoML編 - 2020年1月Daiyu Hatakeyama
 
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]Hideo Takagi
 
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所de:code 2017
 
データサイエンティスト向け性能問題対応の基礎
データサイエンティスト向け性能問題対応の基礎データサイエンティスト向け性能問題対応の基礎
データサイエンティスト向け性能問題対応の基礎Tetsutaro Watanabe
 
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようMicrosoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようHideo Takagi
 
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現Ryoma Nagata
 
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢Insight Technology, Inc.
 
dots. ビッグデータオールスターズ: Azure 畠山
dots. ビッグデータオールスターズ: Azure 畠山dots. ビッグデータオールスターズ: Azure 畠山
dots. ビッグデータオールスターズ: Azure 畠山Daiyu Hatakeyama
 
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)Yosuke Katsuki
 
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法Tetsutaro Watanabe
 
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
1000人規模で使う分析基盤構築  〜redshiftを活用したeuc1000人規模で使う分析基盤構築  〜redshiftを活用したeuc
1000人規模で使う分析基盤構築 〜redshiftを活用したeucKazuhiro Miyajima
 
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみた
AWS朝会2022/1	セッション① 数年間、レイクハウスを設計運用してみたAWS朝会2022/1	セッション① 数年間、レイクハウスを設計運用してみた
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみたtatsuya 264
 
DB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data PlatformDB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data PlatformDaiyu Hatakeyama
 
BigData Architecture for Azure
BigData Architecture for AzureBigData Architecture for Azure
BigData Architecture for AzureRyoma Nagata
 

What's hot (20)

【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
 
Azure Datalake 大全
Azure Datalake 大全Azure Datalake 大全
Azure Datalake 大全
 
Azure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/SparkAzure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/Spark
 
BrainPad - Doors - A-1 - Microsoft Data and AI
BrainPad - Doors - A-1 - Microsoft Data and AIBrainPad - Doors - A-1 - Microsoft Data and AI
BrainPad - Doors - A-1 - Microsoft Data and AI
 
Data x AI x API で考えるビジネスインフラ
Data x AI x API で考えるビジネスインフラData x AI x API で考えるビジネスインフラ
Data x AI x API で考えるビジネスインフラ
 
AI研究を加速するオープンデータ
AI研究を加速するオープンデータAI研究を加速するオープンデータ
AI研究を加速するオープンデータ
 
Azure Machine Learning Hands-on - AutoML編 - 2020年1月
Azure Machine Learning Hands-on - AutoML編 - 2020年1月Azure Machine Learning Hands-on - AutoML編 - 2020年1月
Azure Machine Learning Hands-on - AutoML編 - 2020年1月
 
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
 
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
 
データサイエンティスト向け性能問題対応の基礎
データサイエンティスト向け性能問題対応の基礎データサイエンティスト向け性能問題対応の基礎
データサイエンティスト向け性能問題対応の基礎
 
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようMicrosoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
 
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
 
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
 
dots. ビッグデータオールスターズ: Azure 畠山
dots. ビッグデータオールスターズ: Azure 畠山dots. ビッグデータオールスターズ: Azure 畠山
dots. ビッグデータオールスターズ: Azure 畠山
 
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
 
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
 
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
1000人規模で使う分析基盤構築  〜redshiftを活用したeuc1000人規模で使う分析基盤構築  〜redshiftを活用したeuc
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
 
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみた
AWS朝会2022/1	セッション① 数年間、レイクハウスを設計運用してみたAWS朝会2022/1	セッション① 数年間、レイクハウスを設計運用してみた
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみた
 
DB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data PlatformDB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data Platform
 
BigData Architecture for Azure
BigData Architecture for AzureBigData Architecture for Azure
BigData Architecture for Azure
 

Similar to 20180627 databricks ver1.1

研究用途でのAWSの利用事例と機械学習について
研究用途でのAWSの利用事例と機械学習について研究用途でのAWSの利用事例と機械学習について
研究用途でのAWSの利用事例と機械学習についてYasuhiro Matsuo
 
Spark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについてSpark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについてRecruit Technologies
 
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返りSotaro Kimura
 
Accelerating AdTech on AWS #AWSAdTechJP
Accelerating AdTech on AWS #AWSAdTechJPAccelerating AdTech on AWS #AWSAdTechJP
Accelerating AdTech on AWS #AWSAdTechJPEiji Shinohara
 
クラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニングクラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニングShin Matsumoto
 
Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例Taro L. Saito
 
[db tech showcase Tokyo 2015] E35: Web, IoT, モバイル時代のデータベース、Apache Cassandraを学ぼう
[db tech showcase Tokyo 2015] E35: Web, IoT, モバイル時代のデータベース、Apache Cassandraを学ぼう[db tech showcase Tokyo 2015] E35: Web, IoT, モバイル時代のデータベース、Apache Cassandraを学ぼう
[db tech showcase Tokyo 2015] E35: Web, IoT, モバイル時代のデータベース、Apache Cassandraを学ぼうdatastaxjp
 
Azure アプリケーション アーキテクチャ ガイド 紹介
Azure アプリケーション アーキテクチャ ガイド 紹介Azure アプリケーション アーキテクチャ ガイド 紹介
Azure アプリケーション アーキテクチャ ガイド 紹介Kazuyuki Nomura
 
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築貴志 上坂
 
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門Daiyu Hatakeyama
 
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。 複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。 Insight Technology, Inc.
 
Game Architecture Trends in Tokyo Kansai Social Game Study#5
Game Architecture Trends in Tokyo  Kansai Social Game Study#5Game Architecture Trends in Tokyo  Kansai Social Game Study#5
Game Architecture Trends in Tokyo Kansai Social Game Study#5Yasuhiro Matsuo
 
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lakede:code 2017
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめYasushi Hara
 
ネットワン様講演 OpenStack最新情報セミナー 2014年8月
ネットワン様講演 OpenStack最新情報セミナー 2014年8月ネットワン様講演 OpenStack最新情報セミナー 2014年8月
ネットワン様講演 OpenStack最新情報セミナー 2014年8月VirtualTech Japan Inc.
 
Spark Analytics - スケーラブルな分散処理
Spark Analytics - スケーラブルな分散処理Spark Analytics - スケーラブルな分散処理
Spark Analytics - スケーラブルな分散処理Tusyoshi Matsuzaki
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎Insight Technology, Inc.
 
アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門Yoichi Kawasaki
 

Similar to 20180627 databricks ver1.1 (20)

研究用途でのAWSの利用事例と機械学習について
研究用途でのAWSの利用事例と機械学習について研究用途でのAWSの利用事例と機械学習について
研究用途でのAWSの利用事例と機械学習について
 
Spark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについてSpark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについて
 
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
 
Accelerating AdTech on AWS #AWSAdTechJP
Accelerating AdTech on AWS #AWSAdTechJPAccelerating AdTech on AWS #AWSAdTechJP
Accelerating AdTech on AWS #AWSAdTechJP
 
クラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニングクラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニング
 
Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例
 
[db tech showcase Tokyo 2015] E35: Web, IoT, モバイル時代のデータベース、Apache Cassandraを学ぼう
[db tech showcase Tokyo 2015] E35: Web, IoT, モバイル時代のデータベース、Apache Cassandraを学ぼう[db tech showcase Tokyo 2015] E35: Web, IoT, モバイル時代のデータベース、Apache Cassandraを学ぼう
[db tech showcase Tokyo 2015] E35: Web, IoT, モバイル時代のデータベース、Apache Cassandraを学ぼう
 
Azure アプリケーション アーキテクチャ ガイド 紹介
Azure アプリケーション アーキテクチャ ガイド 紹介Azure アプリケーション アーキテクチャ ガイド 紹介
Azure アプリケーション アーキテクチャ ガイド 紹介
 
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
 
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
 
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。 複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
 
Game Architecture Trends in Tokyo Kansai Social Game Study#5
Game Architecture Trends in Tokyo  Kansai Social Game Study#5Game Architecture Trends in Tokyo  Kansai Social Game Study#5
Game Architecture Trends in Tokyo Kansai Social Game Study#5
 
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
 
ネットワン様講演 OpenStack最新情報セミナー 2014年8月
ネットワン様講演 OpenStack最新情報セミナー 2014年8月ネットワン様講演 OpenStack最新情報セミナー 2014年8月
ネットワン様講演 OpenStack最新情報セミナー 2014年8月
 
BPStudy20121221
BPStudy20121221BPStudy20121221
BPStudy20121221
 
Spark Analytics - スケーラブルな分散処理
Spark Analytics - スケーラブルな分散処理Spark Analytics - スケーラブルな分散処理
Spark Analytics - スケーラブルな分散処理
 
OpenStack概要
OpenStack概要OpenStack概要
OpenStack概要
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
 
アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門
 

More from Hirono Jumpei

20190822 Microsoftが考えるAI活用のロードマップ
20190822 Microsoftが考えるAI活用のロードマップ20190822 Microsoftが考えるAI活用のロードマップ
20190822 Microsoftが考えるAI活用のロードマップHirono Jumpei
 
Dllab2ndanniversarypl
Dllab2ndanniversaryplDllab2ndanniversarypl
Dllab2ndanniversaryplHirono Jumpei
 
Microsoft Autonomousへの取り組み
Microsoft Autonomousへの取り組みMicrosoft Autonomousへの取り組み
Microsoft Autonomousへの取り組みHirono Jumpei
 
Chainer on Azure 2 年の歴史
Chainer on Azure 2 年の歴史Chainer on Azure 2 年の歴史
Chainer on Azure 2 年の歴史Hirono Jumpei
 
AI開発を円滑に進めるための契約・法務・知財
AI開発を円滑に進めるための契約・法務・知財AI開発を円滑に進めるための契約・法務・知財
AI開発を円滑に進めるための契約・法務・知財Hirono Jumpei
 
Iot algyan jhirono 20190111
Iot algyan jhirono 20190111Iot algyan jhirono 20190111
Iot algyan jhirono 20190111Hirono Jumpei
 
Microsoft digital transformation and ai 20181126
Microsoft digital transformation and ai 20181126Microsoft digital transformation and ai 20181126
Microsoft digital transformation and ai 20181126Hirono Jumpei
 
DLLAB COMMUNITY UPDATE 201804
DLLAB COMMUNITY UPDATE 201804DLLAB COMMUNITY UPDATE 201804
DLLAB COMMUNITY UPDATE 201804Hirono Jumpei
 
Deep learning lab AI Expo
Deep learning lab AI ExpoDeep learning lab AI Expo
Deep learning lab AI ExpoHirono Jumpei
 
20180323 dll standard
20180323 dll standard20180323 dll standard
20180323 dll standardHirono Jumpei
 
Dll commuinity and academy update 201803 v2
Dll commuinity and academy update 201803 v2Dll commuinity and academy update 201803 v2
Dll commuinity and academy update 201803 v2Hirono Jumpei
 
深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例	深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例 Hirono Jumpei
 
異常検知ナイトgLupe発表
異常検知ナイトgLupe発表異常検知ナイトgLupe発表
異常検知ナイトgLupe発表Hirono Jumpei
 
DLLAB commuinity and academy update 201802
DLLAB commuinity and academy update 201802DLLAB commuinity and academy update 201802
DLLAB commuinity and academy update 201802Hirono Jumpei
 
【Dll171201】深層学習利活用の紹介 掲載用
【Dll171201】深層学習利活用の紹介 掲載用【Dll171201】深層学習利活用の紹介 掲載用
【Dll171201】深層学習利活用の紹介 掲載用Hirono Jumpei
 
Microsoft の深層学習への取り組み
Microsoft の深層学習への取り組みMicrosoft の深層学習への取り組み
Microsoft の深層学習への取り組みHirono Jumpei
 
深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例	深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例 Hirono Jumpei
 
20171201 deep learning lab albert
20171201 deep learning lab albert20171201 deep learning lab albert
20171201 deep learning lab albertHirono Jumpei
 

More from Hirono Jumpei (20)

20190822 Microsoftが考えるAI活用のロードマップ
20190822 Microsoftが考えるAI活用のロードマップ20190822 Microsoftが考えるAI活用のロードマップ
20190822 Microsoftが考えるAI活用のロードマップ
 
20190719 minerlpl
20190719 minerlpl20190719 minerlpl
20190719 minerlpl
 
Dllab2ndanniversarypl
Dllab2ndanniversaryplDllab2ndanniversarypl
Dllab2ndanniversarypl
 
Microsoft Autonomousへの取り組み
Microsoft Autonomousへの取り組みMicrosoft Autonomousへの取り組み
Microsoft Autonomousへの取り組み
 
Chainer on Azure 2 年の歴史
Chainer on Azure 2 年の歴史Chainer on Azure 2 年の歴史
Chainer on Azure 2 年の歴史
 
AI開発を円滑に進めるための契約・法務・知財
AI開発を円滑に進めるための契約・法務・知財AI開発を円滑に進めるための契約・法務・知財
AI開発を円滑に進めるための契約・法務・知財
 
Iot algyan jhirono 20190111
Iot algyan jhirono 20190111Iot algyan jhirono 20190111
Iot algyan jhirono 20190111
 
Malmotutorial
MalmotutorialMalmotutorial
Malmotutorial
 
Microsoft digital transformation and ai 20181126
Microsoft digital transformation and ai 20181126Microsoft digital transformation and ai 20181126
Microsoft digital transformation and ai 20181126
 
DLLAB COMMUNITY UPDATE 201804
DLLAB COMMUNITY UPDATE 201804DLLAB COMMUNITY UPDATE 201804
DLLAB COMMUNITY UPDATE 201804
 
Deep learning lab AI Expo
Deep learning lab AI ExpoDeep learning lab AI Expo
Deep learning lab AI Expo
 
20180323 dll standard
20180323 dll standard20180323 dll standard
20180323 dll standard
 
Dll commuinity and academy update 201803 v2
Dll commuinity and academy update 201803 v2Dll commuinity and academy update 201803 v2
Dll commuinity and academy update 201803 v2
 
深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例	深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例
 
異常検知ナイトgLupe発表
異常検知ナイトgLupe発表異常検知ナイトgLupe発表
異常検知ナイトgLupe発表
 
DLLAB commuinity and academy update 201802
DLLAB commuinity and academy update 201802DLLAB commuinity and academy update 201802
DLLAB commuinity and academy update 201802
 
【Dll171201】深層学習利活用の紹介 掲載用
【Dll171201】深層学習利活用の紹介 掲載用【Dll171201】深層学習利活用の紹介 掲載用
【Dll171201】深層学習利活用の紹介 掲載用
 
Microsoft の深層学習への取り組み
Microsoft の深層学習への取り組みMicrosoft の深層学習への取り組み
Microsoft の深層学習への取り組み
 
深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例	深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例
 
20171201 deep learning lab albert
20171201 deep learning lab albert20171201 deep learning lab albert
20171201 deep learning lab albert
 

Recently uploaded

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 

Recently uploaded (9)

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 

20180627 databricks ver1.1

Editor's Notes

  1. Apache Spark は、多くのマシンを1台のマシンとして扱うことができます。 Apache Spark クラスタの例を示しており、Executor ノードと通信するドライバノードが示されています。これらの Executor ノードには、実行エンジンとなるスロットがあります。 ドライバは、クエリを分析し、それらを最適化し、 どのように RDD に対して作業を並列化するかを決定する (例えば、どのようにファイルが分割され、どのパーティションを取得して実行するか) 各 Executor ノード上のタスクは、ファイルからデータを読み取り、1つまたは複数のスレッドを使用して、自分が担当しているパーティションを処理します。時にはお互いにデータをシャッフルするためにデータ送信を行います。
  2. MapReduce 処理ではイテレーションの間はディスクへの永続化が一般的 Spark ではイテレーションの間はメモリに保持することが一般的 これは処理が途中で失敗しても再実行できる RDD の性質に依存している
  3. RDD はパーティション化されたデータの集まり クラスタ間で分散されている 処理が失敗しても再実行ができる DataFrame は Spark 1.3 で導入された API 古くからの Spark ユーザーは RDD ベースの API を使っているらしい