SlideShare a Scribd company logo
1 of 18
Download to read offline
Copyright © 2018 Oracle and/or its affiliates. All rights reserved. |
オブジェクトストレージとApache Sparkでつくる
分析基盤
2019年1月16日
日本オラクル株式会社
IaaSソリューション部
園田憲一
Copyright © 2019, Oracle and/or its affiliates. All rights reserved. |
Modern Data Lake
2
Object
Storage
On-premise
Oracle Cloud
Infrastructure
Copyright © 2019, Oracle and/or its affiliates. All rights reserved. |
アーキテクチャ
3
Compute
Block/NVMe
データ
処理層
データ
蓄積層
Hadoopクラスタ
Object Storage
分離
Compute Compute Compute
Sparkクラスタ
データ
処理層
データ
蓄積層
蜜結合モデル
データ処理部(Compute)とデータ蓄積部
(Block/NVMe)のセット複数台から構成
Compute Compute
疎結合モデル
データ処理部(Compute)とデータ蓄積部(オブ
ジェクトストレージ)がそれぞれ独立した構成
+ オブジェクトストレージ
セット セット セット
Copyright © 2019, Oracle and/or its affiliates. All rights reserved. |
ソフトウェアスタック
4
Compute
Block/NVMe
データ
処理層
データ
蓄積層
Hadoopクラスタ
Object Storage
分離
Compute Compute Compute
Sparkクラスタ
データ
処理層
データ
処理層
蜜結合モデル
データ処理部(MapReduce)とデータ蓄積層
HDFSはセットで稼働
Compute Compute
疎結合モデル
データ処理層(Spark)とデータ蓄積部(オブジェク
トストレージ)がそれぞれ独立して稼働
+ オブジェクトストレージ
MapReduce
HDFS
Spark
Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | 5
オブジェクトストレージ + Sparkのメリット
①オブジェクトストレージ+ Spark
Hadoopより 運用、管理が柔軟
②Spark
MapReduceより高速
③Object Storage
HDFSより低コスト
Object Storage
Copyright © 2019, Oracle and/or its affiliates. All rights reserved. |
⚫ データ処理層と蓄積層を個別にスケールアップ・ス
ケールアウトできない
⚫ データ蓄積層の容量計画、容量監視が必要、容量不
足時は拡張作業が必要
⚫ 全てのインスタンスを常に起動しておく必要がある(分
析処理をしない時もデータ蓄積のため)
⚫ データ処理層と蓄積層を個別にスケールアップ・ス
ケールアウト可能
⚫ データ蓄積層の容量計画、容量監視は不要(Object
Storageはoracleが運用管理)
⚫ 分析が不要な時はComputeを停止し課金をセーブ
運用、管理面のメリット(1)
6
Compute
Block/NVMe
Compute
Block/NVMe
Compute
Block/NVMe Compute
Block/NVMe
Computeとスト
レージをセット
で拡張する必要
がある
Object
Storage
スケールアウト
Computeとスト
レージは個別
にスケール、
メンテナンス
①オブジェクトストレージ+ Spark
Hadoopより 運用、管理が柔軟
Copyright © 2019, Oracle and/or its affiliates. All rights reserved. |
⚫ 複数のクラスタ間でのデータ共有ができない
⚫ データレプリケーションの運用が必要、倍のデータ
を運用
⚫ 運用コスト、サービス利用コストの増大
⚫ 複数のクラスタ間でデータ共有が可能
⚫ 余分なデータを持つことなく、オブジェクトストレージ
上のデータを共有
⚫ データレイクの統合も可能なアーキテクチャ
運用、管理面のメリット(2)
7
Compute
Block/NVMe
Compute
Block/NVMe
Compute
Block/NVMe
Object
Storage
Compute
Block/NVMe
Compute
Block/NVMe
Compute
Block/NVMe
データをレプリケーションが必要
部署Aのクラスタ 部署Bのクラスタ 部署Aのクラスタ 部署Bのクラスタ
オブジェクトストレージを共有
①オブジェクトストレージ+ Spark
Hadoopより 運用、管理が柔軟
Copyright © 2019, Oracle and/or its affiliates. All rights reserved. |
• ジョブ間のデータの受け渡しの度にHDFSへのIO
が発生
• 全体の処理時間のうち大部分をIO処理が占める
ことになる
MapReduceの課題
8
HDFS(Disk)
ジョブ1 ジョブ2 ジョブ3
データ データ
IO IO IO IO
ジョブが多段に構成されている場合
ジョブ1
ジョブ2
HDFS(Disk)
データ
ジョブ3
• 何度も利用するデータを効率的に扱う仕組みが
ないため都度データの読み出しの待ち時間が必
要となる
複数のジョブで何度も同じデータを利用する場合
IO
IO
IO
②Spark
MapReduceより高速
Copyright © 2019, Oracle and/or its affiliates. All rights reserved. |
メモリメモリ
SparkはMapReduceよりも高速
9
ジョブ ジョブ ジョブ
データ データ
高速
IO
ジョブが多段に構成されている場合
ジョブ
ジョブ
データ
ジョブ
複数のジョブで何度も同じデータを利用する場合
• 各処理で利用するデータをメモリに蓄積しメモリ内でデータ処理することで
IO待ち時間を削減
• 必要に応じてブロックストレージやオブジェクトストレージに書き出すことで
データを永続化
高速
IO
高速
IO
高速
IO
高速
IO
高速
IO
高速
IO
②Spark
MapReduceより高速
Copyright © 2019, Oracle and/or its affiliates. All rights reserved. |
• Object Storage Service
– Block Volumeと比較し、約39%のコスト
ダウン
• Archive Storage Service
– Object Storage Serviceと比較し、約90%
のコストダウン
– Object Storageと併用し、頻繁に利用し
ないデータはArchive Storageに
• 例) Object Storage 10TB + Archive Storage
50TB
オブジェクトストレージは安価
10
¥ 5.10
¥ 3.06
¥ 0.312
Block
Volume
Object
Storage
Archive
Storage
約39%
コストダウン
約90%
コストダウン
最新の価格情報
https://cloud.oracle.com/ja_JP/storage/pricing
OCIの各Storage Serviceの価格(1GB, 1か月あたり)
③Object Storage
HDFSより低コスト
Copyright © 2019, Oracle and/or its affiliates. All rights reserved. |
• Spark
– Clientノード
• Sparkアプリケーションの実行をMasterノードに要求
• Workerノードで起動されるタスク処理プロセスのス
ペック(CPUコア数、メモリ量)、プロセス数を指定して
要求する
– Masterノード
• Workerノードの空リソース量と要求されたスペックを
考慮し、Workerノードにタスク処理実行プロセスの
起動を要求
– Spark Workerノード
• 実行プロセスを起動し、要求されたタスクを処理
• YARN(クラスタ管理ソフトウェア)
– Client/ResourceManager/NodeManager
• クラスタ全体の計算リソースの管理基盤
Sparkクラスタの構成例と役割分担
11
Spark Client
Yarn Client
Spark
Worker02
Spark Worker01
Yarn NodeManager
Spark Master
Yarn ResourceManager
Spark
Worker04
Spark
Worker03
②処理要求
③処理の割り振り
④実行プロセスが処理を実行
必要に応じてデータの読み込み・書き出し
Sparkクラスタ
オブジェクトストレージ
①Sparkアプリ実行
Copyright © 2019, Oracle and/or its affiliates. All rights reserved. |
• Sparkアプリケーション
– 業務アプリ
– Scala/Java/Pythonベースの開発
• core-site.xmlファイル
– Sparkの構成情報が記載される設定ファイル
– オブジェクトストレージのアクセス情報(エンド
ポイント)、接続認証のための設定
• HDFS Connector
– オラクルが提供するSpark拡張用のJavaクラス
ライブラリ
– Sparkからオブジェクトストレー上のデータに透
過的にアクセスするためのライブラリ
– 業務アプリ開発者はデータストアの構成を意
識する必要がない
構成要素から見る仕組み
12
Spark Client
Yarn Client
Spark
Worker02
Spark Worker01
Yarn NodeManager
Spark Master
Yarn ResourceManager
Spark
Worker04
Spark
Worker03
Sparkアプリケーション
core-site.xml
HDFS Connector
core-site.xml core-site.xml core-site.xml core-site.xml core-site.xml
Sparkクラスタ
オブジェクトストレージ
Copyright © 2019, Oracle and/or its affiliates. All rights reserved. |
HDFS Connectorを使ったSpark処理の実行例
13
Spark Client
Yarn Client
Spark
Worker02
Spark Worker01
NodeManager
Spark Master
ResourceManager
Spark
Worker04
Spark
Worker03
Sparkクラスタ
メモリ
csvファイル
生成されたデータ(DataFrame)
# $SPARK_HOME/bin/spark-shell --jars $HOME/oci-hdfs/lib/oci-hdfs-full-2.7.2.0.jar
……………………
……………………
Using Scala version 2.11.8 (OpenJDK 64-Bit Server VM, Java 1.8.0_191)
Type in expressions to have them evaluated.
Type :help for more information.
scala>
scala>sc.textFile("oci://test_bucket@gse0001425/movies.csv").show
1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,Jumanji (1995),Adventure|Children|Fantasy
3,Grumpier Old Men (1995),Comedy|Romance
4,Waiting to Exhale (1995),Comedy|Drama|Romance
5,Father of the Bride Part II (1995),Comedy
………………….
………………….
spark-shellの起動
例)オブジェクトストレージ上のcsvファイルからDataFrameを生成し、
標準出力に表示するscalaプログラムを実行
HDFS Connectorのクラスライブラリのjar
ファイルを指定
オブジェクトストレージ上のファイルを指定
oci://<バケット名>@<テナント名>/<オブジェクト名>
①Spark-shellの起動、処理の実行
②CSVファイルが読み込まれメモリ上
にDataFrameが生成される
③データ変換処理を行い結果を返す
Copyright © 2019, Oracle and/or its affiliates. All rights reserved. |
① データをオブジェクトストレージへ
アップロードする
② オブジェクトストレージ上のデー
タをSparkクラスタのメモリ上に読
み込む(DataFrameの生成)
③ 読み込まれたデータをSpark SQL
で変換する
④ 変換されたデータをオブジェクト
ストレージに永続化する
デモの概要
14
movies.csv
movies.csv
オブジェクトストレージ
(データレイク)
データ
メモリ
データ
ラップトップ
(データ発生元)
spark設定済
Computeインスタンス
(分析基盤、バッチオフロード基盤)
③データ変換の操作
(ETL、機械学習、アドホック分析)
④データの永続化
movies2.csv
①データアップロード
②データ読み込み
Copyright © 2019, Oracle and/or its affiliates. All rights reserved. |
• Sparkに同梱されてい
る簡易のクラスタ管
理システム
• 1ノードで構成可能
• テスト用途に利用
15
Sparkで利用できるクラスタ管理ツール
Spark
Standalone
• Hadoopでよく利用さ
れるクラスタ管理シス
テム
• HDFSを利用する場合、
データローカリティが
考慮されIOが効率化
される
• 処理に割り当てる
CPUコア数の配分を
動的に変えるなどき
め細かい制御が可能
• Spark 2.3からネイティ
ブサポート
• OCI OKEでSparkを利
用可能
Apache Spark on Kubernetes:
Maximizing Big Data
Performance on Container
Engine for Kubernetes
Copyright © 2019, Oracle and/or its affiliates. All rights reserved. |
• コンピュータのメモリから異なる(リ
モートの)コンピュータのメモリへ CPU
を介さず直接データ転送を行う通信
技術
• データ転送時のOS処理(TCP/IPの処
理)が不要になり、CPUを効率的に利
用することができる
• コンテキストスイッチを行うことなく他
の処理と並列にデータ転送を実行す
ることができる
• OCI HPCインスタンスで利用可能
– BM.HPC2.36 : 36 OCPU / 384 GB mem /
6.7 TB NVMe / 25 Gbps x1, 100Gbps x1
RDMA(Remote Direct Memory Access)
16
Ethernet NIC
or
Infiniband HCA
sockets
TCP/IP
driver
User Application
data data
copy
copy
copy
TCP/IP通信とRDMA通信の処理フローの違い
Ethernet NIC
or
Infiniband HCA
sockets
TCP/IP
driver
User Application
datadata
copy
copy
copy
LAN
DMA DMA
RDMA通信フロー
通常のTCP/IP通信
Copyright © 2019, Oracle and/or its affiliates. All rights reserved. |
出典
• Oracle Blog
– What Is Object Storage?
– 抄訳版:オブジェクトストレージ それはデータレイクの新しい選択肢
• Beginning Apache Spark 2: With Resilient Distributed Datasets,
Spark SQL, Structured Streaming and Spark Machine Learning
library
• Apache Spark入門 動かして学ぶ最新並列分散処理フレーム
ワーク (NEXT ONE)
17
Configureing analytics system with apache spark and object storage service of oracle cloud infrastructure

More Related Content

What's hot

NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
[Oracle Cloud Days Tokyo2015]成功事例に学べ! ビッグデータ活用のための最新ベストプラクティス
[Oracle Cloud Days Tokyo2015]成功事例に学べ! ビッグデータ活用のための最新ベストプラクティス[Oracle Cloud Days Tokyo2015]成功事例に学べ! ビッグデータ活用のための最新ベストプラクティス
[Oracle Cloud Days Tokyo2015]成功事例に学べ! ビッグデータ活用のための最新ベストプラクティスオラクルエンジニア通信
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Noritaka Sekiyama
 
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1オラクルエンジニア通信
 
Oracle Cloud PaaS & IaaS:2019年8月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2019年8月度サービス情報アップデートOracle Cloud PaaS & IaaS:2019年8月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2019年8月度サービス情報アップデートオラクルエンジニア通信
 
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)Hadoop / Spark Conference Japan
 
Java8 Stream APIとApache SparkとAsakusa Frameworkの類似点・相違点
Java8 Stream APIとApache SparkとAsakusa Frameworkの類似点・相違点Java8 Stream APIとApache SparkとAsakusa Frameworkの類似点・相違点
Java8 Stream APIとApache SparkとAsakusa Frameworkの類似点・相違点hishidama
 
Database Cloud Service/Exadata Cloud Service/Exadata Cloud at Customer サービスアッ...
Database Cloud Service/Exadata Cloud Service/Exadata Cloud at Customer サービスアッ...Database Cloud Service/Exadata Cloud Service/Exadata Cloud at Customer サービスアッ...
Database Cloud Service/Exadata Cloud Service/Exadata Cloud at Customer サービスアッ...オラクルエンジニア通信
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeSatoru Ishikawa
 
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...NTT DATA Technology & Innovation
 
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016Tatsuya Atsumi
 
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House ArchitectureBigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House ArchitectureSatoru Ishikawa
 
Oracle Cloud Infrastructure Data Science 技術資料(20200402)
Oracle Cloud Infrastructure Data Science 技術資料(20200402)Oracle Cloud Infrastructure Data Science 技術資料(20200402)
Oracle Cloud Infrastructure Data Science 技術資料(20200402)オラクルエンジニア通信
 
Cloud Native Appのデプロイ先に関する考察:VM? コンテナ? aPaaS? or Serverless?
Cloud Native Appのデプロイ先に関する考察:VM? コンテナ? aPaaS? or Serverless?Cloud Native Appのデプロイ先に関する考察:VM? コンテナ? aPaaS? or Serverless?
Cloud Native Appのデプロイ先に関する考察:VM? コンテナ? aPaaS? or Serverless?Yosuke Arai
 
【旧版】Oracle Exadata Cloud Service:サービス概要のご紹介 [2021年6月版]
【旧版】Oracle Exadata Cloud Service:サービス概要のご紹介 [2021年6月版]【旧版】Oracle Exadata Cloud Service:サービス概要のご紹介 [2021年6月版]
【旧版】Oracle Exadata Cloud Service:サービス概要のご紹介 [2021年6月版]オラクルエンジニア通信
 
Oracle Cloud PaaS & IaaS:2019年3月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2019年3月度サービス情報アップデートOracle Cloud PaaS & IaaS:2019年3月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2019年3月度サービス情報アップデートオラクルエンジニア通信
 
【旧版】Oracle Cloud Infrastructure:サービス概要のご紹介 [2020年4月版]
【旧版】Oracle Cloud Infrastructure:サービス概要のご紹介 [2020年4月版]【旧版】Oracle Cloud Infrastructure:サービス概要のご紹介 [2020年4月版]
【旧版】Oracle Cloud Infrastructure:サービス概要のご紹介 [2020年4月版]オラクルエンジニア通信
 

What's hot (20)

NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
[Oracle Cloud Days Tokyo2015]成功事例に学べ! ビッグデータ活用のための最新ベストプラクティス
[Oracle Cloud Days Tokyo2015]成功事例に学べ! ビッグデータ活用のための最新ベストプラクティス[Oracle Cloud Days Tokyo2015]成功事例に学べ! ビッグデータ活用のための最新ベストプラクティス
[Oracle Cloud Days Tokyo2015]成功事例に学べ! ビッグデータ活用のための最新ベストプラクティス
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
 
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
 
Oracle Cloud PaaS & IaaS:2019年8月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2019年8月度サービス情報アップデートOracle Cloud PaaS & IaaS:2019年8月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2019年8月度サービス情報アップデート
 
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
 
[旧版]Big Data Service Overview 2020年4月版
[旧版]Big Data Service Overview 2020年4月版[旧版]Big Data Service Overview 2020年4月版
[旧版]Big Data Service Overview 2020年4月版
 
Java8 Stream APIとApache SparkとAsakusa Frameworkの類似点・相違点
Java8 Stream APIとApache SparkとAsakusa Frameworkの類似点・相違点Java8 Stream APIとApache SparkとAsakusa Frameworkの類似点・相違点
Java8 Stream APIとApache SparkとAsakusa Frameworkの類似点・相違点
 
Database Cloud Service/Exadata Cloud Service/Exadata Cloud at Customer サービスアッ...
Database Cloud Service/Exadata Cloud Service/Exadata Cloud at Customer サービスアッ...Database Cloud Service/Exadata Cloud Service/Exadata Cloud at Customer サービスアッ...
Database Cloud Service/Exadata Cloud Service/Exadata Cloud at Customer サービスアッ...
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
 
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
 
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
 
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House ArchitectureBigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House Architecture
 
Oracle Cloud Infrastructure Data Science 技術資料(20200402)
Oracle Cloud Infrastructure Data Science 技術資料(20200402)Oracle Cloud Infrastructure Data Science 技術資料(20200402)
Oracle Cloud Infrastructure Data Science 技術資料(20200402)
 
Cloud Native Appのデプロイ先に関する考察:VM? コンテナ? aPaaS? or Serverless?
Cloud Native Appのデプロイ先に関する考察:VM? コンテナ? aPaaS? or Serverless?Cloud Native Appのデプロイ先に関する考察:VM? コンテナ? aPaaS? or Serverless?
Cloud Native Appのデプロイ先に関する考察:VM? コンテナ? aPaaS? or Serverless?
 
【旧版】Oracle Exadata Cloud Service:サービス概要のご紹介 [2021年6月版]
【旧版】Oracle Exadata Cloud Service:サービス概要のご紹介 [2021年6月版]【旧版】Oracle Exadata Cloud Service:サービス概要のご紹介 [2021年6月版]
【旧版】Oracle Exadata Cloud Service:サービス概要のご紹介 [2021年6月版]
 
Oracle Cloud PaaS & IaaS:2019年3月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2019年3月度サービス情報アップデートOracle Cloud PaaS & IaaS:2019年3月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2019年3月度サービス情報アップデート
 
【旧版】Oracle Cloud Infrastructure:サービス概要のご紹介 [2020年4月版]
【旧版】Oracle Cloud Infrastructure:サービス概要のご紹介 [2020年4月版]【旧版】Oracle Cloud Infrastructure:サービス概要のご紹介 [2020年4月版]
【旧版】Oracle Cloud Infrastructure:サービス概要のご紹介 [2020年4月版]
 
0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所
 
日々進化するHadoopの 「いま」
日々進化するHadoopの 「いま」日々進化するHadoopの 「いま」
日々進化するHadoopの 「いま」
 

Similar to Configureing analytics system with apache spark and object storage service of oracle cloud infrastructure

SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門Daiyu Hatakeyama
 
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)NTT DATA Technology & Innovation
 
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...NTT DATA Technology & Innovation
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)NTT DATA OSS Professional Services
 
Oracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデートOracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデートオラクルエンジニア通信
 
20190620 multicloud share
20190620 multicloud share20190620 multicloud share
20190620 multicloud shareMai Nagahisa
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006Cloudera Japan
 
Oracle Cloud Platform - クラクドにおける 新たなデータベース開発
Oracle Cloud Platform - クラクドにおける新たなデータベース開発Oracle Cloud Platform - クラクドにおける新たなデータベース開発
Oracle Cloud Platform - クラクドにおける 新たなデータベース開発オラクルエンジニア通信
 
GoldenGateテクニカルセミナー3「Oracle GoldenGate Technical Deep Dive」(2016/5/11)
GoldenGateテクニカルセミナー3「Oracle GoldenGate Technical Deep Dive」(2016/5/11)GoldenGateテクニカルセミナー3「Oracle GoldenGate Technical Deep Dive」(2016/5/11)
GoldenGateテクニカルセミナー3「Oracle GoldenGate Technical Deep Dive」(2016/5/11)オラクルエンジニア通信
 
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-LINE Corp.
 
Oracle cloud infrastructure shared file service comparison 20181019 ss
Oracle cloud infrastructure shared file service comparison 20181019 ssOracle cloud infrastructure shared file service comparison 20181019 ss
Oracle cloud infrastructure shared file service comparison 20181019 ssKenichi Sonoda
 
Oracle Solaris 10 から Oracle Solaris 11.1 への移行準備とポイント
Oracle Solaris 10 から Oracle Solaris 11.1 への移行準備とポイントOracle Solaris 10 から Oracle Solaris 11.1 への移行準備とポイント
Oracle Solaris 10 から Oracle Solaris 11.1 への移行準備とポイントSolarisJP
 
Spark on sql server?
Spark on sql server?Spark on sql server?
Spark on sql server?Oda Shinsuke
 
ITアーキテクトのためのOracle Cloud Platform設計・構築入門 [Oracle Cloud Days Tokyo 2016]
ITアーキテクトのためのOracle Cloud Platform設計・構築入門 [Oracle Cloud Days Tokyo 2016]ITアーキテクトのためのOracle Cloud Platform設計・構築入門 [Oracle Cloud Days Tokyo 2016]
ITアーキテクトのためのOracle Cloud Platform設計・構築入門 [Oracle Cloud Days Tokyo 2016]オラクルエンジニア通信
 
Oracle Cloud PaaS & IaaS:2018年12月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年12月度サービス情報アップデートOracle Cloud PaaS & IaaS:2018年12月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年12月度サービス情報アップデートオラクルエンジニア通信
 
Webアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうか
Webアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうかWebアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうか
Webアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうかChihiro Ito
 
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方Alfresco勉強会20120829: やさしいShareダッシュレットの作り方
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方linzhixing
 

Similar to Configureing analytics system with apache spark and object storage service of oracle cloud infrastructure (20)

SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
 
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
 
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 
Oracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデートOracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデート
 
20190620 multicloud share
20190620 multicloud share20190620 multicloud share
20190620 multicloud share
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
 
Oracle Cloud Platform - クラクドにおける 新たなデータベース開発
Oracle Cloud Platform - クラクドにおける新たなデータベース開発Oracle Cloud Platform - クラクドにおける新たなデータベース開発
Oracle Cloud Platform - クラクドにおける 新たなデータベース開発
 
GoldenGateテクニカルセミナー3「Oracle GoldenGate Technical Deep Dive」(2016/5/11)
GoldenGateテクニカルセミナー3「Oracle GoldenGate Technical Deep Dive」(2016/5/11)GoldenGateテクニカルセミナー3「Oracle GoldenGate Technical Deep Dive」(2016/5/11)
GoldenGateテクニカルセミナー3「Oracle GoldenGate Technical Deep Dive」(2016/5/11)
 
GDLC11 oracle-ai
GDLC11 oracle-aiGDLC11 oracle-ai
GDLC11 oracle-ai
 
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
 
Serverless analytics on aws
Serverless analytics on awsServerless analytics on aws
Serverless analytics on aws
 
Oracle cloud infrastructure shared file service comparison 20181019 ss
Oracle cloud infrastructure shared file service comparison 20181019 ssOracle cloud infrastructure shared file service comparison 20181019 ss
Oracle cloud infrastructure shared file service comparison 20181019 ss
 
Oracle Solaris 10 から Oracle Solaris 11.1 への移行準備とポイント
Oracle Solaris 10 から Oracle Solaris 11.1 への移行準備とポイントOracle Solaris 10 から Oracle Solaris 11.1 への移行準備とポイント
Oracle Solaris 10 から Oracle Solaris 11.1 への移行準備とポイント
 
Spark on sql server?
Spark on sql server?Spark on sql server?
Spark on sql server?
 
ITアーキテクトのためのOracle Cloud Platform設計・構築入門 [Oracle Cloud Days Tokyo 2016]
ITアーキテクトのためのOracle Cloud Platform設計・構築入門 [Oracle Cloud Days Tokyo 2016]ITアーキテクトのためのOracle Cloud Platform設計・構築入門 [Oracle Cloud Days Tokyo 2016]
ITアーキテクトのためのOracle Cloud Platform設計・構築入門 [Oracle Cloud Days Tokyo 2016]
 
Oracle Cloud PaaS & IaaS:2018年12月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年12月度サービス情報アップデートOracle Cloud PaaS & IaaS:2018年12月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年12月度サービス情報アップデート
 
Webアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうか
Webアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうかWebアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうか
Webアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうか
 
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方Alfresco勉強会20120829: やさしいShareダッシュレットの作り方
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方
 
Oracle GoldenGate Veridata概要
Oracle GoldenGate Veridata概要Oracle GoldenGate Veridata概要
Oracle GoldenGate Veridata概要
 

More from Kenichi Sonoda

MLflowで学ぶMLOpsことはじめ
MLflowで学ぶMLOpsことはじめMLflowで学ぶMLOpsことはじめ
MLflowで学ぶMLOpsことはじめKenichi Sonoda
 
機械学習基盤として活用するAutonomous Database
機械学習基盤として活用するAutonomous Database機械学習基盤として活用するAutonomous Database
機械学習基盤として活用するAutonomous DatabaseKenichi Sonoda
 
[Oracle Code Night] Reinforcement Learning Demo Code
[Oracle Code Night] Reinforcement Learning Demo Code[Oracle Code Night] Reinforcement Learning Demo Code
[Oracle Code Night] Reinforcement Learning Demo CodeKenichi Sonoda
 
20210831 code night はじめての強化学習
20210831 code night  はじめての強化学習20210831 code night  はじめての強化学習
20210831 code night はじめての強化学習Kenichi Sonoda
 
20210531 ora jam_stackgan
20210531 ora jam_stackgan20210531 ora jam_stackgan
20210531 ora jam_stackganKenichi Sonoda
 
[Code night 20200531]machine learning for begginer generation of virtual rea...
[Code night 20200531]machine learning for begginer  generation of virtual rea...[Code night 20200531]machine learning for begginer  generation of virtual rea...
[Code night 20200531]machine learning for begginer generation of virtual rea...Kenichi Sonoda
 
20210226[oracle code night] 機械学習入門:ディープラーニングの基礎から転移学習まで
20210226[oracle code night] 機械学習入門:ディープラーニングの基礎から転移学習まで20210226[oracle code night] 機械学習入門:ディープラーニングの基礎から転移学習まで
20210226[oracle code night] 機械学習入門:ディープラーニングの基礎から転移学習までKenichi Sonoda
 
[Code night] natural language proccessing and machine learning
[Code night] natural language proccessing and machine learning[Code night] natural language proccessing and machine learning
[Code night] natural language proccessing and machine learningKenichi Sonoda
 
20200812 Cbject Detection with OpenCV and CNN
20200812 Cbject Detection with OpenCV and CNN20200812 Cbject Detection with OpenCV and CNN
20200812 Cbject Detection with OpenCV and CNNKenichi Sonoda
 
20200402 oracle cloud infrastructure data science
20200402 oracle cloud infrastructure data science20200402 oracle cloud infrastructure data science
20200402 oracle cloud infrastructure data scienceKenichi Sonoda
 
Oci file storage service deep dive 20181001 ss
Oci file storage service deep dive 20181001 ssOci file storage service deep dive 20181001 ss
Oci file storage service deep dive 20181001 ssKenichi Sonoda
 
Oci object storage deep dive 20190329 ss
Oci object storage deep dive 20190329 ssOci object storage deep dive 20190329 ss
Oci object storage deep dive 20190329 ssKenichi Sonoda
 

More from Kenichi Sonoda (13)

Ocha_MLflow_MLOps.pdf
Ocha_MLflow_MLOps.pdfOcha_MLflow_MLOps.pdf
Ocha_MLflow_MLOps.pdf
 
MLflowで学ぶMLOpsことはじめ
MLflowで学ぶMLOpsことはじめMLflowで学ぶMLOpsことはじめ
MLflowで学ぶMLOpsことはじめ
 
機械学習基盤として活用するAutonomous Database
機械学習基盤として活用するAutonomous Database機械学習基盤として活用するAutonomous Database
機械学習基盤として活用するAutonomous Database
 
[Oracle Code Night] Reinforcement Learning Demo Code
[Oracle Code Night] Reinforcement Learning Demo Code[Oracle Code Night] Reinforcement Learning Demo Code
[Oracle Code Night] Reinforcement Learning Demo Code
 
20210831 code night はじめての強化学習
20210831 code night  はじめての強化学習20210831 code night  はじめての強化学習
20210831 code night はじめての強化学習
 
20210531 ora jam_stackgan
20210531 ora jam_stackgan20210531 ora jam_stackgan
20210531 ora jam_stackgan
 
[Code night 20200531]machine learning for begginer generation of virtual rea...
[Code night 20200531]machine learning for begginer  generation of virtual rea...[Code night 20200531]machine learning for begginer  generation of virtual rea...
[Code night 20200531]machine learning for begginer generation of virtual rea...
 
20210226[oracle code night] 機械学習入門:ディープラーニングの基礎から転移学習まで
20210226[oracle code night] 機械学習入門:ディープラーニングの基礎から転移学習まで20210226[oracle code night] 機械学習入門:ディープラーニングの基礎から転移学習まで
20210226[oracle code night] 機械学習入門:ディープラーニングの基礎から転移学習まで
 
[Code night] natural language proccessing and machine learning
[Code night] natural language proccessing and machine learning[Code night] natural language proccessing and machine learning
[Code night] natural language proccessing and machine learning
 
20200812 Cbject Detection with OpenCV and CNN
20200812 Cbject Detection with OpenCV and CNN20200812 Cbject Detection with OpenCV and CNN
20200812 Cbject Detection with OpenCV and CNN
 
20200402 oracle cloud infrastructure data science
20200402 oracle cloud infrastructure data science20200402 oracle cloud infrastructure data science
20200402 oracle cloud infrastructure data science
 
Oci file storage service deep dive 20181001 ss
Oci file storage service deep dive 20181001 ssOci file storage service deep dive 20181001 ss
Oci file storage service deep dive 20181001 ss
 
Oci object storage deep dive 20190329 ss
Oci object storage deep dive 20190329 ssOci object storage deep dive 20190329 ss
Oci object storage deep dive 20190329 ss
 

Recently uploaded

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 

Recently uploaded (10)

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 

Configureing analytics system with apache spark and object storage service of oracle cloud infrastructure

  • 1. Copyright © 2018 Oracle and/or its affiliates. All rights reserved. | オブジェクトストレージとApache Sparkでつくる 分析基盤 2019年1月16日 日本オラクル株式会社 IaaSソリューション部 園田憲一
  • 2. Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | Modern Data Lake 2 Object Storage On-premise Oracle Cloud Infrastructure
  • 3. Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | アーキテクチャ 3 Compute Block/NVMe データ 処理層 データ 蓄積層 Hadoopクラスタ Object Storage 分離 Compute Compute Compute Sparkクラスタ データ 処理層 データ 蓄積層 蜜結合モデル データ処理部(Compute)とデータ蓄積部 (Block/NVMe)のセット複数台から構成 Compute Compute 疎結合モデル データ処理部(Compute)とデータ蓄積部(オブ ジェクトストレージ)がそれぞれ独立した構成 + オブジェクトストレージ セット セット セット
  • 4. Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | ソフトウェアスタック 4 Compute Block/NVMe データ 処理層 データ 蓄積層 Hadoopクラスタ Object Storage 分離 Compute Compute Compute Sparkクラスタ データ 処理層 データ 処理層 蜜結合モデル データ処理部(MapReduce)とデータ蓄積層 HDFSはセットで稼働 Compute Compute 疎結合モデル データ処理層(Spark)とデータ蓄積部(オブジェク トストレージ)がそれぞれ独立して稼働 + オブジェクトストレージ MapReduce HDFS Spark
  • 5. Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | 5 オブジェクトストレージ + Sparkのメリット ①オブジェクトストレージ+ Spark Hadoopより 運用、管理が柔軟 ②Spark MapReduceより高速 ③Object Storage HDFSより低コスト Object Storage
  • 6. Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | ⚫ データ処理層と蓄積層を個別にスケールアップ・ス ケールアウトできない ⚫ データ蓄積層の容量計画、容量監視が必要、容量不 足時は拡張作業が必要 ⚫ 全てのインスタンスを常に起動しておく必要がある(分 析処理をしない時もデータ蓄積のため) ⚫ データ処理層と蓄積層を個別にスケールアップ・ス ケールアウト可能 ⚫ データ蓄積層の容量計画、容量監視は不要(Object Storageはoracleが運用管理) ⚫ 分析が不要な時はComputeを停止し課金をセーブ 運用、管理面のメリット(1) 6 Compute Block/NVMe Compute Block/NVMe Compute Block/NVMe Compute Block/NVMe Computeとスト レージをセット で拡張する必要 がある Object Storage スケールアウト Computeとスト レージは個別 にスケール、 メンテナンス ①オブジェクトストレージ+ Spark Hadoopより 運用、管理が柔軟
  • 7. Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | ⚫ 複数のクラスタ間でのデータ共有ができない ⚫ データレプリケーションの運用が必要、倍のデータ を運用 ⚫ 運用コスト、サービス利用コストの増大 ⚫ 複数のクラスタ間でデータ共有が可能 ⚫ 余分なデータを持つことなく、オブジェクトストレージ 上のデータを共有 ⚫ データレイクの統合も可能なアーキテクチャ 運用、管理面のメリット(2) 7 Compute Block/NVMe Compute Block/NVMe Compute Block/NVMe Object Storage Compute Block/NVMe Compute Block/NVMe Compute Block/NVMe データをレプリケーションが必要 部署Aのクラスタ 部署Bのクラスタ 部署Aのクラスタ 部署Bのクラスタ オブジェクトストレージを共有 ①オブジェクトストレージ+ Spark Hadoopより 運用、管理が柔軟
  • 8. Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | • ジョブ間のデータの受け渡しの度にHDFSへのIO が発生 • 全体の処理時間のうち大部分をIO処理が占める ことになる MapReduceの課題 8 HDFS(Disk) ジョブ1 ジョブ2 ジョブ3 データ データ IO IO IO IO ジョブが多段に構成されている場合 ジョブ1 ジョブ2 HDFS(Disk) データ ジョブ3 • 何度も利用するデータを効率的に扱う仕組みが ないため都度データの読み出しの待ち時間が必 要となる 複数のジョブで何度も同じデータを利用する場合 IO IO IO ②Spark MapReduceより高速
  • 9. Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | メモリメモリ SparkはMapReduceよりも高速 9 ジョブ ジョブ ジョブ データ データ 高速 IO ジョブが多段に構成されている場合 ジョブ ジョブ データ ジョブ 複数のジョブで何度も同じデータを利用する場合 • 各処理で利用するデータをメモリに蓄積しメモリ内でデータ処理することで IO待ち時間を削減 • 必要に応じてブロックストレージやオブジェクトストレージに書き出すことで データを永続化 高速 IO 高速 IO 高速 IO 高速 IO 高速 IO 高速 IO ②Spark MapReduceより高速
  • 10. Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | • Object Storage Service – Block Volumeと比較し、約39%のコスト ダウン • Archive Storage Service – Object Storage Serviceと比較し、約90% のコストダウン – Object Storageと併用し、頻繁に利用し ないデータはArchive Storageに • 例) Object Storage 10TB + Archive Storage 50TB オブジェクトストレージは安価 10 ¥ 5.10 ¥ 3.06 ¥ 0.312 Block Volume Object Storage Archive Storage 約39% コストダウン 約90% コストダウン 最新の価格情報 https://cloud.oracle.com/ja_JP/storage/pricing OCIの各Storage Serviceの価格(1GB, 1か月あたり) ③Object Storage HDFSより低コスト
  • 11. Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | • Spark – Clientノード • Sparkアプリケーションの実行をMasterノードに要求 • Workerノードで起動されるタスク処理プロセスのス ペック(CPUコア数、メモリ量)、プロセス数を指定して 要求する – Masterノード • Workerノードの空リソース量と要求されたスペックを 考慮し、Workerノードにタスク処理実行プロセスの 起動を要求 – Spark Workerノード • 実行プロセスを起動し、要求されたタスクを処理 • YARN(クラスタ管理ソフトウェア) – Client/ResourceManager/NodeManager • クラスタ全体の計算リソースの管理基盤 Sparkクラスタの構成例と役割分担 11 Spark Client Yarn Client Spark Worker02 Spark Worker01 Yarn NodeManager Spark Master Yarn ResourceManager Spark Worker04 Spark Worker03 ②処理要求 ③処理の割り振り ④実行プロセスが処理を実行 必要に応じてデータの読み込み・書き出し Sparkクラスタ オブジェクトストレージ ①Sparkアプリ実行
  • 12. Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | • Sparkアプリケーション – 業務アプリ – Scala/Java/Pythonベースの開発 • core-site.xmlファイル – Sparkの構成情報が記載される設定ファイル – オブジェクトストレージのアクセス情報(エンド ポイント)、接続認証のための設定 • HDFS Connector – オラクルが提供するSpark拡張用のJavaクラス ライブラリ – Sparkからオブジェクトストレー上のデータに透 過的にアクセスするためのライブラリ – 業務アプリ開発者はデータストアの構成を意 識する必要がない 構成要素から見る仕組み 12 Spark Client Yarn Client Spark Worker02 Spark Worker01 Yarn NodeManager Spark Master Yarn ResourceManager Spark Worker04 Spark Worker03 Sparkアプリケーション core-site.xml HDFS Connector core-site.xml core-site.xml core-site.xml core-site.xml core-site.xml Sparkクラスタ オブジェクトストレージ
  • 13. Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | HDFS Connectorを使ったSpark処理の実行例 13 Spark Client Yarn Client Spark Worker02 Spark Worker01 NodeManager Spark Master ResourceManager Spark Worker04 Spark Worker03 Sparkクラスタ メモリ csvファイル 生成されたデータ(DataFrame) # $SPARK_HOME/bin/spark-shell --jars $HOME/oci-hdfs/lib/oci-hdfs-full-2.7.2.0.jar …………………… …………………… Using Scala version 2.11.8 (OpenJDK 64-Bit Server VM, Java 1.8.0_191) Type in expressions to have them evaluated. Type :help for more information. scala> scala>sc.textFile("oci://test_bucket@gse0001425/movies.csv").show 1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy 2,Jumanji (1995),Adventure|Children|Fantasy 3,Grumpier Old Men (1995),Comedy|Romance 4,Waiting to Exhale (1995),Comedy|Drama|Romance 5,Father of the Bride Part II (1995),Comedy …………………. …………………. spark-shellの起動 例)オブジェクトストレージ上のcsvファイルからDataFrameを生成し、 標準出力に表示するscalaプログラムを実行 HDFS Connectorのクラスライブラリのjar ファイルを指定 オブジェクトストレージ上のファイルを指定 oci://<バケット名>@<テナント名>/<オブジェクト名> ①Spark-shellの起動、処理の実行 ②CSVファイルが読み込まれメモリ上 にDataFrameが生成される ③データ変換処理を行い結果を返す
  • 14. Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | ① データをオブジェクトストレージへ アップロードする ② オブジェクトストレージ上のデー タをSparkクラスタのメモリ上に読 み込む(DataFrameの生成) ③ 読み込まれたデータをSpark SQL で変換する ④ 変換されたデータをオブジェクト ストレージに永続化する デモの概要 14 movies.csv movies.csv オブジェクトストレージ (データレイク) データ メモリ データ ラップトップ (データ発生元) spark設定済 Computeインスタンス (分析基盤、バッチオフロード基盤) ③データ変換の操作 (ETL、機械学習、アドホック分析) ④データの永続化 movies2.csv ①データアップロード ②データ読み込み
  • 15. Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | • Sparkに同梱されてい る簡易のクラスタ管 理システム • 1ノードで構成可能 • テスト用途に利用 15 Sparkで利用できるクラスタ管理ツール Spark Standalone • Hadoopでよく利用さ れるクラスタ管理シス テム • HDFSを利用する場合、 データローカリティが 考慮されIOが効率化 される • 処理に割り当てる CPUコア数の配分を 動的に変えるなどき め細かい制御が可能 • Spark 2.3からネイティ ブサポート • OCI OKEでSparkを利 用可能 Apache Spark on Kubernetes: Maximizing Big Data Performance on Container Engine for Kubernetes
  • 16. Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | • コンピュータのメモリから異なる(リ モートの)コンピュータのメモリへ CPU を介さず直接データ転送を行う通信 技術 • データ転送時のOS処理(TCP/IPの処 理)が不要になり、CPUを効率的に利 用することができる • コンテキストスイッチを行うことなく他 の処理と並列にデータ転送を実行す ることができる • OCI HPCインスタンスで利用可能 – BM.HPC2.36 : 36 OCPU / 384 GB mem / 6.7 TB NVMe / 25 Gbps x1, 100Gbps x1 RDMA(Remote Direct Memory Access) 16 Ethernet NIC or Infiniband HCA sockets TCP/IP driver User Application data data copy copy copy TCP/IP通信とRDMA通信の処理フローの違い Ethernet NIC or Infiniband HCA sockets TCP/IP driver User Application datadata copy copy copy LAN DMA DMA RDMA通信フロー 通常のTCP/IP通信
  • 17. Copyright © 2019, Oracle and/or its affiliates. All rights reserved. | 出典 • Oracle Blog – What Is Object Storage? – 抄訳版:オブジェクトストレージ それはデータレイクの新しい選択肢 • Beginning Apache Spark 2: With Resilient Distributed Datasets, Spark SQL, Structured Streaming and Spark Machine Learning library • Apache Spark入門 動かして学ぶ最新並列分散処理フレーム ワーク (NEXT ONE) 17