SlideShare a Scribd company logo
1 of 66
Download to read offline
2
3
4
マイクロソフトのデータ分析基盤
利用事例
データ分析のため前処理と分析バッチ処理
- Azure Data Lake Analytics
R スクリプトを並列実行 - Microsoft R Server
機械学習を具体的な API として利用
- Project Oxford / Azure Machine Learning
まとめ
1.
2.
3.
4.
5.
6.
10 分
15 分
20 分
20 分
20 分
5 分
6
開発言語
Microsoft Azure
7
米国中部
Iowa
米国西部
California
北ヨーロッパ
Ireland
米国東部
Virginia
米国東部2
Virginia米国政府
Virginia
米国中北部
Illinois
米国政府
Iowa
米国中南部
Texas
南ブラジル
Sao Paulo
西ヨーロッパ
Netherlands
北中国 *
Beijing
南中国 *
Shanghai
東日本
Saitama
西日本
Osaka
南インド
Chennai
東アジア
Hong Kong
東南アジア
Singapore
東南オーストラリア
Victoria
東オーストラリア
New South Wales
中央インド
Pune
カナダ東部
Quebec City
カナダ中部
Toronto
西インド
Mumbai
(2015年 12月現在)
稼働中 構築中 * Operated by 21Vianet
 100カ所以上のデータセンター
 ネットワーク網が全世界でトップスリーの一つ
 AWS の2倍、Google 6倍の地域サポート
 G Series – 最大 VM 提供開始 – 32 コア, 448GB RAM, SSD…
22 の地域でサービス中、28 の地域まで拡大予定
ドイツ ×2
Magdeburg & Frankfurt
UK ×2
8
Machine
Learning
Stream Analytics
SQL Data Ware House
/ SQL Database
/ DocumentDB
IoT Hub /
Event Hub
各種デバイス
Data Factory
Data Lake Store
Storage
(Blob / Table / Queue)
Data Lake Analytics
Power BI
Cortana Analytics Suite (コルタナ アナリティクス スイート) * IoT Hub と R Server 除く
一部サービス含む
Microsoft
R Server
HDInsight
Project
Oxford
Data Catalog
9価値
11
https://www.microsoft.com/en-us/server-cloud/cloud-os/customer-stories/pier-1-imports.aspx
12
Demo
13
https://blogs.microsoft.com/business-matters/2015/07/13/dartmouth-hitchcock-ushers-in-a-
new-age-of-proactive-personalized-healthcare-using-cortana-analytics-suite/
14
Demo
16
* 平均26年度総務省 情報通信白書 第 3 章より
17
18
19
・ マイクロソフトが提供する Managed な Hadoop サービス
・ GUI / スクリプトでクラスター構成可能
Hadoop の設定ファイルを 1 つ 1 つ編集、設定することも可能
・ Apache Hadoop ファミリーや Apache Spark の
各種コンポーネントも利用可能
- Apache HBase, Apache Storm, Hive, Pig, Spark Streaming 等
・ マイクロソフトが提供する Managed な HDFS* 互換サービス
* Hadoop Distributed File System
・ 構造化/非構造化ファイルを容量上限なしに格納可能
・ HDFS 同様、複数ファイルに自動複製して保持
・ 並列分散処理のためのサービス
・ Scala や Python ではなく、U-SQL と呼ぶ SQL ライクな言語で
処理を実装する
・ 実行の都度、並列度 (シングルから超多重処理まで) を決定可
・ 処理内容の統計(各操作の In/Out や時間等) をグラフィカルに
確認可
20
HDInsight
Microsoft R
Server
Azure Data Lake Store
HDInsight & Azure Data Lake Analytics
21
Demo
22
23
.Split(‘;’)
24
Azure Data Lake Analytics
Azure SQL
Data Warehouse
Azure
SQL Database
Azure
Blob Storage
Azure
Data Lake Store
SQL DB
on Azure VM
25
Azure Data Lake Analytics
Azure Data Lake Store
なし
¥ 1.74 / 分
¥ 2.55 / ジョブ
例) ¥ 52,200 / 月
毎日 10 時間 100 多重で
100 ジョブ実行
定常的にかかる費用 処理量に応じてかかる費用
¥ 4.08 / 1GB
例) ¥ 20,040
常時 5 TB を格納
¥ 7.14 / 最大 128GB
例) ¥ 1,712
毎日 約 1TB のアクセス (In/Out)
26
28
• 無償、オープン ソースの R ディストリビューション
• マイクロソフトによって拡張して提供
Microsoft R Open (MRO)
• スケール実行が可能でサポートが受けられる
R ディストリビューション
• マイクロソフトによって作成した特別なコンポーネントを含む
Microsoft R Server (MRS)
29
Revolution R
Enterprise
Revolution R
Open
Microsoft R Server
SQL Server 2016
R Services *
Microsoft R Open
これまで これから
Windows
Hadoop
Red Hat SuSE
Teradata
Linux (Ubuntu/CentOS
/Red Hat/SuSE)
Windows Mac
* SQL Server 2016 リリースまでは Revolution R Enterprise for Windows を利用
30
31
• Microsoft R Server for Red Hat Linux
• Microsoft R Server for SUSE Linux
• Microsoft R Server for Teradata DB
• Microsoft R Server for Hadoop on Red Hat
• RRE for Windows
(Microsoft SQL Server 2014 Enterprise Edition + SA の場合)
Microsoft R Server (MRS)
32
• メモリに収まる範囲での処理
• 大規模データ使用時の Out of Memory
• データのサンプリングによる制約
• 直列処理、処理するためにはデータの移動が必要
• 長時間かかる処理、データ移動も長時間かかる
• 並列実行を独自に組み込むには複雑
• 商用サポートなし
• 個人 PC のみでの利用で低い機能性、企業利用の場合問題が発生しても
解決が難しい場合も
33
データ処理 インメモリ インメモリ インメモリ or ディスク
分析スピード シングルスレッド マルチスレッド
マルチスレッド
1:N のサーバーに対する
並列処理
サポート コミュニティ コミュニティ
コミュニティ+
商用サポート
分析のための
パッケージ
7500 を超えるパッ
ケージ (CRAN)
7500 を超えるパッ
ケージ (CRAN)
7500 を超えるパッケージ
(CRAN) +
商用の高速並列関数
ライセンス オープンソース オープンソース 商用ライセンス
Microsoft R
Open (MRO)
Microsoft R
Server (MRS)
34
マスター
アルゴリズム
プロセス
アルゴリズム
大規模
データ各ブロック
を分析
都度ブロック
読み込み
分散処理
結果
Microsoft R Server
“クライアント” Microsoft R Server “サーバー”
コンソール
R IDE
もしくは
コマンドライン
リクエスト内容
纏めてリモート
環境に送信
35
### ANALYTICAL PROCESSING ###
### Statistical Summary of the data
rxSummary(~ArrDelay+DayOfWeek, data= AirlineDataSet, reportProgress=1)
### CrossTab the data
rxCrossTabs(ArrDelay ~ DayOfWeek, data= AirlineDataSet, means=T)
### Linear Model and plot
hdfsXdfArrLateLinMod <- rxLinMod(ArrDelay ~ DayOfWeek + 0 , data = AirlineDataSet)
plot(hdfsXdfArrLateLinMod$coefficients)
### SETUP LOCAL ENVIRONMENT VARIABLES ###
myLocalCC <- “localpar”
### LOCAL COMPUTE CONTEXT ###
rxSetComputeContext(myLocalCC)
### CREATE LINUX, DIRECTORY AND FILE OBJECTS ###
localFS <- RxNativeFileSystem()
AirlineDataSet <- RxXdfData(“AirlineDemoSmall.xdf”,
fileSystem = localFS)
myHadoopCC <- RxHadoopMR()
rxSetComputeContext(myHadoopCC)
hdfsFS <- RxHdfsFileSystem()
hdfsFS
自ノードでの並列実行 – Linux/Windows Hadoop 上での実行
R スクリプトの
実行コンテキスト
「どこで処理を行
うか?」の設定
処理内容は
実行する場所が
変わっても同一
36
### ANALYTICAL PROCESSING ###
### Statistical Summary of the data
rxSummary(~ArrDelay+DayOfWeek, data= AirlineDataSet, reportProgress=1)
### CrossTab the data
rxCrossTabs(ArrDelay ~ DayOfWeek, data= AirlineDataSet, means=T)
### Linear Model and plot
hdfsXdfArrLateLinMod <- rxLinMod(ArrDelay ~ DayOfWeek + 0 , data = AirlineDataSet)
plot(hdfsXdfArrLateLinMod$coefficients)
### SETUP LOCAL ENVIRONMENT VARIABLES ###
myLocalCC <- “localpar”
### LOCAL COMPUTE CONTEXT ###
rxSetComputeContext(myLocalCC)
### CREATE LINUX, DIRECTORY AND FILE OBJECTS ###
localFS <- RxNativeFileSystem()
AirlineDataSet <- RxXdfData(“AirlineDemoSmall.xdf”,
fileSystem = localFS)
自ノードでの並列実行 – Linux/Windows SQL Server 上での実行
R スクリプトの
実行コンテキスト
「どこで処理を行
うか?」の設定
処理内容は
実行する場所が
変わっても同一
### SETUP SQL Server ENVIRONMENT VARIABLES ###
mySqlCC <- "Driver=SQL;SERVER=localhost;Database=RevoTester;
Uid=RevoTester; pwd=######"
### SQL SERVER COMPUTE CONTEXT ###
rxSetComputeContext(mySqlCC)
### CREATE SQL SERVER DATA SOURCE ###
AirlineDemoQuery <- "SELECT * FROM AirlineDemoSmall;"
AirlineDataSet <- RxSqlServerData(connectionString =
mySqlCC, sqlQuery = AirlineDemoQuery)
37
### ANALYTICAL PROCESSING ###
### Statistical Summary of the data
rxSummary(~ArrDelay+DayOfWeek, data= AirlineDataSet, reportProgress=1)
### CrossTab the data
rxCrossTabs(ArrDelay ~ DayOfWeek, data= AirlineDataSet, means=T)
### Linear Model and plot
hdfsXdfArrLateLinMod <- rxLinMod(ArrDelay ~ DayOfWeek + 0 , data = AirlineDataSet)
plot(hdfsXdfArrLateLinMod$coefficients)
### SETUP LOCAL ENVIRONMENT VARIABLES ###
myLocalCC <- “localpar”
### LOCAL COMPUTE CONTEXT ###
rxSetComputeContext(myLocalCC)
### CREATE LINUX, DIRECTORY AND FILE OBJECTS ###
localFS <- RxNativeFileSystem()
AirlineDataSet <- RxXdfData(“AirlineDemoSmall.xdf”,
fileSystem = localFS)
自ノードでの並列実行 – Linux/Windows Teradata 上での実行
R スクリプトの
実行コンテキスト
「どこで処理を行
うか?」の設定
処理内容は
実行する場所が
変わっても同一
### SETUP TERADATA ENVIRONMENT VARIABLES ###
myTdCC <- "Driver=Teradata; DBCNAME=TeradataProd;
Database=RevoTester; Uid=RevoTester; pwd=######"
### TERADATA COMPUTE CONTEXT ###
rxSetComputeContext(myTdCC)
### CREATE TERADATA DATA SOURCE ###
AirlineDemoQuery <- "SELECT * FROM AirlineDemoSmall;"
AirlineDataSet <- RxTeradata(connectionString =
myTdCC, sqlQuery = AirlineDemoQuery)
38
 Gradient Boosted Decision Trees
 Naïve Bayes
 Data import – Delimited, Fixed, SAS, SPSS,
OBDC
 Variable creation & transformation
 Recode variables
 Factor variables
 Missing value handling
 Sort, Merge, Split
 Aggregate by category (means, sums)
 Min / Max, Mean, Median (approx.)
 Quantiles (approx.)
 Standard Deviation
 Variance
 Correlation
 Covariance
 Sum of Squares (cross product matrix for set
variables)
 Pairwise Cross tabs
 Risk Ratio & Odds Ratio
 Cross-Tabulation of Data (standard tables & long
form)
 Marginal Summaries of Cross Tabulations
 Chi Square Test
 Kendall Rank Correlation
 Fisher’s Exact Test
 Student’s t-Test
 Subsample (observations & variables)
 Random Sampling
Data Preparation Statistical Tests
Sampling
Descriptive Statistics
 Sum of Squares (cross product matrix for set
variables)
 Multiple Linear Regression
 Generalized Linear Models (GLM) exponential
family distributions: binomial, Gaussian, inverse
Gaussian, Poisson, Tweedie. Standard link
functions: cauchit, identity, log, logit, probit. User
defined distributions & link functions.
 Covariance & Correlation Matrices
 Logistic Regression
 Classification & Regression Trees
 Predictions/scoring for models
 Residuals for all models
Predictive Models  K-Means
 Decision Trees
 Decision Forests
Cluster Analysis
Classification
Simulation
Variable Selection
 Stepwise Regression
 Simulation (e.g. Monte Carlo)
 Parallel Random Number Generation
Combination
 rxDataStep
 rxExec
 PEMA-R API Custom Algorithms
39
DeployR
R Open R Server
DevelopR
40
41
43
44
 ブラウザ (ML Studio) だけで すぐに始められる
• サーバー等の環境準備/設定不要
 複雑なモデルを GUI 操作だけでも実装可能
 作成したモデルをボタン 1つで Web サービス化
 R / Python での実装も可能
 各種ストレージ、データベースを入力、出力に
• Azure Blob/Azure Table/Azure SQL Database/
HiveQL/Web URL via HTTP/OData
 1時間あたり ¥102 (ML Studio)/ ¥204 (API) の従量課金
• 実行時間に対してのみ課金される
• サブスクリプションなしで始められる Free Tier あり
45
46
・ モデルの選択はヘルプドキュメントとチートシートを参照
・ R 実装によって独自にモデルを追加可能
47
48
49
Machine Learning API
実装済み機械学習モジュール
RESTful API として利用
Experiment 例
50
51
52
53
Machine Learning API
実装済み機械学習モジュール
REST API として利用
Experiment 例
54
55
56
Demo
57
58
Demo
59
60
61
宣伝
62
https://www.microsoft.com/ja-jp/server-cloud/products-Microsoft-Azure-IoT-Service.aspx
http://download.microsoft.com/download/C/E/0/CE041DB1-BE60-4419-85E2-
A19018E29DC8/Azure_IoT_Suite_SelfLearning_V1.0.1.pdf
63
Machine
Learning
Stream Analytics
SQL Data Ware House
/ SQL Database
/ DocumentDB
IoT Hub /
Event Hub
各種デバイス
Data Factory
Data Lake Store
Storage
(Blob / Table / Queue)
Data Lake Analytics
Power BI
Cortana Analytics Suite (コルタナ アナリティクス スイート) * IoT Hub と R Server 除く
一部サービス含む
Microsoft
R Server
HDInsight
Project
Oxford
Data Catalog
65
66
 本書に記載した情報は、本書各項目に関する発行日現在の Microsoft の見解を表明するものです。Microsoftは絶えず変化する市場に対応しなければならないため、
ここに記載した情報に対していかなる責務を負うものではなく、提示された情報の信憑性については保証できません。
 本書は情報提供のみを目的としています。 Microsoft は、明示的または暗示的を問わず、本書にいかなる保証も与えるものではありません。
 すべての当該著作権法を遵守することはお客様の責務です。Microsoftの書面による明確な許可なく、本書の如何なる部分についても、転載や検索システムへの格納または挿入を行うことは、どのような形式または手段(電子的、
機械的、複写、レコーディング、その他)、および目的であっても禁じられています。
これらは著作権保護された権利を制限するものではありません。
 Microsoftは、本書の内容を保護する特許、特許出願書、商標、著作権、またはその他の知的財産権を保有する場合があります。Microsoftから書面によるライセンス契約が明確に供給される場合を除いて、本書の提供はこれらの
特許、商標、著作権、またはその他の知的財産へのライセンスを与えるものではありません。
© 2016 Microsoft Corporation. All rights reserved.
Microsoft, Windows, その他本文中に登場した各製品名は、Microsoft Corporation の米国およびその他の国における登録商標または商標です。
その他、記載されている会社名および製品名は、一般に各社の商標です。

More Related Content

What's hot

[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...Insight Technology, Inc.
 
Apache Drill で見る Twitter の世界
Apache Drill で見る Twitter の世界Apache Drill で見る Twitter の世界
Apache Drill で見る Twitter の世界Masaru Watanabe
 
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...Insight Technology, Inc.
 
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)NTT DATA Technology & Innovation
 
Treasure Dataを支える技術 - MessagePack編
Treasure Dataを支える技術 - MessagePack編Treasure Dataを支える技術 - MessagePack編
Treasure Dataを支える技術 - MessagePack編Taro L. Saito
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC EnterpriseYusukeKuramata
 
Sparkストリーミング検証
Sparkストリーミング検証Sparkストリーミング検証
Sparkストリーミング検証BrainPad Inc.
 
Sparkパフォーマンス検証
Sparkパフォーマンス検証Sparkパフォーマンス検証
Sparkパフォーマンス検証BrainPad Inc.
 
PostgreSQL 10 新機能 @オープンセミナー香川 2017
PostgreSQL 10 新機能 @オープンセミナー香川 2017PostgreSQL 10 新機能 @オープンセミナー香川 2017
PostgreSQL 10 新機能 @オープンセミナー香川 2017Shigeru Hanada
 
刊行記念セミナー「HBase徹底入門」
刊行記念セミナー「HBase徹底入門」刊行記念セミナー「HBase徹底入門」
刊行記念セミナー「HBase徹底入門」cyberagent
 
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)Hadoop / Spark Conference Japan
 
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...Insight Technology, Inc.
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsCloudera Japan
 
Qlik Replicate - IBM DB2 for LUWを ソースおよびターゲットエンドポイントとして使用する
Qlik Replicate - IBM DB2 for LUWをソースおよびターゲットエンドポイントとして使用するQlik Replicate - IBM DB2 for LUWをソースおよびターゲットエンドポイントとして使用する
Qlik Replicate - IBM DB2 for LUWを ソースおよびターゲットエンドポイントとして使用するQlikPresalesJapan
 
Apache Drill を利用した実データの分析
Apache Drill を利用した実データの分析Apache Drill を利用した実データの分析
Apache Drill を利用した実データの分析MapR Technologies Japan
 
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...MapR Technologies Japan
 
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016Nagato Kasaki
 
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11MapR Technologies Japan
 

What's hot (20)

[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
 
Apache Drill で見る Twitter の世界
Apache Drill で見る Twitter の世界Apache Drill で見る Twitter の世界
Apache Drill で見る Twitter の世界
 
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
 
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
 
Treasure Dataを支える技術 - MessagePack編
Treasure Dataを支える技術 - MessagePack編Treasure Dataを支える技術 - MessagePack編
Treasure Dataを支える技術 - MessagePack編
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
 
Sparkストリーミング検証
Sparkストリーミング検証Sparkストリーミング検証
Sparkストリーミング検証
 
Sparkパフォーマンス検証
Sparkパフォーマンス検証Sparkパフォーマンス検証
Sparkパフォーマンス検証
 
PostgreSQL 10 新機能 @オープンセミナー香川 2017
PostgreSQL 10 新機能 @オープンセミナー香川 2017PostgreSQL 10 新機能 @オープンセミナー香川 2017
PostgreSQL 10 新機能 @オープンセミナー香川 2017
 
刊行記念セミナー「HBase徹底入門」
刊行記念セミナー「HBase徹底入門」刊行記念セミナー「HBase徹底入門」
刊行記念セミナー「HBase徹底入門」
 
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
 
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
 
Qlik Replicate - IBM DB2 for LUWを ソースおよびターゲットエンドポイントとして使用する
Qlik Replicate - IBM DB2 for LUWをソースおよびターゲットエンドポイントとして使用するQlik Replicate - IBM DB2 for LUWをソースおよびターゲットエンドポイントとして使用する
Qlik Replicate - IBM DB2 for LUWを ソースおよびターゲットエンドポイントとして使用する
 
Apache Drill を利用した実データの分析
Apache Drill を利用した実データの分析Apache Drill を利用した実データの分析
Apache Drill を利用した実データの分析
 
hscj2019_ishizaki_public
hscj2019_ishizaki_publichscj2019_ishizaki_public
hscj2019_ishizaki_public
 
Hive chapter 2
Hive chapter 2Hive chapter 2
Hive chapter 2
 
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
 
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
 
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
 

Viewers also liked

Online Marketing Amersfoort introductie - Online & Education bij Beeckestijn
Online Marketing Amersfoort introductie - Online & Education bij BeeckestijnOnline Marketing Amersfoort introductie - Online & Education bij Beeckestijn
Online Marketing Amersfoort introductie - Online & Education bij BeeckestijnRamon de la Fuente
 
MOOC's - Arno Smets TU Delft - presentatie bij Online Marketing Amersfoort
MOOC's - Arno Smets TU Delft - presentatie bij Online Marketing AmersfoortMOOC's - Arno Smets TU Delft - presentatie bij Online Marketing Amersfoort
MOOC's - Arno Smets TU Delft - presentatie bij Online Marketing AmersfoortRamon de la Fuente
 
Social Media Reality Check 2.0
Social Media Reality Check 2.0Social Media Reality Check 2.0
Social Media Reality Check 2.0CNW Group
 
La crisis del antiguo régimen
La crisis del antiguo régimenLa crisis del antiguo régimen
La crisis del antiguo régimenjaionetxu
 
proyecto de investigacion
proyecto de investigacionproyecto de investigacion
proyecto de investigacion0981838202
 
Cem Cihan english_cv
Cem Cihan english_cvCem Cihan english_cv
Cem Cihan english_cvpenelope84
 
データサイエンティスト協会 セミナー2016 第2回 2016年7月19日
データサイエンティスト協会 セミナー2016 第2回 2016年7月19日データサイエンティスト協会 セミナー2016 第2回 2016年7月19日
データサイエンティスト協会 セミナー2016 第2回 2016年7月19日Atsushi Tsuchiya
 
Infomation System Security
Infomation System SecurityInfomation System Security
Infomation System SecurityKiran Munir
 
Ocio y tiempo libre en Roma: termas y juegos
Ocio y tiempo libre en Roma: termas y juegosOcio y tiempo libre en Roma: termas y juegos
Ocio y tiempo libre en Roma: termas y juegosCarmen Cifredo Martín
 
Tdtechtalk20160425myui
Tdtechtalk20160425myuiTdtechtalk20160425myui
Tdtechtalk20160425myuiMakoto Yui
 
The Insider Threat
The Insider ThreatThe Insider Threat
The Insider ThreatPECB
 
Step by Step: How to Create Hyper-Personalized Content
Step by Step: How to Create Hyper-Personalized ContentStep by Step: How to Create Hyper-Personalized Content
Step by Step: How to Create Hyper-Personalized ContentContentools
 
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京Koichiro Sasaki
 
Microsoft Cognitive Services 概要
Microsoft Cognitive Services 概要Microsoft Cognitive Services 概要
Microsoft Cognitive Services 概要Koichiro Sasaki
 
老舗大企業からスタートアップへの挑戦
老舗大企業からスタートアップへの挑戦老舗大企業からスタートアップへの挑戦
老舗大企業からスタートアップへの挑戦GuildWorks
 
SnappyData overview NikeTechTalk 11/19/15
SnappyData overview NikeTechTalk 11/19/15SnappyData overview NikeTechTalk 11/19/15
SnappyData overview NikeTechTalk 11/19/15SnappyData
 

Viewers also liked (20)

Online Marketing Amersfoort introductie - Online & Education bij Beeckestijn
Online Marketing Amersfoort introductie - Online & Education bij BeeckestijnOnline Marketing Amersfoort introductie - Online & Education bij Beeckestijn
Online Marketing Amersfoort introductie - Online & Education bij Beeckestijn
 
MOOC's - Arno Smets TU Delft - presentatie bij Online Marketing Amersfoort
MOOC's - Arno Smets TU Delft - presentatie bij Online Marketing AmersfoortMOOC's - Arno Smets TU Delft - presentatie bij Online Marketing Amersfoort
MOOC's - Arno Smets TU Delft - presentatie bij Online Marketing Amersfoort
 
Social Media Reality Check 2.0
Social Media Reality Check 2.0Social Media Reality Check 2.0
Social Media Reality Check 2.0
 
Yopo
YopoYopo
Yopo
 
Arte Prehistórico
Arte PrehistóricoArte Prehistórico
Arte Prehistórico
 
La crisis del antiguo régimen
La crisis del antiguo régimenLa crisis del antiguo régimen
La crisis del antiguo régimen
 
proyecto de investigacion
proyecto de investigacionproyecto de investigacion
proyecto de investigacion
 
Cem Cihan english_cv
Cem Cihan english_cvCem Cihan english_cv
Cem Cihan english_cv
 
Webcare and whatsapp @TUDelft
Webcare and whatsapp @TUDelftWebcare and whatsapp @TUDelft
Webcare and whatsapp @TUDelft
 
データサイエンティスト協会 セミナー2016 第2回 2016年7月19日
データサイエンティスト協会 セミナー2016 第2回 2016年7月19日データサイエンティスト協会 セミナー2016 第2回 2016年7月19日
データサイエンティスト協会 セミナー2016 第2回 2016年7月19日
 
Infomation System Security
Infomation System SecurityInfomation System Security
Infomation System Security
 
Ingeniería romana
Ingeniería romanaIngeniería romana
Ingeniería romana
 
Ocio y tiempo libre en Roma: termas y juegos
Ocio y tiempo libre en Roma: termas y juegosOcio y tiempo libre en Roma: termas y juegos
Ocio y tiempo libre en Roma: termas y juegos
 
Tdtechtalk20160425myui
Tdtechtalk20160425myuiTdtechtalk20160425myui
Tdtechtalk20160425myui
 
The Insider Threat
The Insider ThreatThe Insider Threat
The Insider Threat
 
Step by Step: How to Create Hyper-Personalized Content
Step by Step: How to Create Hyper-Personalized ContentStep by Step: How to Create Hyper-Personalized Content
Step by Step: How to Create Hyper-Personalized Content
 
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
 
Microsoft Cognitive Services 概要
Microsoft Cognitive Services 概要Microsoft Cognitive Services 概要
Microsoft Cognitive Services 概要
 
老舗大企業からスタートアップへの挑戦
老舗大企業からスタートアップへの挑戦老舗大企業からスタートアップへの挑戦
老舗大企業からスタートアップへの挑戦
 
SnappyData overview NikeTechTalk 11/19/15
SnappyData overview NikeTechTalk 11/19/15SnappyData overview NikeTechTalk 11/19/15
SnappyData overview NikeTechTalk 11/19/15
 

Similar to 20160121 データサイエンティスト協会 木曜セミナー #5

LINEのMySQL運用について
LINEのMySQL運用についてLINEのMySQL運用について
LINEのMySQL運用についてLINE Corporation
 
Linux 対応だけじゃない!! sql server 2017 こんな機能が追加されています。
Linux 対応だけじゃない!! sql server 2017 こんな機能が追加されています。Linux 対応だけじゃない!! sql server 2017 こんな機能が追加されています。
Linux 対応だけじゃない!! sql server 2017 こんな機能が追加されています。Masayuki Ozawa
 
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloudクラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud幹雄 小川
 
Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京tuchimur
 
R超入門機械学習をはじめよう
R超入門機械学習をはじめようR超入門機械学習をはじめよう
R超入門機械学習をはじめよう幹雄 小川
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムRecruit Technologies
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeSatoru Ishikawa
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料Recruit Technologies
 
Dat011 hd insight_+_spark_+_r_を活用した
Dat011 hd insight_+_spark_+_r_を活用したDat011 hd insight_+_spark_+_r_を活用した
Dat011 hd insight_+_spark_+_r_を活用したTech Summit 2016
 
データベースシステム論09 - SQL応用演習2 ビューとトリガ、アクセス権
データベースシステム論09 - SQL応用演習2 ビューとトリガ、アクセス権データベースシステム論09 - SQL応用演習2 ビューとトリガ、アクセス権
データベースシステム論09 - SQL応用演習2 ビューとトリガ、アクセス権Shohei Yokoyama
 
DB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data PlatformDB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data PlatformDaiyu Hatakeyama
 
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門Daiyu Hatakeyama
 
LINEのMySQL運用について 修正版
LINEのMySQL運用について 修正版LINEのMySQL運用について 修正版
LINEのMySQL運用について 修正版LINE Corporation
 
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編Daiyu Hatakeyama
 
[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...
[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...
[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...Insight Technology, Inc.
 
Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう!
Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう! Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう!
Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう! Yoichi Kawasaki
 
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...Insight Technology, Inc.
 
[ウェビナー] Build 2018 アップデート ~ データ プラットフォーム/IoT編 ~
[ウェビナー] Build 2018 アップデート ~ データ プラットフォーム/IoT編 ~[ウェビナー] Build 2018 アップデート ~ データ プラットフォーム/IoT編 ~
[ウェビナー] Build 2018 アップデート ~ データ プラットフォーム/IoT編 ~Naoki (Neo) SATO
 

Similar to 20160121 データサイエンティスト協会 木曜セミナー #5 (20)

LINEのMySQL運用について
LINEのMySQL運用についてLINEのMySQL運用について
LINEのMySQL運用について
 
Linux 対応だけじゃない!! sql server 2017 こんな機能が追加されています。
Linux 対応だけじゃない!! sql server 2017 こんな機能が追加されています。Linux 対応だけじゃない!! sql server 2017 こんな機能が追加されています。
Linux 対応だけじゃない!! sql server 2017 こんな機能が追加されています。
 
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloudクラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
 
Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京
 
R超入門機械学習をはじめよう
R超入門機械学習をはじめようR超入門機械学習をはじめよう
R超入門機械学習をはじめよう
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
 
Rでreproducible research
Rでreproducible researchRでreproducible research
Rでreproducible research
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
 
Apache spark 2.3 and beyond
Apache spark 2.3 and beyondApache spark 2.3 and beyond
Apache spark 2.3 and beyond
 
Dat011 hd insight_+_spark_+_r_を活用した
Dat011 hd insight_+_spark_+_r_を活用したDat011 hd insight_+_spark_+_r_を活用した
Dat011 hd insight_+_spark_+_r_を活用した
 
データベースシステム論09 - SQL応用演習2 ビューとトリガ、アクセス権
データベースシステム論09 - SQL応用演習2 ビューとトリガ、アクセス権データベースシステム論09 - SQL応用演習2 ビューとトリガ、アクセス権
データベースシステム論09 - SQL応用演習2 ビューとトリガ、アクセス権
 
DB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data PlatformDB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data Platform
 
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
 
LINEのMySQL運用について 修正版
LINEのMySQL運用について 修正版LINEのMySQL運用について 修正版
LINEのMySQL運用について 修正版
 
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
 
[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...
[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...
[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...
 
Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう!
Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう! Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう!
Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう!
 
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
 
[ウェビナー] Build 2018 アップデート ~ データ プラットフォーム/IoT編 ~
[ウェビナー] Build 2018 アップデート ~ データ プラットフォーム/IoT編 ~[ウェビナー] Build 2018 アップデート ~ データ プラットフォーム/IoT編 ~
[ウェビナー] Build 2018 アップデート ~ データ プラットフォーム/IoT編 ~
 

Recently uploaded

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 

Recently uploaded (8)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

20160121 データサイエンティスト協会 木曜セミナー #5

  • 1.
  • 2. 2
  • 3. 3
  • 4. 4 マイクロソフトのデータ分析基盤 利用事例 データ分析のため前処理と分析バッチ処理 - Azure Data Lake Analytics R スクリプトを並列実行 - Microsoft R Server 機械学習を具体的な API として利用 - Project Oxford / Azure Machine Learning まとめ 1. 2. 3. 4. 5. 6. 10 分 15 分 20 分 20 分 20 分 5 分
  • 5.
  • 7. 7 米国中部 Iowa 米国西部 California 北ヨーロッパ Ireland 米国東部 Virginia 米国東部2 Virginia米国政府 Virginia 米国中北部 Illinois 米国政府 Iowa 米国中南部 Texas 南ブラジル Sao Paulo 西ヨーロッパ Netherlands 北中国 * Beijing 南中国 * Shanghai 東日本 Saitama 西日本 Osaka 南インド Chennai 東アジア Hong Kong 東南アジア Singapore 東南オーストラリア Victoria 東オーストラリア New South Wales 中央インド Pune カナダ東部 Quebec City カナダ中部 Toronto 西インド Mumbai (2015年 12月現在) 稼働中 構築中 * Operated by 21Vianet  100カ所以上のデータセンター  ネットワーク網が全世界でトップスリーの一つ  AWS の2倍、Google 6倍の地域サポート  G Series – 最大 VM 提供開始 – 32 コア, 448GB RAM, SSD… 22 の地域でサービス中、28 の地域まで拡大予定 ドイツ ×2 Magdeburg & Frankfurt UK ×2
  • 8. 8 Machine Learning Stream Analytics SQL Data Ware House / SQL Database / DocumentDB IoT Hub / Event Hub 各種デバイス Data Factory Data Lake Store Storage (Blob / Table / Queue) Data Lake Analytics Power BI Cortana Analytics Suite (コルタナ アナリティクス スイート) * IoT Hub と R Server 除く 一部サービス含む Microsoft R Server HDInsight Project Oxford Data Catalog
  • 10.
  • 15.
  • 17. 17
  • 18. 18
  • 19. 19 ・ マイクロソフトが提供する Managed な Hadoop サービス ・ GUI / スクリプトでクラスター構成可能 Hadoop の設定ファイルを 1 つ 1 つ編集、設定することも可能 ・ Apache Hadoop ファミリーや Apache Spark の 各種コンポーネントも利用可能 - Apache HBase, Apache Storm, Hive, Pig, Spark Streaming 等 ・ マイクロソフトが提供する Managed な HDFS* 互換サービス * Hadoop Distributed File System ・ 構造化/非構造化ファイルを容量上限なしに格納可能 ・ HDFS 同様、複数ファイルに自動複製して保持 ・ 並列分散処理のためのサービス ・ Scala や Python ではなく、U-SQL と呼ぶ SQL ライクな言語で 処理を実装する ・ 実行の都度、並列度 (シングルから超多重処理まで) を決定可 ・ 処理内容の統計(各操作の In/Out や時間等) をグラフィカルに 確認可
  • 20. 20 HDInsight Microsoft R Server Azure Data Lake Store HDInsight & Azure Data Lake Analytics
  • 22. 22
  • 24. 24 Azure Data Lake Analytics Azure SQL Data Warehouse Azure SQL Database Azure Blob Storage Azure Data Lake Store SQL DB on Azure VM
  • 25. 25 Azure Data Lake Analytics Azure Data Lake Store なし ¥ 1.74 / 分 ¥ 2.55 / ジョブ 例) ¥ 52,200 / 月 毎日 10 時間 100 多重で 100 ジョブ実行 定常的にかかる費用 処理量に応じてかかる費用 ¥ 4.08 / 1GB 例) ¥ 20,040 常時 5 TB を格納 ¥ 7.14 / 最大 128GB 例) ¥ 1,712 毎日 約 1TB のアクセス (In/Out)
  • 26. 26
  • 27.
  • 28. 28 • 無償、オープン ソースの R ディストリビューション • マイクロソフトによって拡張して提供 Microsoft R Open (MRO) • スケール実行が可能でサポートが受けられる R ディストリビューション • マイクロソフトによって作成した特別なコンポーネントを含む Microsoft R Server (MRS)
  • 29. 29 Revolution R Enterprise Revolution R Open Microsoft R Server SQL Server 2016 R Services * Microsoft R Open これまで これから Windows Hadoop Red Hat SuSE Teradata Linux (Ubuntu/CentOS /Red Hat/SuSE) Windows Mac * SQL Server 2016 リリースまでは Revolution R Enterprise for Windows を利用
  • 30. 30
  • 31. 31 • Microsoft R Server for Red Hat Linux • Microsoft R Server for SUSE Linux • Microsoft R Server for Teradata DB • Microsoft R Server for Hadoop on Red Hat • RRE for Windows (Microsoft SQL Server 2014 Enterprise Edition + SA の場合) Microsoft R Server (MRS)
  • 32. 32 • メモリに収まる範囲での処理 • 大規模データ使用時の Out of Memory • データのサンプリングによる制約 • 直列処理、処理するためにはデータの移動が必要 • 長時間かかる処理、データ移動も長時間かかる • 並列実行を独自に組み込むには複雑 • 商用サポートなし • 個人 PC のみでの利用で低い機能性、企業利用の場合問題が発生しても 解決が難しい場合も
  • 33. 33 データ処理 インメモリ インメモリ インメモリ or ディスク 分析スピード シングルスレッド マルチスレッド マルチスレッド 1:N のサーバーに対する 並列処理 サポート コミュニティ コミュニティ コミュニティ+ 商用サポート 分析のための パッケージ 7500 を超えるパッ ケージ (CRAN) 7500 を超えるパッ ケージ (CRAN) 7500 を超えるパッケージ (CRAN) + 商用の高速並列関数 ライセンス オープンソース オープンソース 商用ライセンス Microsoft R Open (MRO) Microsoft R Server (MRS)
  • 34. 34 マスター アルゴリズム プロセス アルゴリズム 大規模 データ各ブロック を分析 都度ブロック 読み込み 分散処理 結果 Microsoft R Server “クライアント” Microsoft R Server “サーバー” コンソール R IDE もしくは コマンドライン リクエスト内容 纏めてリモート 環境に送信
  • 35. 35 ### ANALYTICAL PROCESSING ### ### Statistical Summary of the data rxSummary(~ArrDelay+DayOfWeek, data= AirlineDataSet, reportProgress=1) ### CrossTab the data rxCrossTabs(ArrDelay ~ DayOfWeek, data= AirlineDataSet, means=T) ### Linear Model and plot hdfsXdfArrLateLinMod <- rxLinMod(ArrDelay ~ DayOfWeek + 0 , data = AirlineDataSet) plot(hdfsXdfArrLateLinMod$coefficients) ### SETUP LOCAL ENVIRONMENT VARIABLES ### myLocalCC <- “localpar” ### LOCAL COMPUTE CONTEXT ### rxSetComputeContext(myLocalCC) ### CREATE LINUX, DIRECTORY AND FILE OBJECTS ### localFS <- RxNativeFileSystem() AirlineDataSet <- RxXdfData(“AirlineDemoSmall.xdf”, fileSystem = localFS) myHadoopCC <- RxHadoopMR() rxSetComputeContext(myHadoopCC) hdfsFS <- RxHdfsFileSystem() hdfsFS 自ノードでの並列実行 – Linux/Windows Hadoop 上での実行 R スクリプトの 実行コンテキスト 「どこで処理を行 うか?」の設定 処理内容は 実行する場所が 変わっても同一
  • 36. 36 ### ANALYTICAL PROCESSING ### ### Statistical Summary of the data rxSummary(~ArrDelay+DayOfWeek, data= AirlineDataSet, reportProgress=1) ### CrossTab the data rxCrossTabs(ArrDelay ~ DayOfWeek, data= AirlineDataSet, means=T) ### Linear Model and plot hdfsXdfArrLateLinMod <- rxLinMod(ArrDelay ~ DayOfWeek + 0 , data = AirlineDataSet) plot(hdfsXdfArrLateLinMod$coefficients) ### SETUP LOCAL ENVIRONMENT VARIABLES ### myLocalCC <- “localpar” ### LOCAL COMPUTE CONTEXT ### rxSetComputeContext(myLocalCC) ### CREATE LINUX, DIRECTORY AND FILE OBJECTS ### localFS <- RxNativeFileSystem() AirlineDataSet <- RxXdfData(“AirlineDemoSmall.xdf”, fileSystem = localFS) 自ノードでの並列実行 – Linux/Windows SQL Server 上での実行 R スクリプトの 実行コンテキスト 「どこで処理を行 うか?」の設定 処理内容は 実行する場所が 変わっても同一 ### SETUP SQL Server ENVIRONMENT VARIABLES ### mySqlCC <- "Driver=SQL;SERVER=localhost;Database=RevoTester; Uid=RevoTester; pwd=######" ### SQL SERVER COMPUTE CONTEXT ### rxSetComputeContext(mySqlCC) ### CREATE SQL SERVER DATA SOURCE ### AirlineDemoQuery <- "SELECT * FROM AirlineDemoSmall;" AirlineDataSet <- RxSqlServerData(connectionString = mySqlCC, sqlQuery = AirlineDemoQuery)
  • 37. 37 ### ANALYTICAL PROCESSING ### ### Statistical Summary of the data rxSummary(~ArrDelay+DayOfWeek, data= AirlineDataSet, reportProgress=1) ### CrossTab the data rxCrossTabs(ArrDelay ~ DayOfWeek, data= AirlineDataSet, means=T) ### Linear Model and plot hdfsXdfArrLateLinMod <- rxLinMod(ArrDelay ~ DayOfWeek + 0 , data = AirlineDataSet) plot(hdfsXdfArrLateLinMod$coefficients) ### SETUP LOCAL ENVIRONMENT VARIABLES ### myLocalCC <- “localpar” ### LOCAL COMPUTE CONTEXT ### rxSetComputeContext(myLocalCC) ### CREATE LINUX, DIRECTORY AND FILE OBJECTS ### localFS <- RxNativeFileSystem() AirlineDataSet <- RxXdfData(“AirlineDemoSmall.xdf”, fileSystem = localFS) 自ノードでの並列実行 – Linux/Windows Teradata 上での実行 R スクリプトの 実行コンテキスト 「どこで処理を行 うか?」の設定 処理内容は 実行する場所が 変わっても同一 ### SETUP TERADATA ENVIRONMENT VARIABLES ### myTdCC <- "Driver=Teradata; DBCNAME=TeradataProd; Database=RevoTester; Uid=RevoTester; pwd=######" ### TERADATA COMPUTE CONTEXT ### rxSetComputeContext(myTdCC) ### CREATE TERADATA DATA SOURCE ### AirlineDemoQuery <- "SELECT * FROM AirlineDemoSmall;" AirlineDataSet <- RxTeradata(connectionString = myTdCC, sqlQuery = AirlineDemoQuery)
  • 38. 38  Gradient Boosted Decision Trees  Naïve Bayes  Data import – Delimited, Fixed, SAS, SPSS, OBDC  Variable creation & transformation  Recode variables  Factor variables  Missing value handling  Sort, Merge, Split  Aggregate by category (means, sums)  Min / Max, Mean, Median (approx.)  Quantiles (approx.)  Standard Deviation  Variance  Correlation  Covariance  Sum of Squares (cross product matrix for set variables)  Pairwise Cross tabs  Risk Ratio & Odds Ratio  Cross-Tabulation of Data (standard tables & long form)  Marginal Summaries of Cross Tabulations  Chi Square Test  Kendall Rank Correlation  Fisher’s Exact Test  Student’s t-Test  Subsample (observations & variables)  Random Sampling Data Preparation Statistical Tests Sampling Descriptive Statistics  Sum of Squares (cross product matrix for set variables)  Multiple Linear Regression  Generalized Linear Models (GLM) exponential family distributions: binomial, Gaussian, inverse Gaussian, Poisson, Tweedie. Standard link functions: cauchit, identity, log, logit, probit. User defined distributions & link functions.  Covariance & Correlation Matrices  Logistic Regression  Classification & Regression Trees  Predictions/scoring for models  Residuals for all models Predictive Models  K-Means  Decision Trees  Decision Forests Cluster Analysis Classification Simulation Variable Selection  Stepwise Regression  Simulation (e.g. Monte Carlo)  Parallel Random Number Generation Combination  rxDataStep  rxExec  PEMA-R API Custom Algorithms
  • 39. 39 DeployR R Open R Server DevelopR
  • 40. 40
  • 41. 41
  • 42.
  • 43. 43
  • 44. 44  ブラウザ (ML Studio) だけで すぐに始められる • サーバー等の環境準備/設定不要  複雑なモデルを GUI 操作だけでも実装可能  作成したモデルをボタン 1つで Web サービス化  R / Python での実装も可能  各種ストレージ、データベースを入力、出力に • Azure Blob/Azure Table/Azure SQL Database/ HiveQL/Web URL via HTTP/OData  1時間あたり ¥102 (ML Studio)/ ¥204 (API) の従量課金 • 実行時間に対してのみ課金される • サブスクリプションなしで始められる Free Tier あり
  • 45. 45
  • 47. 47
  • 48. 48
  • 50. 50
  • 51. 51
  • 52. 52
  • 54. 54
  • 55. 55
  • 57. 57
  • 59. 59
  • 60. 60
  • 63. 63 Machine Learning Stream Analytics SQL Data Ware House / SQL Database / DocumentDB IoT Hub / Event Hub 各種デバイス Data Factory Data Lake Store Storage (Blob / Table / Queue) Data Lake Analytics Power BI Cortana Analytics Suite (コルタナ アナリティクス スイート) * IoT Hub と R Server 除く 一部サービス含む Microsoft R Server HDInsight Project Oxford Data Catalog
  • 64.
  • 65. 65
  • 66. 66  本書に記載した情報は、本書各項目に関する発行日現在の Microsoft の見解を表明するものです。Microsoftは絶えず変化する市場に対応しなければならないため、 ここに記載した情報に対していかなる責務を負うものではなく、提示された情報の信憑性については保証できません。  本書は情報提供のみを目的としています。 Microsoft は、明示的または暗示的を問わず、本書にいかなる保証も与えるものではありません。  すべての当該著作権法を遵守することはお客様の責務です。Microsoftの書面による明確な許可なく、本書の如何なる部分についても、転載や検索システムへの格納または挿入を行うことは、どのような形式または手段(電子的、 機械的、複写、レコーディング、その他)、および目的であっても禁じられています。 これらは著作権保護された権利を制限するものではありません。  Microsoftは、本書の内容を保護する特許、特許出願書、商標、著作権、またはその他の知的財産権を保有する場合があります。Microsoftから書面によるライセンス契約が明確に供給される場合を除いて、本書の提供はこれらの 特許、商標、著作権、またはその他の知的財産へのライセンスを与えるものではありません。 © 2016 Microsoft Corporation. All rights reserved. Microsoft, Windows, その他本文中に登場した各製品名は、Microsoft Corporation の米国およびその他の国における登録商標または商標です。 その他、記載されている会社名および製品名は、一般に各社の商標です。