Submit Search
Upload
PredictionIOでSparkMLを使った開発方法
•
0 likes
•
1,148 views
Shinsuke Sugaya
Follow
PredictionIOを利用して、データ管理から予測API作成までの開発方法を紹介します。
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 20
Download now
Download to read offline
Recommended
PredictionIOのPython対応計画
PredictionIOのPython対応計画
Shinsuke Sugaya
PredictionIO構築入門
PredictionIO構築入門
Shinsuke Sugaya
社内ドキュメント検索システム構築のノウハウ
社内ドキュメント検索システム構築のノウハウ
Shinsuke Sugaya
Fess/Elasticsearchを使った業務で使える?全文検索への道
Fess/Elasticsearchを使った業務で使える?全文検索への道
Shinsuke Sugaya
Jupyter Notebookでscikit-learnを使った機械学習・画像処理の基本
Jupyter Notebookでscikit-learnを使った機械学習・画像処理の基本
Norihiko Nakabayashi
Strem処理(Spark Streaming + Kinesis)とOffline処理(Hive)の統合
Strem処理(Spark Streaming + Kinesis)とOffline処理(Hive)の統合
SmartNews, Inc.
Elasticsearch 変わり種プラグインの作り方
Elasticsearch 変わり種プラグインの作り方
Ryoji Kurosawa
今更聞けないストリーム処理のあれとかこれ
今更聞けないストリーム処理のあれとかこれ
Tatsuro Hisamori
Recommended
PredictionIOのPython対応計画
PredictionIOのPython対応計画
Shinsuke Sugaya
PredictionIO構築入門
PredictionIO構築入門
Shinsuke Sugaya
社内ドキュメント検索システム構築のノウハウ
社内ドキュメント検索システム構築のノウハウ
Shinsuke Sugaya
Fess/Elasticsearchを使った業務で使える?全文検索への道
Fess/Elasticsearchを使った業務で使える?全文検索への道
Shinsuke Sugaya
Jupyter Notebookでscikit-learnを使った機械学習・画像処理の基本
Jupyter Notebookでscikit-learnを使った機械学習・画像処理の基本
Norihiko Nakabayashi
Strem処理(Spark Streaming + Kinesis)とOffline処理(Hive)の統合
Strem処理(Spark Streaming + Kinesis)とOffline処理(Hive)の統合
SmartNews, Inc.
Elasticsearch 変わり種プラグインの作り方
Elasticsearch 変わり種プラグインの作り方
Ryoji Kurosawa
今更聞けないストリーム処理のあれとかこれ
今更聞けないストリーム処理のあれとかこれ
Tatsuro Hisamori
Elasticsearch at CrowdWorks
Elasticsearch at CrowdWorks
佑介 九岡
Elasticsearchで作る形態素解析サーバ
Elasticsearchで作る形態素解析サーバ
Shinsuke Sugaya
ESFluteによるElasticsearchでのO/Rマッパーを用いた開発
ESFluteによるElasticsearchでのO/Rマッパーを用いた開発
Shinsuke Sugaya
業務システムで使える可視化テクニック - Apache HTTP編 -
業務システムで使える可視化テクニック - Apache HTTP編 -
Yasuyuki Sugai
ElasticsearchとTasteプラグインで作るレコメンドシステム
ElasticsearchとTasteプラグインで作るレコメンドシステム
Shinsuke Sugaya
Elasticsearchプラグインの作り方
Elasticsearchプラグインの作り方
Shinsuke Sugaya
MySQLユーザ視点での小さく始めるElasticsearch
MySQLユーザ視点での小さく始めるElasticsearch
Kentaro Yoshida
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告
Katsunori Kanda
Project GData
Project GData
Hideki Saito
WiredTigerを詳しく説明
WiredTigerを詳しく説明
Tetsutaro Watanabe
45分で理解する webクローリング入門 斉藤之雄
45分で理解する webクローリング入門 斉藤之雄
Yukio Saito
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
Recruit Lifestyle Co., Ltd.
LastaFluteでKotlinをはじめよう
LastaFluteでKotlinをはじめよう
Shinsuke Sugaya
Elasticsearchベースの全文検索システムFess
Elasticsearchベースの全文検索システムFess
Shinsuke Sugaya
Machine learning microservice_management
Machine learning microservice_management
yusuke shibui
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
圭輔 大曽根
MySQLと組み合わせて始める全文検索プロダクト"elasticsearch"
MySQLと組み合わせて始める全文検索プロダクト"elasticsearch"
Kentaro Yoshida
Hadoopことはじめ
Hadoopことはじめ
Katsunori Kanda
elasticsearchプラグイン入門
elasticsearchプラグイン入門
Shinsuke Sugaya
巨大なサービスと膨大なデータを支えるプラットフォーム
巨大なサービスと膨大なデータを支えるプラットフォーム
Tetsutaro Watanabe
Tensor Decomposition and its Applications
Tensor Decomposition and its Applications
Keisuke OTAKI
LastaFluteに移行したFessとElasticsearch+ESFluteによるDBFlute環境
LastaFluteに移行したFessとElasticsearch+ESFluteによるDBFlute環境
Shinsuke Sugaya
More Related Content
What's hot
Elasticsearch at CrowdWorks
Elasticsearch at CrowdWorks
佑介 九岡
Elasticsearchで作る形態素解析サーバ
Elasticsearchで作る形態素解析サーバ
Shinsuke Sugaya
ESFluteによるElasticsearchでのO/Rマッパーを用いた開発
ESFluteによるElasticsearchでのO/Rマッパーを用いた開発
Shinsuke Sugaya
業務システムで使える可視化テクニック - Apache HTTP編 -
業務システムで使える可視化テクニック - Apache HTTP編 -
Yasuyuki Sugai
ElasticsearchとTasteプラグインで作るレコメンドシステム
ElasticsearchとTasteプラグインで作るレコメンドシステム
Shinsuke Sugaya
Elasticsearchプラグインの作り方
Elasticsearchプラグインの作り方
Shinsuke Sugaya
MySQLユーザ視点での小さく始めるElasticsearch
MySQLユーザ視点での小さく始めるElasticsearch
Kentaro Yoshida
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告
Katsunori Kanda
Project GData
Project GData
Hideki Saito
WiredTigerを詳しく説明
WiredTigerを詳しく説明
Tetsutaro Watanabe
45分で理解する webクローリング入門 斉藤之雄
45分で理解する webクローリング入門 斉藤之雄
Yukio Saito
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
Recruit Lifestyle Co., Ltd.
LastaFluteでKotlinをはじめよう
LastaFluteでKotlinをはじめよう
Shinsuke Sugaya
Elasticsearchベースの全文検索システムFess
Elasticsearchベースの全文検索システムFess
Shinsuke Sugaya
Machine learning microservice_management
Machine learning microservice_management
yusuke shibui
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
圭輔 大曽根
MySQLと組み合わせて始める全文検索プロダクト"elasticsearch"
MySQLと組み合わせて始める全文検索プロダクト"elasticsearch"
Kentaro Yoshida
Hadoopことはじめ
Hadoopことはじめ
Katsunori Kanda
elasticsearchプラグイン入門
elasticsearchプラグイン入門
Shinsuke Sugaya
巨大なサービスと膨大なデータを支えるプラットフォーム
巨大なサービスと膨大なデータを支えるプラットフォーム
Tetsutaro Watanabe
What's hot
(20)
Elasticsearch at CrowdWorks
Elasticsearch at CrowdWorks
Elasticsearchで作る形態素解析サーバ
Elasticsearchで作る形態素解析サーバ
ESFluteによるElasticsearchでのO/Rマッパーを用いた開発
ESFluteによるElasticsearchでのO/Rマッパーを用いた開発
業務システムで使える可視化テクニック - Apache HTTP編 -
業務システムで使える可視化テクニック - Apache HTTP編 -
ElasticsearchとTasteプラグインで作るレコメンドシステム
ElasticsearchとTasteプラグインで作るレコメンドシステム
Elasticsearchプラグインの作り方
Elasticsearchプラグインの作り方
MySQLユーザ視点での小さく始めるElasticsearch
MySQLユーザ視点での小さく始めるElasticsearch
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告
Project GData
Project GData
WiredTigerを詳しく説明
WiredTigerを詳しく説明
45分で理解する webクローリング入門 斉藤之雄
45分で理解する webクローリング入門 斉藤之雄
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
LastaFluteでKotlinをはじめよう
LastaFluteでKotlinをはじめよう
Elasticsearchベースの全文検索システムFess
Elasticsearchベースの全文検索システムFess
Machine learning microservice_management
Machine learning microservice_management
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
MySQLと組み合わせて始める全文検索プロダクト"elasticsearch"
MySQLと組み合わせて始める全文検索プロダクト"elasticsearch"
Hadoopことはじめ
Hadoopことはじめ
elasticsearchプラグイン入門
elasticsearchプラグイン入門
巨大なサービスと膨大なデータを支えるプラットフォーム
巨大なサービスと膨大なデータを支えるプラットフォーム
Viewers also liked
Tensor Decomposition and its Applications
Tensor Decomposition and its Applications
Keisuke OTAKI
LastaFluteに移行したFessとElasticsearch+ESFluteによるDBFlute環境
LastaFluteに移行したFessとElasticsearch+ESFluteによるDBFlute環境
Shinsuke Sugaya
AI社会論研究会
AI社会論研究会
Hiroshi Nakagawa
Scala警察のすすめ
Scala警察のすすめ
takezoe
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Deep Learning JP
全文検索サーバ Fess 〜 全文検索システム構築時の悩みどころ
全文検索サーバ Fess 〜 全文検索システム構築時の悩みどころ
Shinsuke Sugaya
TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
Viewers also liked
(8)
Tensor Decomposition and its Applications
Tensor Decomposition and its Applications
LastaFluteに移行したFessとElasticsearch+ESFluteによるDBFlute環境
LastaFluteに移行したFessとElasticsearch+ESFluteによるDBFlute環境
AI社会論研究会
AI社会論研究会
Scala警察のすすめ
Scala警察のすすめ
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
全文検索サーバ Fess 〜 全文検索システム構築時の悩みどころ
全文検索サーバ Fess 〜 全文検索システム構築時の悩みどころ
TensorFlowで逆強化学習
TensorFlowで逆強化学習
生成モデルの Deep Learning
生成モデルの Deep Learning
Similar to PredictionIOでSparkMLを使った開発方法
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
The Japan DataScientist Society
Data Scientist Workbench - dots0729
Data Scientist Workbench - dots0729
s. kaijima
Scala製機械学習サーバ「Apache PredictionIO」
Scala製機械学習サーバ「Apache PredictionIO」
takezoe
プロトタイピングツール投入のケーススタディ
プロトタイピングツール投入のケーススタディ
力也 伊原
パーソナルデータのあり方を変える!オープンソース分散型PDS「Personium」を使ってみよう!
パーソナルデータのあり方を変える!オープンソース分散型PDS「Personium」を使ってみよう!
泰史 栃折
SAP Inside Track 2018 LT資料「ABAPerが触ってきた SAP Cloud PlatformのABAP環境 」
SAP Inside Track 2018 LT資料「ABAPerが触ってきた SAP Cloud PlatformのABAP環境 」
MasashiOtsuka1
SIerもそろそろ運用をなんとかしたいのでいろんなOSS使ってOpsBearってツールを作りはじめたらしい 2019/02/22 オープンソースカンファレ...
SIerもそろそろ運用をなんとかしたいのでいろんなOSS使ってOpsBearってツールを作りはじめたらしい 2019/02/22 オープンソースカンファレ...
光平 八代
コピー自動生成プロダクトでDataflowを導入した話
コピー自動生成プロダクトでDataflowを導入した話
ShunyoKawamoto
scala未経験者がフルペアプロで新規事業の開発をしている話
scala未経験者がフルペアプロで新規事業の開発をしている話
hayato iida
20180605 azure antenna_workshop
20180605 azure antenna_workshop
Miyuki Mochizuki
S06 t1 python学習奮闘記#4
S06 t1 python学習奮闘記#4
Takeshi Akutsu
ディープに作る固有表現認識
ディープに作る固有表現認識
Hiroki Nakayama
Sphinx ではじめるドキュメント生活 2012 #pyconjp #sphinxconjp
Sphinx ではじめるドキュメント生活 2012 #pyconjp #sphinxconjp
Takeshi Komiya
ユーザ・デザイナーから見たPlone CMSのアピールポイント
ユーザ・デザイナーから見たPlone CMSのアピールポイント
Masaki NIWA
Deep Learning reading club at SWEST 2017 interactive session
Deep Learning reading club at SWEST 2017 interactive session
Kiyoshi Ogawa
プロダクト中心のデータ駆動を推進していくために必要なこと
プロダクト中心のデータ駆動を推進していくために必要なこと
Kazuhito Osabe
え!? Power BI の画面からデータ更新なんてできるの!?
え!? Power BI の画面からデータ更新なんてできるの!?
Yugo Shimizu
AI-first Code Editor 「Cursor」の機能紹介
AI-first Code Editor 「Cursor」の機能紹介
ssuser39314d
え!? Power BI の画面からデータ更新なんてできるの!? ~PowerApps カスタムビジュアルの可能性~
え!? Power BI の画面からデータ更新なんてできるの!? ~PowerApps カスタムビジュアルの可能性~
Yugo Shimizu
Pythonで機械学習をやってみる(bizpy 1/19 2022)
Pythonで機械学習をやってみる(bizpy 1/19 2022)
Hirofumi Watanabe
Similar to PredictionIOでSparkMLを使った開発方法
(20)
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
Data Scientist Workbench - dots0729
Data Scientist Workbench - dots0729
Scala製機械学習サーバ「Apache PredictionIO」
Scala製機械学習サーバ「Apache PredictionIO」
プロトタイピングツール投入のケーススタディ
プロトタイピングツール投入のケーススタディ
パーソナルデータのあり方を変える!オープンソース分散型PDS「Personium」を使ってみよう!
パーソナルデータのあり方を変える!オープンソース分散型PDS「Personium」を使ってみよう!
SAP Inside Track 2018 LT資料「ABAPerが触ってきた SAP Cloud PlatformのABAP環境 」
SAP Inside Track 2018 LT資料「ABAPerが触ってきた SAP Cloud PlatformのABAP環境 」
SIerもそろそろ運用をなんとかしたいのでいろんなOSS使ってOpsBearってツールを作りはじめたらしい 2019/02/22 オープンソースカンファレ...
SIerもそろそろ運用をなんとかしたいのでいろんなOSS使ってOpsBearってツールを作りはじめたらしい 2019/02/22 オープンソースカンファレ...
コピー自動生成プロダクトでDataflowを導入した話
コピー自動生成プロダクトでDataflowを導入した話
scala未経験者がフルペアプロで新規事業の開発をしている話
scala未経験者がフルペアプロで新規事業の開発をしている話
20180605 azure antenna_workshop
20180605 azure antenna_workshop
S06 t1 python学習奮闘記#4
S06 t1 python学習奮闘記#4
ディープに作る固有表現認識
ディープに作る固有表現認識
Sphinx ではじめるドキュメント生活 2012 #pyconjp #sphinxconjp
Sphinx ではじめるドキュメント生活 2012 #pyconjp #sphinxconjp
ユーザ・デザイナーから見たPlone CMSのアピールポイント
ユーザ・デザイナーから見たPlone CMSのアピールポイント
Deep Learning reading club at SWEST 2017 interactive session
Deep Learning reading club at SWEST 2017 interactive session
プロダクト中心のデータ駆動を推進していくために必要なこと
プロダクト中心のデータ駆動を推進していくために必要なこと
え!? Power BI の画面からデータ更新なんてできるの!?
え!? Power BI の画面からデータ更新なんてできるの!?
AI-first Code Editor 「Cursor」の機能紹介
AI-first Code Editor 「Cursor」の機能紹介
え!? Power BI の画面からデータ更新なんてできるの!? ~PowerApps カスタムビジュアルの可能性~
え!? Power BI の画面からデータ更新なんてできるの!? ~PowerApps カスタムビジュアルの可能性~
Pythonで機械学習をやってみる(bizpy 1/19 2022)
Pythonで機械学習をやってみる(bizpy 1/19 2022)
More from Shinsuke Sugaya
SolrとElasticsearchを比べてみよう
SolrとElasticsearchを比べてみよう
Shinsuke Sugaya
Elasticsearch Authプラグインでアクセスコントロール
Elasticsearch Authプラグインでアクセスコントロール
Shinsuke Sugaya
DBFlute Mavenプラグインを用いてCRUD作成
DBFlute Mavenプラグインを用いてCRUD作成
Shinsuke Sugaya
DBFluteを用いて開発されている全文検索システムFess
DBFluteを用いて開発されている全文検索システムFess
Shinsuke Sugaya
Solrベースの全文検索サーバ Fess
Solrベースの全文検索サーバ Fess
Shinsuke Sugaya
Sc2009autumn s2robot
Sc2009autumn s2robot
Shinsuke Sugaya
オフィスに1台!全文検索Fess
オフィスに1台!全文検索Fess
Shinsuke Sugaya
More from Shinsuke Sugaya
(7)
SolrとElasticsearchを比べてみよう
SolrとElasticsearchを比べてみよう
Elasticsearch Authプラグインでアクセスコントロール
Elasticsearch Authプラグインでアクセスコントロール
DBFlute Mavenプラグインを用いてCRUD作成
DBFlute Mavenプラグインを用いてCRUD作成
DBFluteを用いて開発されている全文検索システムFess
DBFluteを用いて開発されている全文検索システムFess
Solrベースの全文検索サーバ Fess
Solrベースの全文検索サーバ Fess
Sc2009autumn s2robot
Sc2009autumn s2robot
オフィスに1台!全文検索Fess
オフィスに1台!全文検索Fess
PredictionIOでSparkMLを使った開発方法
1.
Apache BizReach, Inc. Shinsuke SugayaPredictionIO勉強会
第3回 SparkMLを使った開発方法
2.
自己紹介 名前:菅谷 信介 会社:株式会社ビズリーチ AI室 興味があること: ・機械学習やDeep
Learning等で解決方法を考える ・オープンソースのプロダクトを作る
3.
Topics PredictionIOを利用した開発の 一連の流れを考えてみる
4.
第三回目にして ようやく実用的な話が できる気が…
5.
概要
6.
PIOでの開発の前提 ・今回はデータの管理からAPI化まで紹介する ・学習はPython/PySparkで行う ・Spark 2.x以上が必要
7.
PIOでの開発の流れ 1. PredictionIOを構築 2. イベントサーバにデータ投入 3.
Jupyterでデータ分析・モデル構築 4. Pythonファイル化して、PIOでモデル作成 5. PIOで予測API公開
8.
開発の流れ
9.
PIOの導入 まだPython対応がリリースされていない… (PIO-116のIssueで対応中) ・PIO環境の構築方法は第二回の資料を参照 https://www.slideshare.net/shinsuke/predictionio-77450768 ・Python対応ブランチからPIOをcloneして利用 https://github.com/marevol/incubator-predictionio/tree/pyspark
10.
PIOテンプレート作成 ・PIOで学習するにはテンプレートの作成が必要 ・実際に作るにはサンプルをベースにすると便利 ・今回はサンプルテンプレートを利用 https://github.com/jpioug/predictionio-template-iris https://github.com/jpioug/predictionio-template-boston-house-prices $ git clone
https://github.com/jpioug/predictionio-template-iris.git
11.
アプリ登録 ・PIOで利用するにはアプリ登録が必要 ・pio app newを実行 →IrisAppとして登録 →トークンは任意 $
pio app new --access-key IRIS_TOKEN IrisApp
12.
データの投入 ・イベントサーバにデータを入れる https://github.com/jpioug/predictionio-template-iris/blob/master/data/import_eventserver.py ・自前のプロジェクトで利用する場合は同様に入れる →各種SDKがある $ python data/import_eventserver.py
13.
テンプレートのビルド ・テンプレートをビルドする(.scalaが対象) →モデルの保存やAPI化でScalaが利用されるため $ pio build
14.
データの分析など ・Jupyterとかでデータを分析、モデルを検討したい →pio-shellでPySpark&Jupyterを実行する →eda.ipynbを開く →SparkMLでモデルを作れる https://github.com/jpioug/predictionio-template-iris/blob/master/eda.ipynb $ PYSPARK_PYTHON=$PYENV_ROOT/shims/python PYSPARK_DRIVER_PYTHON=$PYENV_ROOT/shims/jupyter
PYSPARK_DRIVER_PYTHON_OPTS="notebook" pio-shell --with-pyspark
15.
学習モデル作成 ・pio trainでPythonファイルを実行 →学習モデルの作成はバッチ処理化したい →Jupyterで作成したものを.pyにするだけ →モデルの保存はrun_pio_workflow(model)を呼ぶ https://github.com/jpioug/predictionio-template-iris/blob/master/train.py $ pio
train --main-py-file train.py
16.
予測APIの調整 ・自前のプロジェクトに適用する場合 →予測APIのリクエストとレスポンスを調整 →Algorithm.scalaを修正 https://github.com/jpioug/predictionio-template-iris/blob/master/src/main/scala/ org/jpioug/template/iris/Algorithm.scala
17.
アプリのデプロイ ・API化するためにはアプリをデプロイする →pio deployを実行する $ pio
deploy
18.
予測APIにアクセス ・localhost:8000/queries.jsonにアクセス →Bodyに予測対象の情報を渡す $ curl -s
-H "Content-Type: application/json" -d '{"attr0":5.1,"attr1":3.5,"attr2":1.4,"attr3":0.2}' http://localhost:8000/queries.json
19.
まとめ ・データの管理からAPI化まで実現 ・SparkMLのアルゴリズムでモデルを作れる
20.
Apache Thank You
Download now