SlideShare a Scribd company logo
1 of 36
Download to read offline
Copyright © NHN Techorus Corp. Page1
2016/10/24
NHNテコラス株式会社 データ研究室
佐藤 哲
趙 漢哲/坂井 俊之
小山 智久
Hadoop × Spark × 機械学習を利用した実践的活用術
Copyright © NHN Techorus Corp. Page2
Copyright © NHN Techorus Corp. Page3
Copyright © NHN Techorus Corp. Page4
Copyright © NHN Techorus Corp. Page5
Copyright © NHN Techorus Corp. Page6
Copyright © NHN Techorus Corp. Page7
自社モールの売上アップに繋がる
レコメンダー開発記
Copyright © NHN Techorus Corp. Page8
中小企業のeコマースの現在
“一元管理による複数店舗展開
が当たり前になってきた”
Copyright © NHN Techorus Corp. Page9
中小企業のeコマースの現在
“しかし、費用を考えるとできるだけ
自社モールの販売を伸ばしたい”
Copyright © NHN Techorus Corp. Page10
どうすれば顧客を
自社モールへ導けるのか?
• 考える点
– 既存顧客の離脱防止
– 他モールから自社モールへ誘導
– 新規顧客の誘致
– などなど
Copyright © NHN Techorus Corp. Page11
どうすれば顧客を
自社モールへ導けるのか?
• 考える点
– 既存顧客の離脱防止
– 他モールから自社モールへ誘導
– 新規顧客の誘致
– などなど
顧客が購入したいと思う商品を
いい条件で提供する
Copyright © NHN Techorus Corp. Page12
どうすれば顧客を
自社モールへ導けるのか?
顧客が購入したいと思う商品を
いい条件で提供する
レコメンダーを導入しよう!
• 考える点
– 既存顧客の離脱防止
– 他モールから自社モールへ誘導
– 新規顧客の誘致
– などなど
Copyright © NHN Techorus Corp. Page13
レコメンダーはどう動くのか?
Copyright © NHN Techorus Corp. Page14
レコメンダー概念図
共通フォマットデータ
会社A
自社モール
会社A
他モール
協調フィルタリング用データの例
DateTime User Item
2016/03/07 21:03:11 user1342 item1
2016/03/07 21:04:34 user2298 item14
学習データ オンライン
テストデータ
デ
ー
タ
取
得
複数モールから
データを収集
Copyright © NHN Techorus Corp. Page15
学習機
レコメンダー概念図
レ
コ
メ
ン
ダ
ー
学
習
学習・評価データ分離
学習データ 評価データ
モデルパラメター
集合
Regularization
LearningRate
Etc.
学習
評価
モデル
レコメンド
結果
学習データ
最適モデル
モデル
モデル
再学習
最適
パラメター
Copyright © NHN Techorus Corp. Page16
レコメンダー概念図
オ
ン
ラ
イ
ン
評
価
利用モデル選択
オンライン
テストデータ
最適モデル
レコメンドモデル永久保存空間
その他
会社A-002
会社A-001
評価機
モデル評価
結果比較
オペレーター
Copyright © NHN Techorus Corp. Page17
レコメンダー概念図
レ
コ
メ
ン
ド
提
供
レコメンド生成機
新規顧客用
既存顧客
トップページ用
既存顧客
商品ページ用
…
レコメンドモデル永久保存空間
その他
会社A-002
会社A-001
Copyright © NHN Techorus Corp. Page18
実証実験と新しい発見
Copyright © NHN Techorus Corp. Page19
協調フィルタリングを利用した
実証実験の概念図
2012 2013 2014 2015
レコメンド
モデル
購買履歴
WEB観覧
履歴
商品の
類似性
1)過去のデータを収集
2)レコメンドモデル
の学習
3)購買可能性が高い
商品をレコメンド
商品
2016
A社さまのご
協力でデータ
を利用させて
いただきました。
Copyright © NHN Techorus Corp. Page20
データの特性は?
質問#1
Copyright © NHN Techorus Corp. Page21
新規顧客・商品の増加
0
1
2
3
4
5
6
2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
2006年対比倍率
新規顧客数増加率 新規商品数増加率
新規商品より新規顧客
の増加が目立つ
Copyright © NHN Techorus Corp. Page22
受注件数の増加(商品単位)
0
2
4
6
8
10
12
14
16
18
20
2013-01
2013-03
2013-05
2013-07
2013-09
2013-11
2014-01
2014-03
2014-05
2014-07
2014-09
2014-11
2015-01
2015-03
2015-05
2015-07
2015-09
2015-11
2016-01
2016-03
2016-05
受注件数
万
消費税増加前
の買占め
Copyright © NHN Techorus Corp. Page23
協調フィルタリングの
有効性は?
質問#2
Copyright © NHN Techorus Corp. Page24
• Micro-average of recallを使用
– 顧客毎に最大300個のレコメンドを生成
– 2015年に購買した商品の中で正しく予測された
割合のMicro averageを計算
モデルのカバレッジの確認
顧客ID 商品ID レコメンド成功 レコメンドスコア
User100147 Item98273 False 0.0
User100576 Item98273 True 1.531
User100576 Item23482 True 0.348
User100852 Item74227 False 0.0
性能の上界が
知りたい!
Copyright © NHN Techorus Corp. Page25
結果分析
商品
顧
客
既存 新規
既
存
新
規
総購買商品:66.15%
レコメンド
成功:39.74%
失敗:60.26%
総購買商品:5.61%
総購買商品:25.00% 総購買商品:3.24%
91.15% 8.85%
71.77%
28.23%
100.00%
既存顧客の購買商
品数の約7.82%
既存商品だけで
は、成功率約
40%
商品よりは顧客の
増加が早い
Copyright © NHN Techorus Corp. Page26
現実的なシナリオ:
直近1日の予測
質問#3
Copyright © NHN Techorus Corp. Page27
学習データ量の影響
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0 20 40 60 80 100 120 140
Micro-averageRecall
直近n日分
140日分を学習データとし
て使用しTop 50の商品を
レコメンドする場合
→カバレッジは約10%
Copyright © NHN Techorus Corp. Page28
今後の計画
1. 新規顧客・商品への対処
2. 顧客・商品属性の活用
3. オンライン学習を利用したリアルタイムレコメンド
モデル更新
Copyright © NHN Techorus Corp. Page29
Hadoop トライアルサービスについて
NHN Techorusは、Hadoop/Sparkを
とりあえず使ってみたいお客様を
強力に支援いたします。
Copyright © NHN Techorus Corp. Page30
Hadoop トライアルサービスとは
お客様の
メリット
ご提供
要件
・当社のデータセンターを利用したHadoopホスティング環境を体感して頂くために、
Hortonworksが提供するHDP(Hortonworks Data Platform)を30日間無料で
利用できるトライアルサービスを提供します。
(今後、Vertica SQL on Hadoopをサービス提供予定です。)
はじめ
に
Spark等の利用ニーズが高まる中、導入前の不安を解消するサービスです。
最新Hadoop環境
をすぐ利用可!
トライアル後、本番
環境へ移行可!
・トライアル環境:1ヶ月
・ネットワーク:インターネット回線
・システム構成:ハイスペックサーバ 9台構成
Copyright © NHN Techorus Corp. Page31
トライアルサービスご利用に関して
超過後の
運用
・申請書
申請書を記載いただきます。IPアドレス、利用約款等の記載があります。
・ご用意するサーバ数
トライアルでご利用頂くサーバを9台用意させて頂きます。
・サーバの再セットアップ費用については、別途ご相談させて下さい。
・100Mbpsを超えるトラフィックについては、ご相談させて下さい。
・運用・監視ついては、弊社フルマネージドホスティングサービスを適用します。
A社トアイアル環境申請書受領
10月
クリーニング作業
11月 12月
効果測定結果を受け採用の場合は
新環境へデータを移行
注文書受領後、10営業日で移行想定
【課金スケジュール例】
B社トライアル環境
A社本番環境
ご利用に
関して
・30日試使用期間超過後、自動的に課金が発生する方式ではありません。
ソフトは期限付きのため停止しますが、試使用インフラ環境は残ります。
Copyright © NHN Techorus Corp. Page32
トライアルの環境インフラ環境について
・試使用期間(30日間)を超えそうな場合は、ご連絡をお願いします。
トライアルの
インフラ環境
・エンドユーザ様より注文書受領後、10営業日でご利用できます。(ベストエフォート
では、5営業日)個別にご用意させて頂きます。
・別途メモリー追加、CPU追加、HDD追加もご対応させて頂きます。
トライアル環境のシステム構成
サーバタイプ OS サーバモデル CPU CPU_Clock CPU(EA) MEM MEM(EA) HDDType HDD RAID
作業用Client CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 8 SAS(15K) 300GB*8 RAID5(OS)
作業用Client CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 8 SAS(15K) 300GB*8 RAID5(OS)
管理用Client CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 1 8192 4 SAS(15K) 300GB*3 RAID1(OS)+Backup
Hadoop管理系サーバ CentOS64Bit HPDL360G7 L5630(4Core) 2.13GHz 2 4096 6 SAS(10K) 300GB*3 RAID1(OS)+Backup
Hadoop管理系サーバ CentOS64Bit HPDL360G7 L5630(4Core) 2.13GHz 2 4096 6 SAS(10K) 300GB*3 RAID1(OS)+Backup
Hadoop管理系サーバ CentOS64Bit HPDL360G7 L5630(4Core) 2.13GHz 2 4096 6 SAS(10K) 300GB*3 RAID1(OS)+Backup
HadoopWorkerサーバ CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 16 SAS(15K)
300GB*2
300GB*6
RAID1(OS)
NoRAID(Data)
HadoopWorkerサーバ CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 16 SAS(15K)
300GB*2
300GB*6
RAID1(OS)
NoRAID(Data)
HadoopWorkerサーバ CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 16 SAS(15K)
300GB*2
300GB*6
RAID1(OS)
NoRAID(Data)
Copyright © NHN Techorus Corp. Page33
システム構成図
Hadoop 管理用サーバ 3台
YARN(RM),
HDFS(NN)HA
Zookeeper
管理用Client 1台
Other master
components
Ambari-
server
MySQL
(Master-slave)
作業用Client 2台
基本
MySQL
(Master-slave)
Ranger
Hadoop workersサーバ 3台
YARN: NodeManagers
HDFS: DataNodes
ハードウェア
ソフトウェア
Copyright © NHN Techorus Corp. Page34
トライアル~本番までのスケジュール
トライアル
申込提出
申込内容
の
確認
1営業日
トライアル環境
が空いてれば
トライアル
貸し出し
本番環境
提供開始
ポイント
・導入前に、無償トライアルで、ご利用頂き、導入決定前にビジネスの価値を証明。
成果を実感、ご納得頂いてから本番の導入が可能になります。
・お手元にあるトライアル申込書に、もれなくご記入をお願いします。
1ヶ月
10日以内に
トライアル環境の提供
Copyright © NHN Techorus Corp. Page35
本日はトライアルのデモ環境を会場にご用意しております。
管理ツール Ambari
データ分析ツール Zeppelin
Copyright © NHN Techorus Corp. Page36
質疑応答
• ご静聴ありがとうございました。

More Related Content

Similar to Hadoop x spark x 機械学習を利用した実践的活用術 最新

Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」
Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」
Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」kashiwanoha-iot
 
【schoo WEB-campus】どうすれば小さなチームでも大きな成果を出せるのか
【schoo WEB-campus】どうすれば小さなチームでも大きな成果を出せるのか【schoo WEB-campus】どうすれば小さなチームでも大きな成果を出せるのか
【schoo WEB-campus】どうすれば小さなチームでも大きな成果を出せるのかschoowebcampus
 
CMS学会 第三回 研究報告
CMS学会 第三回 研究報告CMS学会 第三回 研究報告
CMS学会 第三回 研究報告loftwork
 
PagerDuty会社概要・インシデント管理ソリューション紹介資料 〜インシデントをより早く・少ないリソースで解決し、 将来のインシデントを未然に防ぐには〜
PagerDuty会社概要・インシデント管理ソリューション紹介資料 〜インシデントをより早く・少ないリソースで解決し、 将来のインシデントを未然に防ぐには〜PagerDuty会社概要・インシデント管理ソリューション紹介資料 〜インシデントをより早く・少ないリソースで解決し、 将来のインシデントを未然に防ぐには〜
PagerDuty会社概要・インシデント管理ソリューション紹介資料 〜インシデントをより早く・少ないリソースで解決し、 将来のインシデントを未然に防ぐには〜kusami
 
SFA運用の秘訣と定着化のコツセミナー資料
SFA運用の秘訣と定着化のコツセミナー資料SFA運用の秘訣と定着化のコツセミナー資料
SFA運用の秘訣と定着化のコツセミナー資料NetyearGroup
 
【最小限の学習コスト】効率的なビッグデータ収集・連携とは?
【最小限の学習コスト】効率的なビッグデータ収集・連携とは?【最小限の学習コスト】効率的なビッグデータ収集・連携とは?
【最小限の学習コスト】効率的なビッグデータ収集・連携とは?株式会社クライム
 
「あの企業は実際どうやってるの?」顧客実例で語るデータ・ドリブンの実像とは (Oracle Cloudウェビナーシリーズ: 2021年9月1日)
「あの企業は実際どうやってるの?」顧客実例で語るデータ・ドリブンの実像とは (Oracle Cloudウェビナーシリーズ: 2021年9月1日)「あの企業は実際どうやってるの?」顧客実例で語るデータ・ドリブンの実像とは (Oracle Cloudウェビナーシリーズ: 2021年9月1日)
「あの企業は実際どうやってるの?」顧客実例で語るデータ・ドリブンの実像とは (Oracle Cloudウェビナーシリーズ: 2021年9月1日)オラクルエンジニア通信
 
どうすれば小さなチームでも大きな成果を出せるのか
どうすれば小さなチームでも大きな成果を出せるのかどうすれば小さなチームでも大きな成果を出せるのか
どうすれば小さなチームでも大きな成果を出せるのかYoshihito Kuranuki
 
グローバルマネタイズ戦略【Metaps(メタップス) pte ltd.】 「グロバール×スマホゲーム」の勝ち方セミナー資料
グローバルマネタイズ戦略【Metaps(メタップス) pte ltd.】   「グロバール×スマホゲーム」の勝ち方セミナー資料グローバルマネタイズ戦略【Metaps(メタップス) pte ltd.】   「グロバール×スマホゲーム」の勝ち方セミナー資料
グローバルマネタイズ戦略【Metaps(メタップス) pte ltd.】 「グロバール×スマホゲーム」の勝ち方セミナー資料Katsuaki Sato
 
Business innovation presentation_v1.0
Business innovation presentation_v1.0Business innovation presentation_v1.0
Business innovation presentation_v1.0Tetsuya Haneishi
 
「アプリ向けのグロースハック最前線」登壇資料
「アプリ向けのグロースハック最前線」登壇資料「アプリ向けのグロースハック最前線」登壇資料
「アプリ向けのグロースハック最前線」登壇資料growthhackstudio
 
10 Steps to Product Market Fit - Japanese Translation
10 Steps to Product Market Fit - Japanese Translation10 Steps to Product Market Fit - Japanese Translation
10 Steps to Product Market Fit - Japanese TranslationMomoko Nagaoka
 
0630seminer renown_ver3
 0630seminer renown_ver3 0630seminer renown_ver3
0630seminer renown_ver3loftwork
 
「納品のない受託開発」にみるソフトウェア受託開発の未来
「納品のない受託開発」にみるソフトウェア受託開発の未来「納品のない受託開発」にみるソフトウェア受託開発の未来
「納品のない受託開発」にみるソフトウェア受託開発の未来Yoshihito Kuranuki
 
Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]Shigeru Kishikawa
 
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤Amazon Web Services Japan
 
【サンプル】競合サイト調査の報告資料
【サンプル】競合サイト調査の報告資料【サンプル】競合サイト調査の報告資料
【サンプル】競合サイト調査の報告資料Chiaki Matsumoto
 
「納品のない受託開発」にみるソフトウェア受託開発の未来
「納品のない受託開発」にみるソフトウェア受託開発の未来「納品のない受託開発」にみるソフトウェア受託開発の未来
「納品のない受託開発」にみるソフトウェア受託開発の未来Yoshihito Kuranuki
 
Eric Ries at Startup Lessons Learned sllconf 2011 - Japanese Translation
Eric Ries at Startup Lessons Learned sllconf 2011 - Japanese TranslationEric Ries at Startup Lessons Learned sllconf 2011 - Japanese Translation
Eric Ries at Startup Lessons Learned sllconf 2011 - Japanese TranslationKenji Hiranabe
 
2016 #meijisap - 明治大学理工学部情報科学科 情報システム論1講義「デジタルによるビジネスモデルの変革」
2016 #meijisap - 明治大学理工学部情報科学科 情報システム論1講義「デジタルによるビジネスモデルの変革」2016 #meijisap - 明治大学理工学部情報科学科 情報システム論1講義「デジタルによるビジネスモデルの変革」
2016 #meijisap - 明治大学理工学部情報科学科 情報システム論1講義「デジタルによるビジネスモデルの変革」Masahiro Furusawa
 

Similar to Hadoop x spark x 機械学習を利用した実践的活用術 最新 (20)

Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」
Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」
Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」
 
【schoo WEB-campus】どうすれば小さなチームでも大きな成果を出せるのか
【schoo WEB-campus】どうすれば小さなチームでも大きな成果を出せるのか【schoo WEB-campus】どうすれば小さなチームでも大きな成果を出せるのか
【schoo WEB-campus】どうすれば小さなチームでも大きな成果を出せるのか
 
CMS学会 第三回 研究報告
CMS学会 第三回 研究報告CMS学会 第三回 研究報告
CMS学会 第三回 研究報告
 
PagerDuty会社概要・インシデント管理ソリューション紹介資料 〜インシデントをより早く・少ないリソースで解決し、 将来のインシデントを未然に防ぐには〜
PagerDuty会社概要・インシデント管理ソリューション紹介資料 〜インシデントをより早く・少ないリソースで解決し、 将来のインシデントを未然に防ぐには〜PagerDuty会社概要・インシデント管理ソリューション紹介資料 〜インシデントをより早く・少ないリソースで解決し、 将来のインシデントを未然に防ぐには〜
PagerDuty会社概要・インシデント管理ソリューション紹介資料 〜インシデントをより早く・少ないリソースで解決し、 将来のインシデントを未然に防ぐには〜
 
SFA運用の秘訣と定着化のコツセミナー資料
SFA運用の秘訣と定着化のコツセミナー資料SFA運用の秘訣と定着化のコツセミナー資料
SFA運用の秘訣と定着化のコツセミナー資料
 
【最小限の学習コスト】効率的なビッグデータ収集・連携とは?
【最小限の学習コスト】効率的なビッグデータ収集・連携とは?【最小限の学習コスト】効率的なビッグデータ収集・連携とは?
【最小限の学習コスト】効率的なビッグデータ収集・連携とは?
 
「あの企業は実際どうやってるの?」顧客実例で語るデータ・ドリブンの実像とは (Oracle Cloudウェビナーシリーズ: 2021年9月1日)
「あの企業は実際どうやってるの?」顧客実例で語るデータ・ドリブンの実像とは (Oracle Cloudウェビナーシリーズ: 2021年9月1日)「あの企業は実際どうやってるの?」顧客実例で語るデータ・ドリブンの実像とは (Oracle Cloudウェビナーシリーズ: 2021年9月1日)
「あの企業は実際どうやってるの?」顧客実例で語るデータ・ドリブンの実像とは (Oracle Cloudウェビナーシリーズ: 2021年9月1日)
 
どうすれば小さなチームでも大きな成果を出せるのか
どうすれば小さなチームでも大きな成果を出せるのかどうすれば小さなチームでも大きな成果を出せるのか
どうすれば小さなチームでも大きな成果を出せるのか
 
グローバルマネタイズ戦略【Metaps(メタップス) pte ltd.】 「グロバール×スマホゲーム」の勝ち方セミナー資料
グローバルマネタイズ戦略【Metaps(メタップス) pte ltd.】   「グロバール×スマホゲーム」の勝ち方セミナー資料グローバルマネタイズ戦略【Metaps(メタップス) pte ltd.】   「グロバール×スマホゲーム」の勝ち方セミナー資料
グローバルマネタイズ戦略【Metaps(メタップス) pte ltd.】 「グロバール×スマホゲーム」の勝ち方セミナー資料
 
Business innovation presentation_v1.0
Business innovation presentation_v1.0Business innovation presentation_v1.0
Business innovation presentation_v1.0
 
「アプリ向けのグロースハック最前線」登壇資料
「アプリ向けのグロースハック最前線」登壇資料「アプリ向けのグロースハック最前線」登壇資料
「アプリ向けのグロースハック最前線」登壇資料
 
10 Steps to Product Market Fit - Japanese Translation
10 Steps to Product Market Fit - Japanese Translation10 Steps to Product Market Fit - Japanese Translation
10 Steps to Product Market Fit - Japanese Translation
 
0630seminer renown_ver3
 0630seminer renown_ver3 0630seminer renown_ver3
0630seminer renown_ver3
 
「納品のない受託開発」にみるソフトウェア受託開発の未来
「納品のない受託開発」にみるソフトウェア受託開発の未来「納品のない受託開発」にみるソフトウェア受託開発の未来
「納品のない受託開発」にみるソフトウェア受託開発の未来
 
Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]
 
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
 
【サンプル】競合サイト調査の報告資料
【サンプル】競合サイト調査の報告資料【サンプル】競合サイト調査の報告資料
【サンプル】競合サイト調査の報告資料
 
「納品のない受託開発」にみるソフトウェア受託開発の未来
「納品のない受託開発」にみるソフトウェア受託開発の未来「納品のない受託開発」にみるソフトウェア受託開発の未来
「納品のない受託開発」にみるソフトウェア受託開発の未来
 
Eric Ries at Startup Lessons Learned sllconf 2011 - Japanese Translation
Eric Ries at Startup Lessons Learned sllconf 2011 - Japanese TranslationEric Ries at Startup Lessons Learned sllconf 2011 - Japanese Translation
Eric Ries at Startup Lessons Learned sllconf 2011 - Japanese Translation
 
2016 #meijisap - 明治大学理工学部情報科学科 情報システム論1講義「デジタルによるビジネスモデルの変革」
2016 #meijisap - 明治大学理工学部情報科学科 情報システム論1講義「デジタルによるビジネスモデルの変革」2016 #meijisap - 明治大学理工学部情報科学科 情報システム論1講義「デジタルによるビジネスモデルの変革」
2016 #meijisap - 明治大学理工学部情報科学科 情報システム論1講義「デジタルによるビジネスモデルの変革」
 

More from NHN テコラス株式会社

Intel® Optane™で格安超高速インメモリーデータベースを作った時の話
Intel® Optane™で格安超高速インメモリーデータベースを作った時の話Intel® Optane™で格安超高速インメモリーデータベースを作った時の話
Intel® Optane™で格安超高速インメモリーデータベースを作った時の話NHN テコラス株式会社
 
「落ちない」AWSのインフラ構成、システム要件にあわせたパターンをご紹介
「落ちない」AWSのインフラ構成、システム要件にあわせたパターンをご紹介「落ちない」AWSのインフラ構成、システム要件にあわせたパターンをご紹介
「落ちない」AWSのインフラ構成、システム要件にあわせたパターンをご紹介NHN テコラス株式会社
 
[JAWS DAYS 2019 /Open Mic]AWSの運用最適化のためにNHN テコラスが提案していること
[JAWS DAYS 2019 /Open Mic]AWSの運用最適化のためにNHN テコラスが提案していること[JAWS DAYS 2019 /Open Mic]AWSの運用最適化のためにNHN テコラスが提案していること
[JAWS DAYS 2019 /Open Mic]AWSの運用最適化のためにNHN テコラスが提案していることNHN テコラス株式会社
 
クラウドは、テクノロジーは、営業の敵なのか?味方なのか?? #jft2018
クラウドは、テクノロジーは、営業の敵なのか?味方なのか?? #jft2018クラウドは、テクノロジーは、営業の敵なのか?味方なのか?? #jft2018
クラウドは、テクノロジーは、営業の敵なのか?味方なのか?? #jft2018NHN テコラス株式会社
 
インフラ運用の観点から考えるAWS~運用における利点と移行のポイント~
インフラ運用の観点から考えるAWS~運用における利点と移行のポイント~インフラ運用の観点から考えるAWS~運用における利点と移行のポイント~
インフラ運用の観点から考えるAWS~運用における利点と移行のポイント~NHN テコラス株式会社
 
お手軽・安全・安心のサーバー環境を手に入れましょう。@大阪
お手軽・安全・安心のサーバー環境を手に入れましょう。@大阪お手軽・安全・安心のサーバー環境を手に入れましょう。@大阪
お手軽・安全・安心のサーバー環境を手に入れましょう。@大阪NHN テコラス株式会社
 
働き方改革を加速させるリモートワークソリューション ~Office 365 + XenAppで実現する安心安全なリモートワーク環境の構築~
働き方改革を加速させるリモートワークソリューション ~Office 365 + XenAppで実現する安心安全なリモートワーク環境の構築~働き方改革を加速させるリモートワークソリューション ~Office 365 + XenAppで実現する安心安全なリモートワーク環境の構築~
働き方改革を加速させるリモートワークソリューション ~Office 365 + XenAppで実現する安心安全なリモートワーク環境の構築~NHN テコラス株式会社
 
NW-JAWS 勉強会#2 [LT] あの日したLTの内容を僕らはもう覚えていない
NW-JAWS 勉強会#2 [LT] あの日したLTの内容を僕らはもう覚えていないNW-JAWS 勉強会#2 [LT] あの日したLTの内容を僕らはもう覚えていない
NW-JAWS 勉強会#2 [LT] あの日したLTの内容を僕らはもう覚えていないNHN テコラス株式会社
 
「情報セキュリティ10大脅威2017」 から読み取る最新セキュリティ傾向とその対策
「情報セキュリティ10大脅威2017」 から読み取る最新セキュリティ傾向とその対策 「情報セキュリティ10大脅威2017」 から読み取る最新セキュリティ傾向とその対策
「情報セキュリティ10大脅威2017」 から読み取る最新セキュリティ傾向とその対策 NHN テコラス株式会社
 
2017年のセキュリティ 傾向と対策講座
2017年のセキュリティ 傾向と対策講座2017年のセキュリティ 傾向と対策講座
2017年のセキュリティ 傾向と対策講座NHN テコラス株式会社
 
NW-JAWS 勉強会#1 [LT] 閉域閉域もう飽きたよ
NW-JAWS 勉強会#1 [LT] 閉域閉域もう飽きたよNW-JAWS 勉強会#1 [LT] 閉域閉域もう飽きたよ
NW-JAWS 勉強会#1 [LT] 閉域閉域もう飽きたよNHN テコラス株式会社
 
『サイバーセキュリティ経営ガイドライン』開発現場への影響の話
『サイバーセキュリティ経営ガイドライン』開発現場への影響の話『サイバーセキュリティ経営ガイドライン』開発現場への影響の話
『サイバーセキュリティ経営ガイドライン』開発現場への影響の話NHN テコラス株式会社
 
新卒自称IoT女子が社内でIT農業をやろうとがんばっています
新卒自称IoT女子が社内でIT農業をやろうとがんばっています新卒自称IoT女子が社内でIT農業をやろうとがんばっています
新卒自称IoT女子が社内でIT農業をやろうとがんばっていますNHN テコラス株式会社
 
ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み
ITインフラ・マネージド事業領域におけるデータサイエンスの取り組みITインフラ・マネージド事業領域におけるデータサイエンスの取り組み
ITインフラ・マネージド事業領域におけるデータサイエンスの取り組みNHN テコラス株式会社
 
できることから始めるセキュリティ対策
できることから始めるセキュリティ対策できることから始めるセキュリティ対策
できることから始めるセキュリティ対策NHN テコラス株式会社
 
アカウントハッキングと戦う!モバイルゲームに今、求められるセキュリティ
アカウントハッキングと戦う!モバイルゲームに今、求められるセキュリティアカウントハッキングと戦う!モバイルゲームに今、求められるセキュリティ
アカウントハッキングと戦う!モバイルゲームに今、求められるセキュリティNHN テコラス株式会社
 

More from NHN テコラス株式会社 (20)

Intel® Optane™で格安超高速インメモリーデータベースを作った時の話
Intel® Optane™で格安超高速インメモリーデータベースを作った時の話Intel® Optane™で格安超高速インメモリーデータベースを作った時の話
Intel® Optane™で格安超高速インメモリーデータベースを作った時の話
 
「落ちない」AWSのインフラ構成、システム要件にあわせたパターンをご紹介
「落ちない」AWSのインフラ構成、システム要件にあわせたパターンをご紹介「落ちない」AWSのインフラ構成、システム要件にあわせたパターンをご紹介
「落ちない」AWSのインフラ構成、システム要件にあわせたパターンをご紹介
 
[JAWS DAYS 2019 /Open Mic]AWSの運用最適化のためにNHN テコラスが提案していること
[JAWS DAYS 2019 /Open Mic]AWSの運用最適化のためにNHN テコラスが提案していること[JAWS DAYS 2019 /Open Mic]AWSの運用最適化のためにNHN テコラスが提案していること
[JAWS DAYS 2019 /Open Mic]AWSの運用最適化のためにNHN テコラスが提案していること
 
クラウドは、テクノロジーは、営業の敵なのか?味方なのか?? #jft2018
クラウドは、テクノロジーは、営業の敵なのか?味方なのか?? #jft2018クラウドは、テクノロジーは、営業の敵なのか?味方なのか?? #jft2018
クラウドは、テクノロジーは、営業の敵なのか?味方なのか?? #jft2018
 
インターホンと中国語の部屋
インターホンと中国語の部屋インターホンと中国語の部屋
インターホンと中国語の部屋
 
インフラ運用の観点から考えるAWS~運用における利点と移行のポイント~
インフラ運用の観点から考えるAWS~運用における利点と移行のポイント~インフラ運用の観点から考えるAWS~運用における利点と移行のポイント~
インフラ運用の観点から考えるAWS~運用における利点と移行のポイント~
 
Msセミナー20170830 slideshare
Msセミナー20170830 slideshareMsセミナー20170830 slideshare
Msセミナー20170830 slideshare
 
お手軽・安全・安心のサーバー環境を手に入れましょう。@大阪
お手軽・安全・安心のサーバー環境を手に入れましょう。@大阪お手軽・安全・安心のサーバー環境を手に入れましょう。@大阪
お手軽・安全・安心のサーバー環境を手に入れましょう。@大阪
 
働き方改革を加速させるリモートワークソリューション ~Office 365 + XenAppで実現する安心安全なリモートワーク環境の構築~
働き方改革を加速させるリモートワークソリューション ~Office 365 + XenAppで実現する安心安全なリモートワーク環境の構築~働き方改革を加速させるリモートワークソリューション ~Office 365 + XenAppで実現する安心安全なリモートワーク環境の構築~
働き方改革を加速させるリモートワークソリューション ~Office 365 + XenAppで実現する安心安全なリモートワーク環境の構築~
 
NW-JAWS 勉強会#2 [LT] あの日したLTの内容を僕らはもう覚えていない
NW-JAWS 勉強会#2 [LT] あの日したLTの内容を僕らはもう覚えていないNW-JAWS 勉強会#2 [LT] あの日したLTの内容を僕らはもう覚えていない
NW-JAWS 勉強会#2 [LT] あの日したLTの内容を僕らはもう覚えていない
 
「情報セキュリティ10大脅威2017」 から読み取る最新セキュリティ傾向とその対策
「情報セキュリティ10大脅威2017」 から読み取る最新セキュリティ傾向とその対策 「情報セキュリティ10大脅威2017」 から読み取る最新セキュリティ傾向とその対策
「情報セキュリティ10大脅威2017」 から読み取る最新セキュリティ傾向とその対策
 
Microsoft Office 365への移行について
Microsoft Office 365への移行についてMicrosoft Office 365への移行について
Microsoft Office 365への移行について
 
2017年のセキュリティ 傾向と対策講座
2017年のセキュリティ 傾向と対策講座2017年のセキュリティ 傾向と対策講座
2017年のセキュリティ 傾向と対策講座
 
NW-JAWS 勉強会#1 [LT] 閉域閉域もう飽きたよ
NW-JAWS 勉強会#1 [LT] 閉域閉域もう飽きたよNW-JAWS 勉強会#1 [LT] 閉域閉域もう飽きたよ
NW-JAWS 勉強会#1 [LT] 閉域閉域もう飽きたよ
 
『サイバーセキュリティ経営ガイドライン』開発現場への影響の話
『サイバーセキュリティ経営ガイドライン』開発現場への影響の話『サイバーセキュリティ経営ガイドライン』開発現場への影響の話
『サイバーセキュリティ経営ガイドライン』開発現場への影響の話
 
Sos jobschedulerを使った運用管理事例
Sos jobschedulerを使った運用管理事例Sos jobschedulerを使った運用管理事例
Sos jobschedulerを使った運用管理事例
 
新卒自称IoT女子が社内でIT農業をやろうとがんばっています
新卒自称IoT女子が社内でIT農業をやろうとがんばっています新卒自称IoT女子が社内でIT農業をやろうとがんばっています
新卒自称IoT女子が社内でIT農業をやろうとがんばっています
 
ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み
ITインフラ・マネージド事業領域におけるデータサイエンスの取り組みITインフラ・マネージド事業領域におけるデータサイエンスの取り組み
ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み
 
できることから始めるセキュリティ対策
できることから始めるセキュリティ対策できることから始めるセキュリティ対策
できることから始めるセキュリティ対策
 
アカウントハッキングと戦う!モバイルゲームに今、求められるセキュリティ
アカウントハッキングと戦う!モバイルゲームに今、求められるセキュリティアカウントハッキングと戦う!モバイルゲームに今、求められるセキュリティ
アカウントハッキングと戦う!モバイルゲームに今、求められるセキュリティ
 

Hadoop x spark x 機械学習を利用した実践的活用術 最新

  • 1. Copyright © NHN Techorus Corp. Page1 2016/10/24 NHNテコラス株式会社 データ研究室 佐藤 哲 趙 漢哲/坂井 俊之 小山 智久 Hadoop × Spark × 機械学習を利用した実践的活用術
  • 2. Copyright © NHN Techorus Corp. Page2
  • 3. Copyright © NHN Techorus Corp. Page3
  • 4. Copyright © NHN Techorus Corp. Page4
  • 5. Copyright © NHN Techorus Corp. Page5
  • 6. Copyright © NHN Techorus Corp. Page6
  • 7. Copyright © NHN Techorus Corp. Page7 自社モールの売上アップに繋がる レコメンダー開発記
  • 8. Copyright © NHN Techorus Corp. Page8 中小企業のeコマースの現在 “一元管理による複数店舗展開 が当たり前になってきた”
  • 9. Copyright © NHN Techorus Corp. Page9 中小企業のeコマースの現在 “しかし、費用を考えるとできるだけ 自社モールの販売を伸ばしたい”
  • 10. Copyright © NHN Techorus Corp. Page10 どうすれば顧客を 自社モールへ導けるのか? • 考える点 – 既存顧客の離脱防止 – 他モールから自社モールへ誘導 – 新規顧客の誘致 – などなど
  • 11. Copyright © NHN Techorus Corp. Page11 どうすれば顧客を 自社モールへ導けるのか? • 考える点 – 既存顧客の離脱防止 – 他モールから自社モールへ誘導 – 新規顧客の誘致 – などなど 顧客が購入したいと思う商品を いい条件で提供する
  • 12. Copyright © NHN Techorus Corp. Page12 どうすれば顧客を 自社モールへ導けるのか? 顧客が購入したいと思う商品を いい条件で提供する レコメンダーを導入しよう! • 考える点 – 既存顧客の離脱防止 – 他モールから自社モールへ誘導 – 新規顧客の誘致 – などなど
  • 13. Copyright © NHN Techorus Corp. Page13 レコメンダーはどう動くのか?
  • 14. Copyright © NHN Techorus Corp. Page14 レコメンダー概念図 共通フォマットデータ 会社A 自社モール 会社A 他モール 協調フィルタリング用データの例 DateTime User Item 2016/03/07 21:03:11 user1342 item1 2016/03/07 21:04:34 user2298 item14 学習データ オンライン テストデータ デ ー タ 取 得 複数モールから データを収集
  • 15. Copyright © NHN Techorus Corp. Page15 学習機 レコメンダー概念図 レ コ メ ン ダ ー 学 習 学習・評価データ分離 学習データ 評価データ モデルパラメター 集合 Regularization LearningRate Etc. 学習 評価 モデル レコメンド 結果 学習データ 最適モデル モデル モデル 再学習 最適 パラメター
  • 16. Copyright © NHN Techorus Corp. Page16 レコメンダー概念図 オ ン ラ イ ン 評 価 利用モデル選択 オンライン テストデータ 最適モデル レコメンドモデル永久保存空間 その他 会社A-002 会社A-001 評価機 モデル評価 結果比較 オペレーター
  • 17. Copyright © NHN Techorus Corp. Page17 レコメンダー概念図 レ コ メ ン ド 提 供 レコメンド生成機 新規顧客用 既存顧客 トップページ用 既存顧客 商品ページ用 … レコメンドモデル永久保存空間 その他 会社A-002 会社A-001
  • 18. Copyright © NHN Techorus Corp. Page18 実証実験と新しい発見
  • 19. Copyright © NHN Techorus Corp. Page19 協調フィルタリングを利用した 実証実験の概念図 2012 2013 2014 2015 レコメンド モデル 購買履歴 WEB観覧 履歴 商品の 類似性 1)過去のデータを収集 2)レコメンドモデル の学習 3)購買可能性が高い 商品をレコメンド 商品 2016 A社さまのご 協力でデータ を利用させて いただきました。
  • 20. Copyright © NHN Techorus Corp. Page20 データの特性は? 質問#1
  • 21. Copyright © NHN Techorus Corp. Page21 新規顧客・商品の増加 0 1 2 3 4 5 6 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2006年対比倍率 新規顧客数増加率 新規商品数増加率 新規商品より新規顧客 の増加が目立つ
  • 22. Copyright © NHN Techorus Corp. Page22 受注件数の増加(商品単位) 0 2 4 6 8 10 12 14 16 18 20 2013-01 2013-03 2013-05 2013-07 2013-09 2013-11 2014-01 2014-03 2014-05 2014-07 2014-09 2014-11 2015-01 2015-03 2015-05 2015-07 2015-09 2015-11 2016-01 2016-03 2016-05 受注件数 万 消費税増加前 の買占め
  • 23. Copyright © NHN Techorus Corp. Page23 協調フィルタリングの 有効性は? 質問#2
  • 24. Copyright © NHN Techorus Corp. Page24 • Micro-average of recallを使用 – 顧客毎に最大300個のレコメンドを生成 – 2015年に購買した商品の中で正しく予測された 割合のMicro averageを計算 モデルのカバレッジの確認 顧客ID 商品ID レコメンド成功 レコメンドスコア User100147 Item98273 False 0.0 User100576 Item98273 True 1.531 User100576 Item23482 True 0.348 User100852 Item74227 False 0.0 性能の上界が 知りたい!
  • 25. Copyright © NHN Techorus Corp. Page25 結果分析 商品 顧 客 既存 新規 既 存 新 規 総購買商品:66.15% レコメンド 成功:39.74% 失敗:60.26% 総購買商品:5.61% 総購買商品:25.00% 総購買商品:3.24% 91.15% 8.85% 71.77% 28.23% 100.00% 既存顧客の購買商 品数の約7.82% 既存商品だけで は、成功率約 40% 商品よりは顧客の 増加が早い
  • 26. Copyright © NHN Techorus Corp. Page26 現実的なシナリオ: 直近1日の予測 質問#3
  • 27. Copyright © NHN Techorus Corp. Page27 学習データ量の影響 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0 20 40 60 80 100 120 140 Micro-averageRecall 直近n日分 140日分を学習データとし て使用しTop 50の商品を レコメンドする場合 →カバレッジは約10%
  • 28. Copyright © NHN Techorus Corp. Page28 今後の計画 1. 新規顧客・商品への対処 2. 顧客・商品属性の活用 3. オンライン学習を利用したリアルタイムレコメンド モデル更新
  • 29. Copyright © NHN Techorus Corp. Page29 Hadoop トライアルサービスについて NHN Techorusは、Hadoop/Sparkを とりあえず使ってみたいお客様を 強力に支援いたします。
  • 30. Copyright © NHN Techorus Corp. Page30 Hadoop トライアルサービスとは お客様の メリット ご提供 要件 ・当社のデータセンターを利用したHadoopホスティング環境を体感して頂くために、 Hortonworksが提供するHDP(Hortonworks Data Platform)を30日間無料で 利用できるトライアルサービスを提供します。 (今後、Vertica SQL on Hadoopをサービス提供予定です。) はじめ に Spark等の利用ニーズが高まる中、導入前の不安を解消するサービスです。 最新Hadoop環境 をすぐ利用可! トライアル後、本番 環境へ移行可! ・トライアル環境:1ヶ月 ・ネットワーク:インターネット回線 ・システム構成:ハイスペックサーバ 9台構成
  • 31. Copyright © NHN Techorus Corp. Page31 トライアルサービスご利用に関して 超過後の 運用 ・申請書 申請書を記載いただきます。IPアドレス、利用約款等の記載があります。 ・ご用意するサーバ数 トライアルでご利用頂くサーバを9台用意させて頂きます。 ・サーバの再セットアップ費用については、別途ご相談させて下さい。 ・100Mbpsを超えるトラフィックについては、ご相談させて下さい。 ・運用・監視ついては、弊社フルマネージドホスティングサービスを適用します。 A社トアイアル環境申請書受領 10月 クリーニング作業 11月 12月 効果測定結果を受け採用の場合は 新環境へデータを移行 注文書受領後、10営業日で移行想定 【課金スケジュール例】 B社トライアル環境 A社本番環境 ご利用に 関して ・30日試使用期間超過後、自動的に課金が発生する方式ではありません。 ソフトは期限付きのため停止しますが、試使用インフラ環境は残ります。
  • 32. Copyright © NHN Techorus Corp. Page32 トライアルの環境インフラ環境について ・試使用期間(30日間)を超えそうな場合は、ご連絡をお願いします。 トライアルの インフラ環境 ・エンドユーザ様より注文書受領後、10営業日でご利用できます。(ベストエフォート では、5営業日)個別にご用意させて頂きます。 ・別途メモリー追加、CPU追加、HDD追加もご対応させて頂きます。 トライアル環境のシステム構成 サーバタイプ OS サーバモデル CPU CPU_Clock CPU(EA) MEM MEM(EA) HDDType HDD RAID 作業用Client CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 8 SAS(15K) 300GB*8 RAID5(OS) 作業用Client CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 8 SAS(15K) 300GB*8 RAID5(OS) 管理用Client CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 1 8192 4 SAS(15K) 300GB*3 RAID1(OS)+Backup Hadoop管理系サーバ CentOS64Bit HPDL360G7 L5630(4Core) 2.13GHz 2 4096 6 SAS(10K) 300GB*3 RAID1(OS)+Backup Hadoop管理系サーバ CentOS64Bit HPDL360G7 L5630(4Core) 2.13GHz 2 4096 6 SAS(10K) 300GB*3 RAID1(OS)+Backup Hadoop管理系サーバ CentOS64Bit HPDL360G7 L5630(4Core) 2.13GHz 2 4096 6 SAS(10K) 300GB*3 RAID1(OS)+Backup HadoopWorkerサーバ CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 16 SAS(15K) 300GB*2 300GB*6 RAID1(OS) NoRAID(Data) HadoopWorkerサーバ CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 16 SAS(15K) 300GB*2 300GB*6 RAID1(OS) NoRAID(Data) HadoopWorkerサーバ CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 16 SAS(15K) 300GB*2 300GB*6 RAID1(OS) NoRAID(Data)
  • 33. Copyright © NHN Techorus Corp. Page33 システム構成図 Hadoop 管理用サーバ 3台 YARN(RM), HDFS(NN)HA Zookeeper 管理用Client 1台 Other master components Ambari- server MySQL (Master-slave) 作業用Client 2台 基本 MySQL (Master-slave) Ranger Hadoop workersサーバ 3台 YARN: NodeManagers HDFS: DataNodes ハードウェア ソフトウェア
  • 34. Copyright © NHN Techorus Corp. Page34 トライアル~本番までのスケジュール トライアル 申込提出 申込内容 の 確認 1営業日 トライアル環境 が空いてれば トライアル 貸し出し 本番環境 提供開始 ポイント ・導入前に、無償トライアルで、ご利用頂き、導入決定前にビジネスの価値を証明。 成果を実感、ご納得頂いてから本番の導入が可能になります。 ・お手元にあるトライアル申込書に、もれなくご記入をお願いします。 1ヶ月 10日以内に トライアル環境の提供
  • 35. Copyright © NHN Techorus Corp. Page35 本日はトライアルのデモ環境を会場にご用意しております。 管理ツール Ambari データ分析ツール Zeppelin
  • 36. Copyright © NHN Techorus Corp. Page36 質疑応答 • ご静聴ありがとうございました。