SlideShare a Scribd company logo
1 of 36
Retty流
「2200万ユーザさんを支える機械学習基盤」
の作り方
Masato Taruishi
CTO@Retty
TFUG#3
Who am I?
■ Masato Taruishi
■ 学生時代
✓ Debian Project 公式開発者
✓ Debian-JP Project 理事会役員
■ Career
✓ Red Hat / VA Linux (Eng / Sales)
− OS / コンパイラ / ミドルウェア
✓ Google (SWE/SRE)
− アプリ・サーバサイド・インフラ・Corp
✓ Rakuten (Eng)
− Private Cloud
✓ Retty (CTO)
− なんでも屋
機械学習環境(アキバで買い物して自作!!)
Retty流『2200万ユーザを支える機械学習基盤』の作り方
http://qiita.com/taru0216/items/dda1f9f11397f811e98a
ネタのつもりで公開したら思ったより好評。
発表の機会をいただくことが出来ました
Agenda
■ Rety の紹介 (会社、サービス、データ)
■ Retty 機械学習基盤の紹介 (Docker 周り)
✓ 機械学習でやっている事の詳細は別の機
会、または次の氏原の発表で触れたいと
思います
Rettyの紹介(会社、サービス、データ)
Retty のビジョン
食を通じて世界中の人々をHAPPYに
Retty について
Retty株式会社
• 設立:2010年11月
• サービスリリース:2011年5月
• 社員:約80人 ※エンジニア約25名
Retty のサービス
「人から探せる」グルメサービスを運営
「リアルな友達」
「食に詳しく好みの合う人」
月間利用者数 2200 万人以上 (2016/5月)
「人から探す」をもっとわかりやすく
「この人のおすすめは自分に合っていそう」
というのが直感的にわかるユーザ体験
https://retty.me/top-users/
詳細はアプリで
Retty は飲食店に関する CGM (UGC) です
2011~2015 2016~
グルメ情報と
グルメユーザさん集め
投稿内容の分析・編集・公開と
グルメ TOPUSER さんの発掘
グルメ情報に関する信頼性等向上の取り組み
■ 信頼性
✓ 実名・顔写真公開による投稿
− 顔の見えるサービスという世界観を創る
✓ 投稿内容をリアルな友達・知人に見てもらう
− 責任ある投稿を促す
■ 権利関係
✓ 二次著作の許諾
− ユーザさん投稿の分析・編集・公開などを行う許
諾を受けている
ユーザさん・飲食店さん双方が Happy になる世界
■ みんながHappyになる Win-Win 関係
✓ オススメのお店を投稿するコンセプト (リコメンド)
− ≠評価 (レビュー)
✓ オススメ情報を適切なユーザさんに届けるマッチング
投稿ユーザさん 飲食店さん
ファン
ユーザさん
どなたの発言かがわかる
(*) 飲食店さんも含めた
Web of Trust (信頼の輪)
信頼
信頼
Retty のデータの種類と規模
様々な種類のデータを組み合わせて、
人をHappyにするサービス構築を目指しています!
自然
言語
画像
お店
人
口コミ300万件
1000万枚
全国80万店舗のお店情報
=> 2年で約50%が閉店するといわれている
=> 「ネットに情報はない」ためそれを作るノウハ
ウが大事
ユーザーさんの行動、数千億
ソーシャルグラフ
【Keywords】
Deep Learning
Word2Vec
LDA/LSI/TFIDF
SVM/LR/RandomForest
LP/ILP/0-1ILP/NLP
Recommendation
Automation
Data Visualization
Retty 機械学習マシンの紹介 (Docker 周りを中心に)
GPU付自作PCを全自動ネットインストールでセットアップ
使い方 (ssh してログインして使う)
どのマシンにログインしても同じデータがあります
nvidia-smi
ブラウザで開発もできます
アーキテクチャ全体像
Hardware - Akiba 1-x
OS
hdd
Distributed
storage
Container
Home
Container
Containers
Network
GPU
CPU,
devices
Configuration
Container
Qemu
KVM
Kubernetes (docker)
qemu on docker
根幹はRubuntu Server (Retty ubuntu) と Kubernetes
(Docker)
Hardware - Akiba 1-x
OS
hdd
Home
Container
GPU
CPU,
devices
Configuration
Kubernetes (docker)
開発者は Docker コンテナを使う
Hardware - Akiba 1-x
OS
hdd
Home
Container
GPU
CPU,
devices
Configuration
Kubernetes (docker)
手元のマシンでも動きます
docker run -it --rm --privileged retty2-runtime-dev
すべての Docker イメージはコア Docker から継承
retty2-runtime-core
retty2-runtime-cuda
retty2-runtime-anaconda
retty2-runtime-builder
retty2-runtime-dev retty2-tech-home
監視エージェント・ログ・証明書管理・
パッケージ監視(セキュリティ対策)など
retty2 開発環境 on retty2
cuda
anaconda / tensorflow / chainer /
mxnet / cabocha / mxnet / fasttext …..
shell / editors /
tmux / screen ….
ssh / samba ...
docker build は configure && make -j で
http proxy cache ローカル対応で docker build が超高速
public データのダウンロード速度最大 350MB/s
docker イメージが簡単に作れすぎるので
シェルプロンプトにビルドバージョンを記載
build の自動化
Kubernetes の Daemon Set機能で全マシンにデプロイ
Kubernetes は juju & MAAS でネット自動インストール
ノートPCにも同じ環境を用意しました
Rubuntu Server + Ubuntu Desktop + Ubuntu BugFixes
おまけ
■ Retty 機械学習基盤は sshd でログインできる ubuntu があれば使
えます。そのため大量のGPU環境の確保が容易です。
✓ http://jp.techcrunch.com/2017/02/22/20170221google-launches-gpu
-support-for-its-cloud-platform/
最後に
Rettyはグルメなユーザさんがオススメする、信頼できる飲食店の情報を
わかりやすく提供していきます
「人から探す」グルメサービスの開発に興味の
ある方、ご応募お待ちしております
Retty はこんな会社です
ご清聴ありがとうございました.

More Related Content

Similar to TFUG#3 Retty流 「2200万ユーザさんを支える機械学習基盤」 の作り方

第2回すだちくん勉強会におけるIoT最新動向と題したプレゼン資料
第2回すだちくん勉強会におけるIoT最新動向と題したプレゼン資料第2回すだちくん勉強会におけるIoT最新動向と題したプレゼン資料
第2回すだちくん勉強会におけるIoT最新動向と題したプレゼン資料知礼 八子
 
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Takahiro Inoue
 
20141203 tiberoセミナー講演資料
20141203 tiberoセミナー講演資料20141203 tiberoセミナー講演資料
20141203 tiberoセミナー講演資料tmaxsoftjpn
 
Rtm・ros相互運用プログラミング環境
Rtm・ros相互運用プログラミング環境Rtm・ros相互運用プログラミング環境
Rtm・ros相互運用プログラミング環境openrtm
 
Machine learning 15min TensorFlow hub
Machine learning 15min TensorFlow hubMachine learning 15min TensorFlow hub
Machine learning 15min TensorFlow hubJunya Kamura
 
良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイント
良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイント良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイント
良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイントNaoki Ohsugi
 
WebRTC開発者向けプラットフォーム SkyWayの裏側
WebRTC開発者向けプラットフォーム SkyWayの裏側WebRTC開発者向けプラットフォーム SkyWayの裏側
WebRTC開発者向けプラットフォーム SkyWayの裏側Yusuke Naka
 
10/2勉強会資料 ~IaaSを知る前にサーバを知ろう~
10/2勉強会資料 ~IaaSを知る前にサーバを知ろう~10/2勉強会資料 ~IaaSを知る前にサーバを知ろう~
10/2勉強会資料 ~IaaSを知る前にサーバを知ろう~Dai Iwai
 
マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会伊藤 孝
 
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
インフラエンジニアの楽しい標準化活動
インフラエンジニアの楽しい標準化活動インフラエンジニアの楽しい標準化活動
インフラエンジニアの楽しい標準化活動gree_tech
 
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)NTT DATA OSS Professional Services
 
MBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごとMBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごとInsight Technology, Inc.
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopDataWorks Summit
 
チケット管理システム大決戦第二弾
チケット管理システム大決戦第二弾チケット管理システム大決戦第二弾
チケット管理システム大決戦第二弾Ryutaro YOSHIBA
 
DataEngConf NYC’18 セッションサマリー #1
DataEngConf NYC’18 セッションサマリー #1DataEngConf NYC’18 セッションサマリー #1
DataEngConf NYC’18 セッションサマリー #1gree_tech
 
[Gree] DataEngConf NYC’18 セッションサマリー #1
[Gree] DataEngConf NYC’18 セッションサマリー #1[Gree] DataEngConf NYC’18 セッションサマリー #1
[Gree] DataEngConf NYC’18 セッションサマリー #1Takashi Suzuki
 

Similar to TFUG#3 Retty流 「2200万ユーザさんを支える機械学習基盤」 の作り方 (20)

第2回すだちくん勉強会におけるIoT最新動向と題したプレゼン資料
第2回すだちくん勉強会におけるIoT最新動向と題したプレゼン資料第2回すだちくん勉強会におけるIoT最新動向と題したプレゼン資料
第2回すだちくん勉強会におけるIoT最新動向と題したプレゼン資料
 
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界
 
20141203 tiberoセミナー講演資料
20141203 tiberoセミナー講演資料20141203 tiberoセミナー講演資料
20141203 tiberoセミナー講演資料
 
Rtm・ros相互運用プログラミング環境
Rtm・ros相互運用プログラミング環境Rtm・ros相互運用プログラミング環境
Rtm・ros相互運用プログラミング環境
 
Machine learning 15min TensorFlow hub
Machine learning 15min TensorFlow hubMachine learning 15min TensorFlow hub
Machine learning 15min TensorFlow hub
 
良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイント
良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイント良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイント
良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイント
 
WebRTC開発者向けプラットフォーム SkyWayの裏側
WebRTC開発者向けプラットフォーム SkyWayの裏側WebRTC開発者向けプラットフォーム SkyWayの裏側
WebRTC開発者向けプラットフォーム SkyWayの裏側
 
PostgreSQLの運用・監視にまつわるエトセトラ
PostgreSQLの運用・監視にまつわるエトセトラPostgreSQLの運用・監視にまつわるエトセトラ
PostgreSQLの運用・監視にまつわるエトセトラ
 
Hadoop ~Yahoo! JAPANの活用について~
Hadoop ~Yahoo! JAPANの活用について~Hadoop ~Yahoo! JAPANの活用について~
Hadoop ~Yahoo! JAPANの活用について~
 
10/2勉強会資料 ~IaaSを知る前にサーバを知ろう~
10/2勉強会資料 ~IaaSを知る前にサーバを知ろう~10/2勉強会資料 ~IaaSを知る前にサーバを知ろう~
10/2勉強会資料 ~IaaSを知る前にサーバを知ろう~
 
Try IoT with Node-RED
Try IoT with Node-REDTry IoT with Node-RED
Try IoT with Node-RED
 
マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会
 
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
インフラエンジニアの楽しい標準化活動
インフラエンジニアの楽しい標準化活動インフラエンジニアの楽しい標準化活動
インフラエンジニアの楽しい標準化活動
 
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
 
MBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごとMBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごと
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
 
チケット管理システム大決戦第二弾
チケット管理システム大決戦第二弾チケット管理システム大決戦第二弾
チケット管理システム大決戦第二弾
 
DataEngConf NYC’18 セッションサマリー #1
DataEngConf NYC’18 セッションサマリー #1DataEngConf NYC’18 セッションサマリー #1
DataEngConf NYC’18 セッションサマリー #1
 
[Gree] DataEngConf NYC’18 セッションサマリー #1
[Gree] DataEngConf NYC’18 セッションサマリー #1[Gree] DataEngConf NYC’18 セッションサマリー #1
[Gree] DataEngConf NYC’18 セッションサマリー #1
 

TFUG#3 Retty流 「2200万ユーザさんを支える機械学習基盤」 の作り方