More Related Content
Similar to リクルートにおけるマルチモーダル Deep Learning Web API 開発事例 (20)
More from Recruit Technologies (20)
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
- 3. 3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
趣味etc
学歴
仕事
所属
氏名
RTC ITソリューション統括部
ビッグデータ部
ビッグデータプロダクト開発G
舟木 類佳(ふなき るか)
東京大学大学院情報理工学系研究科
創造情報学専攻
中山英樹研究室
新卒入社1年目
7月配属
uMean プロダクトオーナー
音楽(ピアノ・ドラム・作曲)
自己紹介
- 4. 4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
アジェンダ
リクルートについて
A3RTについて
マルチモーダル学習とは
開発事例の紹介
まとめ
- 6. 6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートのビジネスモデル
クライアントとカスタマーをつなぐサービスを提供
- 7. 7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートの事業領域
「選択」 をサポートするような情報サービスを展開
Life event area Lifestyle Area
Travel
IT/ TrendLifestyle
Health & Beauty
Job Hunt
Marriage
Job Change
Home Purchase
Car Purchase
Child Birth
Education
- 8. 8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートテクノロジーズの立ち位置
リクルートホールディングスは7つの主要事業会社と3つの機能会社から成り立っている。
Infrastructure
Large project
promotions
UI design/SEO
Big Data
Department
Technology R&D
IT Promotion
Recruit
Holdings
Recruit Career
Recruit Sumai Company
Recruit Lifestyle
Recruit Jobs
Recruit Staffing
Recruit Marketing Partners
Staff service Holdings
Recruit Technologies
Recruit Administration
Recruit Communications
Operation
Service
- 9. 9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ビッグデータ解析部門の組織体制
ビジネス
コンサルティング
グループ
人材領域グループ
販促・バイト領域
グループ
ソリューションを
軸とした予測、
BI、競合分析
人材領域を軸とした
各種レコメンドの
開発
販促・バイトを
軸とした各種
レコメンドの開発
ID・ポイント領域
グループ
IDポイントを
軸とした各種
レコメンドの開発
プロダクト開発
グループ
インフラグループ
IDポイント
ビッグデータシステムグルー
プ
ソリューションを
軸とした各種R&D系
プロダクトの開発
ビックデータ基盤の
構築・運用
IDポイントPRJの
基盤の構築・運用
ビックデータ部
- 11. 11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
A3RTって何?
Deep Learningなどに代表される
機械学習ロジックとそのAPIを
A3RTというブランドで統一し、社内に展開
- 12. 12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
A3RT のプロダクト
データ分析や機械学習を社内向けに提供する
APIプロダクト
- 15. 15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
人の五感
体にはたくさんのセンサーが張り巡らされている
味覚
触覚
嗅覚
視覚
聴覚
- 16. 16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
人は複数の情報の関係性を知っている
人は経験的複数の感覚を雨という概念と結びつけている
雨の音を
聞く
雨を見る 濡れる雨の匂い
を嗅ぐ
雨だ!(知覚)
- 17. 17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
コンピューターはわからない
17
0101010101010101
0101010101010101
0101010101010101
0101010101010.....
ハワイに行きました。
海がとても青くて
陽の光が眩しかったです。
0101010101010101
0101010101010101
0101010101010101
0101010101010.....
Icon: http://www.icondrawer.com/
画素データ
文字列データ
画素データの
数値列
文字コードの
数値列
0101010101010101
0101010101010101
0101010101010101
0101010101010.....
波の音
波形データ
関係は??
波データの
数値列
- 18. 18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
マルチモーダル学習は情報間の隔たりを埋める
画像
テキスト
画像とテキストの
セマンティックギャップ
(意味的隔たり)
コンピューターの世界
0101010101010101
0101010101010101
0101010101010101
0101010101010.....
0101010101010101
0101010101010101
0101010101010101
0101010101010.....
ハワイに行きました。
海がとても青くて
陽の光が眩しかったです。
Icon: http://www.icondrawer.com/
- 19. 19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
学習に必要なデータ
画像と画像に対する説明文のペアさえあれば学習可能
こういう画像はこういうテキスト
関係性を学習
クリスマスにワイングラスで乾杯。
赤い薔薇とオシャレなテーブル
セッティングで素敵なディナーを
お召し上がりください。
- 20. 20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
結合空間へのデータのマッピング
マルチモーダル学習は結合空間に複数の情報が関連性が高いも
のを近くにマッピングするように学習する
距離が近ければ関連性が高い
・画像a
x4
x1
・画像b
x2
x3
xd
︙
・テキストc
・テキストd
結合空間
x4
x1
x2
x3
xd
︙
・画像b
・画像a
画像空間
x4
x1
x2
x3
xd
︙
・テキストd
・テキストc
テキスト空間
- 22. 22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
uMeanでできること〜「画像⇔テキスト」相互検索
画像
.............
画像からテキスト:
画像から連想する
テキストを検索する
テキストから画像:
テキストから連想する
画像を検索する
テキスト
画像から画像:
画像から
類似する画像を検索する
テキストからテキスト:
テキストから
類似するテキストを検索する
- 23. 23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
もっと赤い
uMeanでできること〜もっと検索
もっと検索
画像 画像
- 24. 24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
イメージを近づけていく
欲しかったもの
かわいい
かっこいい
和風
洋風
- 26. 26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
7月に配属されてから行った多岐にわたる仕事
商品企画
データ解析
バックエンド開発
フロントエンド開発
インフラ開発
一緒に働く人探し、面接
売り込み
チームマネジメント
事業会社との調整
- 27. 27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
本番環境
http request
Elastic Load
Balancing
prd_umean_web2
API
サーバー
prd_umean_web1
API
サーバー
Amazon
Route 53
Internet
umean_manager
Jenkins
サーバー
umean_batch
Batch
サーバー
prd-umean
fabric
②学習
①学習データをコピー
③モデル配布
モデル
ファイル
モデル
ファイル
画像情報
テキスト情報
APIアーキテクチャ
- 28. 28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
本番環境
http request
Elastic Load
Balancing
prd_umean_web2
API
サーバー
prd_umean_web1
API
サーバー
Amazon
Route 53
Internet
umean_manager
Jenkins
サーバー
umean_batch
Batch
サーバー
prd-umean
fabric
②学習
①学習データをコピー
③モデル配布
モデル
ファイル
モデル
ファイル
画像情報
テキスト情報
Web APIサーバー
- 29. 29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Webサーバー
カスタマー
APIサーバー
マルチモーダル学習
プログラム
uWSGI protocol
WSGIサーバー
Webサーバー
Internet
- 30. 30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
webフレームワークの選択
Django等のフレームワークは今回の機械学習API
に対しては多機能すぎた
BottleやFlaskで十分
今回はBottleを選択
軽量フレームワークを利用することで
早い開発スピードが実現できた
- 31. 31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
本番環境
http request
Elastic Load
Balancing
prd_umean_web2
API
サーバー
prd_umean_web1
API
サーバー
Amazon
Route 53
Internet
umean_manager
Jenkins
サーバー
umean_batch
Batch
サーバー
prd-umean
fabric
②学習
①学習データをコピー
③モデル配布
モデル
ファイル
モデル
ファイル
画像情報
テキスト情報
バッチアーキテクチャ
- 32. 32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
マルチモーダル学習アルゴリズム
今回検討したアルゴリズム
正準相関分析(CCA: Canonical Correlation Analysis)
Visual-Semantic Embedding(VSE)
- 33. 33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
正準相関分析(CCA)
相関が最大になるように射影する
(相関が高くなることはすなわち距離が近くなる)
x = (x1, … xp), y = (y1,…,yq)z = aT (x − x)
w = bT (y − y)
テキスト特徴空間画像特徴空間 結合空間
- 34. 34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Visual Semantic Embedding
内部状態 Vh をこのキャプションの表現とする。 損失関数
"Unifying Visual-Semantic Embeddings
with Multimodal Neural Language Models"
(Kiros, Salakhutdinov, Zemel. 2014).
文章情報
画像情報
- 35. 35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
CCAとVSEのどちらが良いか
CCAよりもVSEの方が精度が高いためVSEを選択
しかし、VSEの場合は内積による最適化なので、
単純なユークリッド距離計算ができない
(線形計算ができない)ので工夫が必要だった
・画像a
x4
x1
・画像b
x2
x3
xd
︙
・テキストc
・テキストd
結合空間
※コサイン距離でしか測れない
- 36. 36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
画像とテキストのペアを学習する
秋を感じる黄色いコスモスが風に
なびいて・・・
紅葉した木々がきれいな森林
で・・・
オーシャンブルーの海が広がる
沖縄の観光スポット・・・
青々と茂る大根畑が・・・
︙ ︙
画像 キャプション
- 37. 37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
学習と検索の流れ
テキスト
Caffeによる
特徴抽出
MeCabによる
形態素解析
画像特徴
VSE
分かち書きテキスト
ピクセルデータ
文字列データ
テキスト
テキスト
Caffeによる
特徴抽出
MeCabによる
形態素解析
Image encoder
画像特徴
Sentence encoder
VSE分かち書きテキスト
ピクセルデータ
文字列データ
マルチモーダル空間
における画像特徴
最近傍探索
(コサイン
距離)
学習
モデル
学習
検索
学習画像
学習テキスト
テキスト
テキスト
テキスト
検索画像
検索テキスト
マルチモーダル空間
におけるテキスト特徴
- 38. 38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文章(または単語)からの画像検索
Image encoder
Sentence encoder
VSE
最近傍探索
(コサイン距離)
テキスト
クエリテキスト
image_feature.npy
sentence_feature.npy
マルチモーダル空間
における画像特徴
マルチモーダル空間
におけるテキスト特徴
画像リスト
※クエリテキストは文章でも単語でもよい。
単語は1文字から成る文章と考える。
マルチモーダル空間
における画像特徴
マルチモーダル空間
におけるテキスト特徴
- 39. 40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
画像から単語の検索
Image encoder
Sentence encoder
VSE
マルチモーダル空間
における画像特徴
?
アップロード画像
image_feature.npy
sentence_feature.npy
単語リスト
?
予め用意された単語データはないが、
どのようにすればよいか?
- 40. 41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
画像から単語の検索
一番良かった方法(アドホックな方法)
単語を
TF-IDF順に
ソートして
上位を取得
画像に近い文章を20件検索してくる
- 41. 42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
画像から単語の検索
Image encoder
Sentence encoder
VSE
マルチモーダル空間
における画像特徴
最近傍探索
(コサイン距離)
アップロード画像
image_feature.npy
sentence_feature.npy
マルチモーダル空間
におけるテキスト特徴
20件 TF-IDF
計算
単語リスト
- 42. 43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
もっと検索(画像に単語を足す)
・赤い
単純な方法はうまくいかなかった
↓出てこない
- 43. 44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
もっと検索
画像からテキストを10個検索してきて文頭に
「もっと○○」に当たる用語を追加する
その後、センテンスエンコーダーに入力してきて平均を取ることで画
像を検索する
+赤い
+赤い
+赤い
+赤い
+赤い
Sentence
Encoder
平均
目的の
画像ベクトル
バラが敷き詰められた・・・赤い +
文字列の結合
- 44. 45Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
まとめ
マルチモーダル機械学習を利用した画像・テキスト相互検索API、
「uMean」を開発した。
マルチモーダル学習を用いることでこれまでに
出来なかったような新しい探し方ができるようになった。
それを実現するために、アドホックな方法を含め、
色々な方法を試すことが必要だった。
今後もマルチモーダル空間を利用して様々な検索方法ができるよ
うに改良していきたい。
- 45. 46Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
私達は一緒に働く人を求めています
新しいテクノロジーを利用して
ものづくりがしたい人は
是非、一緒に働きましょう!!
リクルートテクノロジーズ
舟木 類佳(ふなき るか)
ruka_funaki@r.recruit.co.jp
連絡先