SlideShare a Scribd company logo
1 of 45
Download to read offline
リクルートにおける
マルチモーダル Deep Learning
Web API 開発事例
株式会社リクルートテクノロジーズ
ITソリューション統括部 ビッグデータプロダクト開発グループ
舟木 類佳
2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
自己紹介
3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
趣味etc
学歴
仕事
所属
氏名
RTC ITソリューション統括部
ビッグデータ部
ビッグデータプロダクト開発G
舟木 類佳(ふなき るか)
東京大学大学院情報理工学系研究科
創造情報学専攻
中山英樹研究室
新卒入社1年目
7月配属
uMean プロダクトオーナー
音楽(ピアノ・ドラム・作曲)
自己紹介
4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
アジェンダ
 リクルートについて
 A3RTについて
 マルチモーダル学習とは
 開発事例の紹介
 まとめ
5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートについて
6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートのビジネスモデル
クライアントとカスタマーをつなぐサービスを提供
7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートの事業領域
「選択」 をサポートするような情報サービスを展開
Life event area Lifestyle Area
Travel
IT/ TrendLifestyle
Health & Beauty
Job Hunt
Marriage
Job Change
Home Purchase
Car Purchase
Child Birth
Education
8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートテクノロジーズの立ち位置
リクルートホールディングスは7つの主要事業会社と3つの機能会社から成り立っている。
Infrastructure
Large project
promotions
UI design/SEO
Big Data
Department
Technology R&D
IT Promotion
Recruit
Holdings
Recruit Career
Recruit Sumai Company
Recruit Lifestyle
Recruit Jobs
Recruit Staffing
Recruit Marketing Partners
Staff service Holdings
Recruit Technologies
Recruit Administration
Recruit Communications
Operation
Service
9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ビッグデータ解析部門の組織体制
ビジネス
コンサルティング
グループ
人材領域グループ
販促・バイト領域
グループ
ソリューションを
軸とした予測、
BI、競合分析
人材領域を軸とした
各種レコメンドの
開発
販促・バイトを
軸とした各種
レコメンドの開発
ID・ポイント領域
グループ
IDポイントを
軸とした各種
レコメンドの開発
プロダクト開発
グループ
インフラグループ
IDポイント
ビッグデータシステムグルー
プ
ソリューションを
軸とした各種R&D系
プロダクトの開発
ビックデータ基盤の
構築・運用
IDポイントPRJの
基盤の構築・運用
ビックデータ部
10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
A3RTについて
11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
A3RTって何?
 Deep Learningなどに代表される
機械学習ロジックとそのAPIを
A3RTというブランドで統一し、社内に展開
12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
A3RT のプロダクト
 データ分析や機械学習を社内向けに提供する
APIプロダクト
〜マルチモーダル機械学習を利用した
画像・テキストによる相互検索API〜
14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
マルチモーダル学習とは
15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
人の五感
 体にはたくさんのセンサーが張り巡らされている
味覚
触覚
嗅覚
視覚
聴覚
16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
人は複数の情報の関係性を知っている
 人は経験的複数の感覚を雨という概念と結びつけている
雨の音を
聞く
雨を見る 濡れる雨の匂い
を嗅ぐ
雨だ!(知覚)
17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
コンピューターはわからない
17
0101010101010101
0101010101010101
0101010101010101
0101010101010.....
ハワイに行きました。
海がとても青くて
陽の光が眩しかったです。
0101010101010101
0101010101010101
0101010101010101
0101010101010.....
Icon: http://www.icondrawer.com/
画素データ
文字列データ
画素データの
数値列
文字コードの
数値列
0101010101010101
0101010101010101
0101010101010101
0101010101010.....
波の音
波形データ
関係は??
波データの
数値列
18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
マルチモーダル学習は情報間の隔たりを埋める
画像
テキスト
画像とテキストの
セマンティックギャップ
(意味的隔たり)
コンピューターの世界
0101010101010101
0101010101010101
0101010101010101
0101010101010.....
0101010101010101
0101010101010101
0101010101010101
0101010101010.....
ハワイに行きました。
海がとても青くて
陽の光が眩しかったです。
Icon: http://www.icondrawer.com/
19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
学習に必要なデータ
 画像と画像に対する説明文のペアさえあれば学習可能
こういう画像はこういうテキスト
関係性を学習
クリスマスにワイングラスで乾杯。
赤い薔薇とオシャレなテーブル
セッティングで素敵なディナーを
お召し上がりください。
20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
結合空間へのデータのマッピング
 マルチモーダル学習は結合空間に複数の情報が関連性が高いも
のを近くにマッピングするように学習する
距離が近ければ関連性が高い
・画像a
x4
x1
・画像b
x2
x3
xd
︙
・テキストc
・テキストd
結合空間
x4
x1
x2
x3
xd
︙
・画像b
・画像a
画像空間
x4
x1
x2
x3
xd
︙
・テキストd
・テキストc
テキスト空間
21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
2つのDEMO
 Map DEMO
 対話DEMO
22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
uMeanでできること〜「画像⇔テキスト」相互検索
画像
.............
画像からテキスト:
画像から連想する
テキストを検索する
テキストから画像:
テキストから連想する
画像を検索する
テキスト
画像から画像:
画像から
類似する画像を検索する
テキストからテキスト:
テキストから
類似するテキストを検索する
23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
もっと赤い
uMeanでできること〜もっと検索
もっと検索
画像 画像
24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
イメージを近づけていく
欲しかったもの
かわいい
かっこいい
和風
洋風
25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
開発事例の紹介
26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
7月に配属されてから行った多岐にわたる仕事
 商品企画
 データ解析
 バックエンド開発
 フロントエンド開発
 インフラ開発
 一緒に働く人探し、面接
 売り込み
 チームマネジメント
 事業会社との調整
27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
本番環境
http request
Elastic Load
Balancing
prd_umean_web2
API
サーバー
prd_umean_web1
API
サーバー
Amazon
Route 53
Internet
umean_manager
Jenkins
サーバー
umean_batch
Batch
サーバー
prd-umean
fabric
②学習
①学習データをコピー
③モデル配布
モデル
ファイル
モデル
ファイル
画像情報
テキスト情報
APIアーキテクチャ
28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
本番環境
http request
Elastic Load
Balancing
prd_umean_web2
API
サーバー
prd_umean_web1
API
サーバー
Amazon
Route 53
Internet
umean_manager
Jenkins
サーバー
umean_batch
Batch
サーバー
prd-umean
fabric
②学習
①学習データをコピー
③モデル配布
モデル
ファイル
モデル
ファイル
画像情報
テキスト情報
Web APIサーバー
29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Webサーバー
カスタマー
APIサーバー
マルチモーダル学習
プログラム
uWSGI protocol
WSGIサーバー
Webサーバー
Internet
30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
webフレームワークの選択
 Django等のフレームワークは今回の機械学習API
に対しては多機能すぎた
 BottleやFlaskで十分
 今回はBottleを選択
 軽量フレームワークを利用することで
早い開発スピードが実現できた
31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
本番環境
http request
Elastic Load
Balancing
prd_umean_web2
API
サーバー
prd_umean_web1
API
サーバー
Amazon
Route 53
Internet
umean_manager
Jenkins
サーバー
umean_batch
Batch
サーバー
prd-umean
fabric
②学習
①学習データをコピー
③モデル配布
モデル
ファイル
モデル
ファイル
画像情報
テキスト情報
バッチアーキテクチャ
32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
マルチモーダル学習アルゴリズム
 今回検討したアルゴリズム
 正準相関分析(CCA: Canonical Correlation Analysis)
 Visual-Semantic Embedding(VSE)
33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
正準相関分析(CCA)
 相関が最大になるように射影する
(相関が高くなることはすなわち距離が近くなる)
x = (x1, … xp), y = (y1,…,yq)z = aT (x − x)
w = bT (y − y)
テキスト特徴空間画像特徴空間 結合空間
34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Visual Semantic Embedding
内部状態 Vh をこのキャプションの表現とする。 損失関数
"Unifying Visual-Semantic Embeddings
with Multimodal Neural Language Models"
(Kiros, Salakhutdinov, Zemel. 2014).
文章情報
画像情報
35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
CCAとVSEのどちらが良いか
 CCAよりもVSEの方が精度が高いためVSEを選択
 しかし、VSEの場合は内積による最適化なので、
単純なユークリッド距離計算ができない
(線形計算ができない)ので工夫が必要だった
・画像a
x4
x1
・画像b
x2
x3
xd
︙
・テキストc
・テキストd
結合空間
※コサイン距離でしか測れない
36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
画像とテキストのペアを学習する
秋を感じる黄色いコスモスが風に
なびいて・・・
紅葉した木々がきれいな森林
で・・・
オーシャンブルーの海が広がる
沖縄の観光スポット・・・
青々と茂る大根畑が・・・
︙ ︙
画像 キャプション
37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
学習と検索の流れ
テキスト
Caffeによる
特徴抽出
MeCabによる
形態素解析
画像特徴
VSE
分かち書きテキスト
ピクセルデータ
文字列データ
テキスト
テキスト
Caffeによる
特徴抽出
MeCabによる
形態素解析
Image encoder
画像特徴
Sentence encoder
VSE分かち書きテキスト
ピクセルデータ
文字列データ
マルチモーダル空間
における画像特徴
最近傍探索
(コサイン
距離)
学習
モデル
学習
検索
学習画像
学習テキスト
テキスト
テキスト
テキスト
検索画像
検索テキスト
マルチモーダル空間
におけるテキスト特徴
38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文章(または単語)からの画像検索
Image encoder
Sentence encoder
VSE
最近傍探索
(コサイン距離)
テキスト
クエリテキスト
image_feature.npy
sentence_feature.npy
マルチモーダル空間
における画像特徴
マルチモーダル空間
におけるテキスト特徴
画像リスト
※クエリテキストは文章でも単語でもよい。
単語は1文字から成る文章と考える。
マルチモーダル空間
における画像特徴
マルチモーダル空間
におけるテキスト特徴
40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
画像から単語の検索
Image encoder
Sentence encoder
VSE
マルチモーダル空間
における画像特徴
?
アップロード画像
image_feature.npy
sentence_feature.npy
単語リスト
?
予め用意された単語データはないが、
どのようにすればよいか?
41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
画像から単語の検索
 一番良かった方法(アドホックな方法)
単語を
TF-IDF順に
ソートして
上位を取得
画像に近い文章を20件検索してくる
42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
画像から単語の検索
Image encoder
Sentence encoder
VSE
マルチモーダル空間
における画像特徴
最近傍探索
(コサイン距離)
アップロード画像
image_feature.npy
sentence_feature.npy
マルチモーダル空間
におけるテキスト特徴
20件 TF-IDF
計算
単語リスト
43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
もっと検索(画像に単語を足す)
・赤い
単純な方法はうまくいかなかった
↓出てこない
44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
もっと検索
 画像からテキストを10個検索してきて文頭に
「もっと○○」に当たる用語を追加する
 その後、センテンスエンコーダーに入力してきて平均を取ることで画
像を検索する
+赤い
+赤い
+赤い
+赤い
+赤い
Sentence
Encoder
平均
目的の
画像ベクトル
バラが敷き詰められた・・・赤い +
文字列の結合
45Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
まとめ
 マルチモーダル機械学習を利用した画像・テキスト相互検索API、
「uMean」を開発した。
 マルチモーダル学習を用いることでこれまでに
出来なかったような新しい探し方ができるようになった。
 それを実現するために、アドホックな方法を含め、
色々な方法を試すことが必要だった。
 今後もマルチモーダル空間を利用して様々な検索方法ができるよ
うに改良していきたい。
46Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
私達は一緒に働く人を求めています
新しいテクノロジーを利用して
ものづくりがしたい人は
是非、一緒に働きましょう!!
リクルートテクノロジーズ
舟木 類佳(ふなき るか)
ruka_funaki@r.recruit.co.jp
連絡先

More Related Content

What's hot

グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
 
これから始める人の為のディープラーニング基礎講座
これから始める人の為のディープラーニング基礎講座これから始める人の為のディープラーニング基礎講座
これから始める人の為のディープラーニング基礎講座
NVIDIA Japan
 

What's hot (20)

機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルト機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルト
 
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知画像処理AIを用いた異常検知
画像処理AIを用いた異常検知
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
BERTに関して
BERTに関してBERTに関して
BERTに関して
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
画像処理応用
画像処理応用画像処理応用
画像処理応用
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性
 
CRF を使った Web 本文抽出
CRF を使った Web 本文抽出CRF を使った Web 本文抽出
CRF を使った Web 本文抽出
 
事業成長にコミットするエンジニア組織への道のり
事業成長にコミットするエンジニア組織への道のり事業成長にコミットするエンジニア組織への道のり
事業成長にコミットするエンジニア組織への道のり
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
 
Ooc 2020
Ooc 2020Ooc 2020
Ooc 2020
 
Positive-Unlabeled Learning with Non-Negative Risk Estimator
Positive-Unlabeled Learning with Non-Negative Risk EstimatorPositive-Unlabeled Learning with Non-Negative Risk Estimator
Positive-Unlabeled Learning with Non-Negative Risk Estimator
 
Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由
 
これから始める人の為のディープラーニング基礎講座
これから始める人の為のディープラーニング基礎講座これから始める人の為のディープラーニング基礎講座
これから始める人の為のディープラーニング基礎講座
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
 
Masked Autoencoders Are Scalable Vision Learners
Masked Autoencoders Are Scalable Vision LearnersMasked Autoencoders Are Scalable Vision Learners
Masked Autoencoders Are Scalable Vision Learners
 
密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知
 

Viewers also liked

Viewers also liked (20)

リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
 
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
 
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
 
製造業の画像検査におけるDeep Learningの現状とdeep inspectionの特徴
製造業の画像検査におけるDeep Learningの現状とdeep inspectionの特徴製造業の画像検査におけるDeep Learningの現状とdeep inspectionの特徴
製造業の画像検査におけるDeep Learningの現状とdeep inspectionの特徴
 
ディープラーニング 今週の事例 Top 5
ディープラーニング 今週の事例 Top 5ディープラーニング 今週の事例 Top 5
ディープラーニング 今週の事例 Top 5
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
 
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかリクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
 
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
 
[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616
 
深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
Deep inspectionの特徴
Deep inspectionの特徴Deep inspectionの特徴
Deep inspectionの特徴
 
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
 
リクルート式ビッグデータ活用術
リクルート式ビッグデータ活用術リクルート式ビッグデータ活用術
リクルート式ビッグデータ活用術
 
Deep Learningを用いたロボット制御
Deep Learningを用いたロボット制御Deep Learningを用いたロボット制御
Deep Learningを用いたロボット制御
 
拡がるディープラーニングの活用
拡がるディープラーニングの活用拡がるディープラーニングの活用
拡がるディープラーニングの活用
 
Hadoop’s Impact on Recruit Company
Hadoop’s Impact on Recruit CompanyHadoop’s Impact on Recruit Company
Hadoop’s Impact on Recruit Company
 

Similar to リクルートにおけるマルチモーダル Deep Learning Web API 開発事例

Similar to リクルートにおけるマルチモーダル Deep Learning Web API 開発事例 (20)

リクルート式AIの活用法
リクルート式AIの活用法リクルート式AIの活用法
リクルート式AIの活用法
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介
 
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
 
Redmineの情報を自分好みに見える化した話
Redmineの情報を自分好みに見える化した話Redmineの情報を自分好みに見える化した話
Redmineの情報を自分好みに見える化した話
 
ファーストアカウンティング会社説明資料 for engineer 2022年7月版
ファーストアカウンティング会社説明資料 for engineer 2022年7月版ファーストアカウンティング会社説明資料 for engineer 2022年7月版
ファーストアカウンティング会社説明資料 for engineer 2022年7月版
 
20150625 cloudera
20150625 cloudera20150625 cloudera
20150625 cloudera
 
不足するAI人材に対する「パソナテックの人材育成ソリューション」
不足するAI人材に対する「パソナテックの人材育成ソリューション」不足するAI人材に対する「パソナテックの人材育成ソリューション」
不足するAI人材に対する「パソナテックの人材育成ソリューション」
 
リクルートにおけるデータのインフラ化への取組
リクルートにおけるデータのインフラ化への取組リクルートにおけるデータのインフラ化への取組
リクルートにおけるデータのインフラ化への取組
 
変わる!? リクルートグループのデータ解析基盤
変わる!? リクルートグループのデータ解析基盤変わる!? リクルートグループのデータ解析基盤
変わる!? リクルートグループのデータ解析基盤
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
20141003 webマーケティングエンジニアリング
20141003 webマーケティングエンジニアリング20141003 webマーケティングエンジニアリング
20141003 webマーケティングエンジニアリング
 
SORACOM S+Cameraを利用して在庫チェックをやってみた
SORACOM S+Cameraを利用して在庫チェックをやってみたSORACOM S+Cameraを利用して在庫チェックをやってみた
SORACOM S+Cameraを利用して在庫チェックをやってみた
 
Smfl20201001
Smfl20201001Smfl20201001
Smfl20201001
 
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
 
20180831 [DeLTA TECH] DeLTA-Liteを支える技術(システム構成編)
20180831 [DeLTA TECH] DeLTA-Liteを支える技術(システム構成編)20180831 [DeLTA TECH] DeLTA-Liteを支える技術(システム構成編)
20180831 [DeLTA TECH] DeLTA-Liteを支える技術(システム構成編)
 
ドライブレコーダの動画を使った道路情報の自動差分抽出
ドライブレコーダの動画を使った道路情報の自動差分抽出ドライブレコーダの動画を使った道路情報の自動差分抽出
ドライブレコーダの動画を使った道路情報の自動差分抽出
 
JJUG CCC リクルートの Java に対する取り組み
JJUG CCC リクルートの Java に対する取り組みJJUG CCC リクルートの Java に対する取り組み
JJUG CCC リクルートの Java に対する取り組み
 
AIサービス開発に必要な人間中心設計とプロジェクトマネジメント
AIサービス開発に必要な人間中心設計とプロジェクトマネジメントAIサービス開発に必要な人間中心設計とプロジェクトマネジメント
AIサービス開発に必要な人間中心設計とプロジェクトマネジメント
 
【FKEYセミナー 20150205 基調講演】「今こそクラウド活用」 講師:大和 敏彦 氏 (株式会社アイティアイ 代表取締役)
【FKEYセミナー 20150205 基調講演】「今こそクラウド活用」 講師:大和 敏彦 氏 (株式会社アイティアイ 代表取締役)【FKEYセミナー 20150205 基調講演】「今こそクラウド活用」 講師:大和 敏彦 氏 (株式会社アイティアイ 代表取締役)
【FKEYセミナー 20150205 基調講演】「今こそクラウド活用」 講師:大和 敏彦 氏 (株式会社アイティアイ 代表取締役)
 
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際
 

More from Recruit Technologies

More from Recruit Technologies (20)

新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場
 
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びカーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
 
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
 
Tableau活用4年の軌跡
Tableau活用4年の軌跡Tableau活用4年の軌跡
Tableau活用4年の軌跡
 
HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話
 
LT(自由)
LT(自由)LT(自由)
LT(自由)
 
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
 
銀行ロビーアシスタント
銀行ロビーアシスタント銀行ロビーアシスタント
銀行ロビーアシスタント
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後
 
EMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するEMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成する
 
RANCHERを使ったDev(Ops)
RANCHERを使ったDev(Ops)RANCHERを使ったDev(Ops)
RANCHERを使ったDev(Ops)
 
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントリクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~
 
Spring “BigData”
Spring “BigData”Spring “BigData”
Spring “BigData”
 
Struggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit groupStruggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit group
 
Case study of DevOps for Hadoop in Recruit.
Case study of DevOps for Hadoop in Recruit.Case study of DevOps for Hadoop in Recruit.
Case study of DevOps for Hadoop in Recruit.
 
DataRobot活用状況@リクルートテクノロジーズ
DataRobot活用状況@リクルートテクノロジーズDataRobot活用状況@リクルートテクノロジーズ
DataRobot活用状況@リクルートテクノロジーズ
 
求職サービスの検索ログを用いたクエリのカテゴリ推定とその活用事例の紹介
求職サービスの検索ログを用いたクエリのカテゴリ推定とその活用事例の紹介求職サービスの検索ログを用いたクエリのカテゴリ推定とその活用事例の紹介
求職サービスの検索ログを用いたクエリのカテゴリ推定とその活用事例の紹介
 

Recently uploaded

Recently uploaded (12)

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

リクルートにおけるマルチモーダル Deep Learning Web API 開発事例

  • 1. リクルートにおける マルチモーダル Deep Learning Web API 開発事例 株式会社リクルートテクノロジーズ ITソリューション統括部 ビッグデータプロダクト開発グループ 舟木 類佳
  • 2. 2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 自己紹介
  • 3. 3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 趣味etc 学歴 仕事 所属 氏名 RTC ITソリューション統括部 ビッグデータ部 ビッグデータプロダクト開発G 舟木 類佳(ふなき るか) 東京大学大学院情報理工学系研究科 創造情報学専攻 中山英樹研究室 新卒入社1年目 7月配属 uMean プロダクトオーナー 音楽(ピアノ・ドラム・作曲) 自己紹介
  • 4. 4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. アジェンダ  リクルートについて  A3RTについて  マルチモーダル学習とは  開発事例の紹介  まとめ
  • 5. 5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートについて
  • 6. 6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートのビジネスモデル クライアントとカスタマーをつなぐサービスを提供
  • 7. 7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートの事業領域 「選択」 をサポートするような情報サービスを展開 Life event area Lifestyle Area Travel IT/ TrendLifestyle Health & Beauty Job Hunt Marriage Job Change Home Purchase Car Purchase Child Birth Education
  • 8. 8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートテクノロジーズの立ち位置 リクルートホールディングスは7つの主要事業会社と3つの機能会社から成り立っている。 Infrastructure Large project promotions UI design/SEO Big Data Department Technology R&D IT Promotion Recruit Holdings Recruit Career Recruit Sumai Company Recruit Lifestyle Recruit Jobs Recruit Staffing Recruit Marketing Partners Staff service Holdings Recruit Technologies Recruit Administration Recruit Communications Operation Service
  • 9. 9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビッグデータ解析部門の組織体制 ビジネス コンサルティング グループ 人材領域グループ 販促・バイト領域 グループ ソリューションを 軸とした予測、 BI、競合分析 人材領域を軸とした 各種レコメンドの 開発 販促・バイトを 軸とした各種 レコメンドの開発 ID・ポイント領域 グループ IDポイントを 軸とした各種 レコメンドの開発 プロダクト開発 グループ インフラグループ IDポイント ビッグデータシステムグルー プ ソリューションを 軸とした各種R&D系 プロダクトの開発 ビックデータ基盤の 構築・運用 IDポイントPRJの 基盤の構築・運用 ビックデータ部
  • 10. 10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. A3RTについて
  • 11. 11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. A3RTって何?  Deep Learningなどに代表される 機械学習ロジックとそのAPIを A3RTというブランドで統一し、社内に展開
  • 12. 12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. A3RT のプロダクト  データ分析や機械学習を社内向けに提供する APIプロダクト
  • 14. 14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. マルチモーダル学習とは
  • 15. 15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 人の五感  体にはたくさんのセンサーが張り巡らされている 味覚 触覚 嗅覚 視覚 聴覚
  • 16. 16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 人は複数の情報の関係性を知っている  人は経験的複数の感覚を雨という概念と結びつけている 雨の音を 聞く 雨を見る 濡れる雨の匂い を嗅ぐ 雨だ!(知覚)
  • 17. 17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. コンピューターはわからない 17 0101010101010101 0101010101010101 0101010101010101 0101010101010..... ハワイに行きました。 海がとても青くて 陽の光が眩しかったです。 0101010101010101 0101010101010101 0101010101010101 0101010101010..... Icon: http://www.icondrawer.com/ 画素データ 文字列データ 画素データの 数値列 文字コードの 数値列 0101010101010101 0101010101010101 0101010101010101 0101010101010..... 波の音 波形データ 関係は?? 波データの 数値列
  • 18. 18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. マルチモーダル学習は情報間の隔たりを埋める 画像 テキスト 画像とテキストの セマンティックギャップ (意味的隔たり) コンピューターの世界 0101010101010101 0101010101010101 0101010101010101 0101010101010..... 0101010101010101 0101010101010101 0101010101010101 0101010101010..... ハワイに行きました。 海がとても青くて 陽の光が眩しかったです。 Icon: http://www.icondrawer.com/
  • 19. 19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 学習に必要なデータ  画像と画像に対する説明文のペアさえあれば学習可能 こういう画像はこういうテキスト 関係性を学習 クリスマスにワイングラスで乾杯。 赤い薔薇とオシャレなテーブル セッティングで素敵なディナーを お召し上がりください。
  • 20. 20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 結合空間へのデータのマッピング  マルチモーダル学習は結合空間に複数の情報が関連性が高いも のを近くにマッピングするように学習する 距離が近ければ関連性が高い ・画像a x4 x1 ・画像b x2 x3 xd ︙ ・テキストc ・テキストd 結合空間 x4 x1 x2 x3 xd ︙ ・画像b ・画像a 画像空間 x4 x1 x2 x3 xd ︙ ・テキストd ・テキストc テキスト空間
  • 21. 21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 2つのDEMO  Map DEMO  対話DEMO
  • 22. 22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. uMeanでできること〜「画像⇔テキスト」相互検索 画像 ............. 画像からテキスト: 画像から連想する テキストを検索する テキストから画像: テキストから連想する 画像を検索する テキスト 画像から画像: 画像から 類似する画像を検索する テキストからテキスト: テキストから 類似するテキストを検索する
  • 23. 23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. もっと赤い uMeanでできること〜もっと検索 もっと検索 画像 画像
  • 24. 24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. イメージを近づけていく 欲しかったもの かわいい かっこいい 和風 洋風
  • 25. 25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 開発事例の紹介
  • 26. 26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 7月に配属されてから行った多岐にわたる仕事  商品企画  データ解析  バックエンド開発  フロントエンド開発  インフラ開発  一緒に働く人探し、面接  売り込み  チームマネジメント  事業会社との調整
  • 27. 27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 本番環境 http request Elastic Load Balancing prd_umean_web2 API サーバー prd_umean_web1 API サーバー Amazon Route 53 Internet umean_manager Jenkins サーバー umean_batch Batch サーバー prd-umean fabric ②学習 ①学習データをコピー ③モデル配布 モデル ファイル モデル ファイル 画像情報 テキスト情報 APIアーキテクチャ
  • 28. 28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 本番環境 http request Elastic Load Balancing prd_umean_web2 API サーバー prd_umean_web1 API サーバー Amazon Route 53 Internet umean_manager Jenkins サーバー umean_batch Batch サーバー prd-umean fabric ②学習 ①学習データをコピー ③モデル配布 モデル ファイル モデル ファイル 画像情報 テキスト情報 Web APIサーバー
  • 29. 29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Webサーバー カスタマー APIサーバー マルチモーダル学習 プログラム uWSGI protocol WSGIサーバー Webサーバー Internet
  • 30. 30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. webフレームワークの選択  Django等のフレームワークは今回の機械学習API に対しては多機能すぎた  BottleやFlaskで十分  今回はBottleを選択  軽量フレームワークを利用することで 早い開発スピードが実現できた
  • 31. 31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 本番環境 http request Elastic Load Balancing prd_umean_web2 API サーバー prd_umean_web1 API サーバー Amazon Route 53 Internet umean_manager Jenkins サーバー umean_batch Batch サーバー prd-umean fabric ②学習 ①学習データをコピー ③モデル配布 モデル ファイル モデル ファイル 画像情報 テキスト情報 バッチアーキテクチャ
  • 32. 32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. マルチモーダル学習アルゴリズム  今回検討したアルゴリズム  正準相関分析(CCA: Canonical Correlation Analysis)  Visual-Semantic Embedding(VSE)
  • 33. 33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 正準相関分析(CCA)  相関が最大になるように射影する (相関が高くなることはすなわち距離が近くなる) x = (x1, … xp), y = (y1,…,yq)z = aT (x − x) w = bT (y − y) テキスト特徴空間画像特徴空間 結合空間
  • 34. 34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Visual Semantic Embedding 内部状態 Vh をこのキャプションの表現とする。 損失関数 "Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models" (Kiros, Salakhutdinov, Zemel. 2014). 文章情報 画像情報
  • 35. 35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. CCAとVSEのどちらが良いか  CCAよりもVSEの方が精度が高いためVSEを選択  しかし、VSEの場合は内積による最適化なので、 単純なユークリッド距離計算ができない (線形計算ができない)ので工夫が必要だった ・画像a x4 x1 ・画像b x2 x3 xd ︙ ・テキストc ・テキストd 結合空間 ※コサイン距離でしか測れない
  • 36. 36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 画像とテキストのペアを学習する 秋を感じる黄色いコスモスが風に なびいて・・・ 紅葉した木々がきれいな森林 で・・・ オーシャンブルーの海が広がる 沖縄の観光スポット・・・ 青々と茂る大根畑が・・・ ︙ ︙ 画像 キャプション
  • 37. 37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 学習と検索の流れ テキスト Caffeによる 特徴抽出 MeCabによる 形態素解析 画像特徴 VSE 分かち書きテキスト ピクセルデータ 文字列データ テキスト テキスト Caffeによる 特徴抽出 MeCabによる 形態素解析 Image encoder 画像特徴 Sentence encoder VSE分かち書きテキスト ピクセルデータ 文字列データ マルチモーダル空間 における画像特徴 最近傍探索 (コサイン 距離) 学習 モデル 学習 検索 学習画像 学習テキスト テキスト テキスト テキスト 検索画像 検索テキスト マルチモーダル空間 におけるテキスト特徴
  • 38. 38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文章(または単語)からの画像検索 Image encoder Sentence encoder VSE 最近傍探索 (コサイン距離) テキスト クエリテキスト image_feature.npy sentence_feature.npy マルチモーダル空間 における画像特徴 マルチモーダル空間 におけるテキスト特徴 画像リスト ※クエリテキストは文章でも単語でもよい。 単語は1文字から成る文章と考える。 マルチモーダル空間 における画像特徴 マルチモーダル空間 におけるテキスト特徴
  • 39. 40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 画像から単語の検索 Image encoder Sentence encoder VSE マルチモーダル空間 における画像特徴 ? アップロード画像 image_feature.npy sentence_feature.npy 単語リスト ? 予め用意された単語データはないが、 どのようにすればよいか?
  • 40. 41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 画像から単語の検索  一番良かった方法(アドホックな方法) 単語を TF-IDF順に ソートして 上位を取得 画像に近い文章を20件検索してくる
  • 41. 42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 画像から単語の検索 Image encoder Sentence encoder VSE マルチモーダル空間 における画像特徴 最近傍探索 (コサイン距離) アップロード画像 image_feature.npy sentence_feature.npy マルチモーダル空間 におけるテキスト特徴 20件 TF-IDF 計算 単語リスト
  • 42. 43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. もっと検索(画像に単語を足す) ・赤い 単純な方法はうまくいかなかった ↓出てこない
  • 43. 44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. もっと検索  画像からテキストを10個検索してきて文頭に 「もっと○○」に当たる用語を追加する  その後、センテンスエンコーダーに入力してきて平均を取ることで画 像を検索する +赤い +赤い +赤い +赤い +赤い Sentence Encoder 平均 目的の 画像ベクトル バラが敷き詰められた・・・赤い + 文字列の結合
  • 44. 45Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. まとめ  マルチモーダル機械学習を利用した画像・テキスト相互検索API、 「uMean」を開発した。  マルチモーダル学習を用いることでこれまでに 出来なかったような新しい探し方ができるようになった。  それを実現するために、アドホックな方法を含め、 色々な方法を試すことが必要だった。  今後もマルチモーダル空間を利用して様々な検索方法ができるよ うに改良していきたい。
  • 45. 46Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 私達は一緒に働く人を求めています 新しいテクノロジーを利用して ものづくりがしたい人は 是非、一緒に働きましょう!! リクルートテクノロジーズ 舟木 類佳(ふなき るか) ruka_funaki@r.recruit.co.jp 連絡先