SlideShare a Scribd company logo
1 of 34
Download to read offline
ディープラーニングと単語ベクトル
を用いた画像レコメンドの考察
2
• produce(農産物)
• strawberry
• fruit
• food
• plant
画像 判定結果
⇒ 精度もかなり高く判定できるように
※Google Cloud Vision API使用
DeepLearningを使った画像のカテゴリ分析
3
これを応用して
類似写真検索できないか?
4
でも課題あり・・・
5
類似画像判定:課題(1) – 複数カテゴリ
机?
ギター?
人? 椅子?
⇒ 実際の写真は複数カテゴリの組み合わせ
なので、これを全て加味する必要がある
6
類似画像判定:課題(2) – 類似のニュアンス
⇒ 「なんとなく似ている」という人間的な
ニュアンスを判定しなくてはいけない
類似?
7
これら課題の
解決案を考えてみた
8
R-CNN
+
単語ベクトル
9
⇒ 100枚の画像から似た画像を探す
10
類似画像検索 – 検証結果(1)
検索画像 結果
11
類似画像検索 – 検証結果(2)
検索画像 結果
12
今回使用したロジックや
理論・技術
13
類似画像検索ロジック
画像αに
おける
物体Aの
スコア
Deep Learningが
物体Aとして返した
Score
Max(= ☓
物体候補のPixel数
画像全体のPixel数
)
⇒画像内における物体の重要度
画像
ベクトル
=
各物体の
単語ベクトル ☓ 物体のスコアSum( )
⇒ 単語ベクトルと重要度を用いて画像をベクトル化
画像内物体数
1
☓
14
類似画像検索ロジック
類似画像 =
画像αの
画像ベクトル - 画像≠αの
画像ベクトル
Min(Sqrt(Sum( )**2)))
⇒ ユークリッド距離が最も⼩さいものを類似とする
15
類似画像検索ロジック
画像αに
おける
物体Aの
スコア
Deep Learningが
物体Aとして返した
Score
Max(= ☓
物体候補のPixel数
画像全体のPixel数
)
⇒画像内における物体の重要度
画像
ベクトル
=
各物体の
単語ベクトル ☓ 物体のスコアSum( )
⇒ 単語ベクトルと重要度を用いて画像をベクトル化
画像内物体数
1
☓
16
Girshick, R., Donahue, J., Darrell, T., & Malik, J. “Rich feature hierarchies for accurate object detection and semantic segmentation”. CVPR2014.
R-CNN: 複数カテゴリへの対応
物体候補を抜き出しそれぞれをCNNにかける
CNNの結果(Score)を元にオブジェクトを判別
(元はSVMで判定. 今回は前述のロジックで判別)
17
Jasper R. R. Uijlings, Koen E. A. van de Sande, Theo Gevers, Arnold W. M. Smeulders “Selective Search for Object Recognition”
Selective Search:物体候補の抜き出し
類似した領域をグルーピングして物体候補を抽出す
るアルゴリズム
DeepLearningと違って学習の必要がない
18
R-CNN: 複数カテゴリの抜き出しロジック
Input Image
物体候補
Selective
Search
19
R-CNN: 複数カテゴリの抜き出しロジック
物体候補
候補Pixel
/全体Pixel
0.1
0.05
0.07
DLによる
物体検知
Person: 95.0
Person: 70.0
Person: 80.0
☓
☓
☓
0.095
0.035
0.056
=
=
=
⇒ 最も値の大きい0.095をPersonのスコアとする
20
類似画像検索ロジック
画像αに
おける
物体Aの
スコア
Deep Learningが
物体Aとして返した
Score
Max(= ☓
物体候補のPixel数
画像全体のPixel数
)
⇒画像内における物体の重要度
画像
ベクトル
=
各物体の
単語ベクトル ☓ 物体のスコアSum( )
⇒ 単語ベクトルと重要度を用いて画像をベクトル化
画像内物体数
1
☓
21
単語ベクトルとは?
King + Woman = QUEEN
• 単語をベクトル(数値配列)にする技術
• 距離が近い単語は意味が似ており、遠いと似ていない
=>なんとなく類似というニュアンスが表現できる
• ベクトルになっているので単語の演算が可能になる
22
単語ベクトル(Word2Vec): ニュアンスを表現
• ベクトル化しているので重要度を乗じることが可能
• また平均をとることも可能
⇒ 画像内の物体ベクトル*スコアの平均を取れば画
像のベクトルとして扱える(はず)
factory
steel
sea
画像ベクトル
23
単語ベクトル(Word2Vec): ニュアンスを表現
物体 単語ベクトル
(0.1,0.2)
(0.8,0.7)
(0.01,0.01)
物体スコア
0.8
0.95
0.5
☓
☓
☓
=
=
=
⇒ 平均である(0.281,0.276)を画像ベクトルとする
実際は40次元
(0.08,0.16)
(0.76,0.665)
(0.005,0.005)
(
0.281
,0.276
)
24
類似画像検索ロジック
類似画像 =
画像αの
画像ベクトル - 画像≠αの
画像ベクトル
Min(Sqrt(Sum(( )**2)))
⇒ ユークリッド距離が最も⼩さいものを類似とする
⇒ 画像毎に算出ベクトル間の距離を測れば推薦可能
25
効果検証
検索画像 結果
• helicopter
• vehicle
• boeing ch 47
• aircraft
• rotorcraft
• tank
• military
• weapon
• vehicle
• combat vehicle
⇒ ⽂字列で一致したのはvehicleだけ
26
効果検証
他にVehicleが含まれていた写真
⇒ ベクトル化することにより軍隊関係が近いと判断
できており、ロジックが効果的に動作している
27
Pros/Cons
28
• 複数カテゴリの組合せの考慮
• 強調したい部分(大きさ、位置)の考慮
• なんとなく似ているというニュアンスの考慮
今回手法のメリット
29
今回手法の苦手な部分
• 芸能人やアニメなど固有名詞が重要な場合には対応が厳しい
• 上記例は全て”anime”となってしまう
• 同じ作品、キャラを類似として扱うことができない
削除
30
先⾏研究: Illustartion2vec
http://demo.illustration2vec.net/
• 個別の固有名詞がわかるような識別器を作れば解決できる
• ただし難易度は若⼲高め
削除
31
結論
(感想?)
32
Deep Learningもさることながら
Word2Vecの⼒が凄い
33
DeepLearning上の
Feature Mapで…というのはスマート
だけど曖昧さを許容させるためには
有効な手段ではないかと
34
ご清聴ありがとうございました

More Related Content

What's hot

SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習SSII
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践Preferred Networks
 
レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法Takeshi Mikami
 
機械学習の精度と売上の関係
機械学習の精度と売上の関係機械学習の精度と売上の関係
機械学習の精度と売上の関係Tokoroten Nakayama
 
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理Toru Tamaki
 
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習Hori Tasuku
 
20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列Toru Tamaki
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
 [DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering [DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question AnsweringDeep Learning JP
 
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介Ryohei Ueda
 
SQLで身につける!初めてのレコメンド 〜 基礎から応用まで ~
SQLで身につける!初めてのレコメンド 〜 基礎から応用まで ~SQLで身につける!初めてのレコメンド 〜 基礎から応用まで ~
SQLで身につける!初めてのレコメンド 〜 基礎から応用まで ~Naoto Tamiya
 
Data-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組みData-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組みTakeshi Suzuki
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
“機械学習の説明”の信頼性
“機械学習の説明”の信頼性“機械学習の説明”の信頼性
“機械学習の説明”の信頼性Satoshi Hara
 
ぷよぷよAIの新しい探索法
ぷよぷよAIの新しい探索法ぷよぷよAIの新しい探索法
ぷよぷよAIの新しい探索法Takaya Doki
 
Rethinking and Beyond ImageNet
Rethinking and Beyond ImageNetRethinking and Beyond ImageNet
Rethinking and Beyond ImageNetcvpaper. challenge
 
Mask-RCNNを用いたキャベツの結球認識
Mask-RCNNを用いたキャベツの結球認識Mask-RCNNを用いたキャベツの結球認識
Mask-RCNNを用いたキャベツの結球認識Masahiro Tsukano
 
RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
RAFT: Recurrent All-Pairs Field Transforms for Optical FlowRAFT: Recurrent All-Pairs Field Transforms for Optical Flow
RAFT: Recurrent All-Pairs Field Transforms for Optical FlowMasanoriSuganuma
 

What's hot (20)

SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践
 
レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法
 
機械学習の精度と売上の関係
機械学習の精度と売上の関係機械学習の精度と売上の関係
機械学習の精度と売上の関係
 
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
 
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
 
「YDNの広告のCTRをオンライン学習で予測してみた」#yjdsw4
「YDNの広告のCTRをオンライン学習で予測してみた」#yjdsw4「YDNの広告のCTRをオンライン学習で予測してみた」#yjdsw4
「YDNの広告のCTRをオンライン学習で予測してみた」#yjdsw4
 
20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
 [DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering [DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
 
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
 
SQLで身につける!初めてのレコメンド 〜 基礎から応用まで ~
SQLで身につける!初めてのレコメンド 〜 基礎から応用まで ~SQLで身につける!初めてのレコメンド 〜 基礎から応用まで ~
SQLで身につける!初めてのレコメンド 〜 基礎から応用まで ~
 
Data-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組みData-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組み
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
“機械学習の説明”の信頼性
“機械学習の説明”の信頼性“機械学習の説明”の信頼性
“機械学習の説明”の信頼性
 
ぷよぷよAIの新しい探索法
ぷよぷよAIの新しい探索法ぷよぷよAIの新しい探索法
ぷよぷよAIの新しい探索法
 
Rethinking and Beyond ImageNet
Rethinking and Beyond ImageNetRethinking and Beyond ImageNet
Rethinking and Beyond ImageNet
 
Mask-RCNNを用いたキャベツの結球認識
Mask-RCNNを用いたキャベツの結球認識Mask-RCNNを用いたキャベツの結球認識
Mask-RCNNを用いたキャベツの結球認識
 
MLOpsはバズワード
MLOpsはバズワードMLOpsはバズワード
MLOpsはバズワード
 
RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
RAFT: Recurrent All-Pairs Field Transforms for Optical FlowRAFT: Recurrent All-Pairs Field Transforms for Optical Flow
RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
 

Recently uploaded

SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 

Recently uploaded (9)

SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 

DeepLearningとWord2Vecを用いた画像レコメンドの考察