SlideShare a Scribd company logo
1 of 19
DLゼミ論文紹介
「MUTUAL MEAN-TEACHING:
PSEUDO LABEL REFINERY FOR UNSUPERVISED DOMAIN ADAPTATION
ON PERSON RE-IDENTIFICATION」
久保田遼裕
北海道大学 大学院情報科学研究院 情報理工学部門
複合情報工学分野 調和系工学研究室学研究室
2020年 10月 21日
1論文情報
• タイトル
MUTUAL MEAN-TEACHING:
PSEUDO LABEL REFINERY FOR UNSUPERVISED DOMAIN ADAPTATION ON PERSON RE-
IDENTIFICATION
• 著者
Yixiao Ge, Dapeng Chen & Hongsheng Li
The Chinese University of Hong Kong
• 学会
• ICLR2020
• まとめ
re-IDタスクにおいて既存のデータセットで学習したモデルをアノテーションされていない
データセットに対応させるための教師なしドメイン適応(UDA:Unsupervised Domain Adaption)
があるが、クラスタリングで生成される疑似ラベルのノイズは従来無視されてきた。それらのノイズ
の影響を軽減するためにハード疑似ラベルとソフト疑似ラベルの両方を用いた相互平均学習
(MMT:Mutual Mean-Teaching)を提案。またソフトラベルを学習するためのソフトマックス
トリプレットロスを提案し教師なしドメイン適応(UDA)のタスクにおいて大幅な改善を達成した。
• 実装URL
https://github.com/yxgeee/MMT
2背景
• Person re-identification
• タスク
 複数カメラで撮影された画像から同じ人の画像を取得するタスク
• データセット
 大量のアノテーションが必要
 Market1501,DukeMTMCのようなre-id用データセットが提案されてきた
しかし
 実際で撮影された人物画像と既存のデータセットでは明るさ・解像度等
ドメイン間のギャップがあり、パフォーマンス低下の原因となる
そこでこれまで提案されてきたのがUDA(unsupervised domain adaption)
• UDA(unsupervised domain adaption)
• source image domain(ラベル付きのデータセット)を
target image domain(ラベルなしのデータセット)に適応させる
• 問題
 クラスタリングベースの手法ではでラベルなし画像に疑似ラベルをクラスタリング
で付与して学習するためノイズ(ラベル付け間違い)が発生し精度低下を招く
疑似ラベルのノイズの影響を軽減するMutual Mean-Teaching (MMT)を提案
3
• ハードな疑似ラベルからロバストなソフト疑似ラベルを生成する
 peer-teaching(同僚学習)でラベル・特徴を改善していく
• 図中のNet1とNet2は同じデータセットですでに訓練されてある
(片方が訓練済み、片方が訓練されてない、というわけではない)
左図ではA1,A2は同一人物、Bは別人だが、誤った疑似ラベルが付与されている
このような疑似ラベルのノイズをソフト疑似ラベルによって製錬していく
背景
疑似ラベルのノイズの影響を軽減するMutual Mean-Teaching (MMT)を提案
4手法 一般的なクラスタリングを使うUnsupervised Domain Adaption
• 事前にソースドメインで訓練された特徴抽出器F(∙ |𝜃)から特徴量出力
ソースドメイン特徴量 ターゲットドメイン特徴量
1. ターゲットドメイン特徴量がクラスタリングでMクラスにグループ分けされる
ここで疑似ラベルを が付与される
2. モデルのパラメータ𝜃とターゲットドメインの分類器𝐶𝑡が分類損失とトリプレット損失で
最適化される
分類損失
トリプレット損失
このクラスタリングのノイズを軽減したい
5手法 Mutual Mean-Teaching(MMT)
1. ソースドメインで分類・トリプレット損失を使って2つの特徴抽出器を学習
(二つとも同じソースドメインで訓練する)
6手法 Mutual Mean-Teaching(MMT)
2. ターゲットドメインへのドメイン適応
同僚ネットワーク(peer-teaching)を使った疑似ソフトラベルの精錬
1. まず従来手法の様にクラスタリングでハード疑似ラベルを生成
(ここでハード疑似ラベルを用いるのは大まかにターゲットの分布を捉えるため)
2. ハード疑似ラベルを分類器に入力して出力確率を得る
この出力確率を疑似ソフトラベルとして扱う
 ただこの疑似ソフトラベルを単純に使用すると、2つのネットワーク𝜃1, 𝜃2が
収束して等しくなってしまい、独立性が失われてしまう
 各ネットワークは時間(iteration)平均モデルを使用して最適化する
疑似ソフトラベルは
MMTの流れ
7手法 Mutual Mean-Teaching(MMT)
2. ターゲットドメインを使ったドメイン適応
3. パラメータの最適化
• 互いのネットワークのソフト疑似ラベルを用いて最適化
分類損失:soft classification loss
MMTの流れ
8手法 Mutual Mean-Teaching(MMT)
2. ターゲットドメインを使ったドメイン適応
3. パラメータの最適化
• 互いのネットワークのソフト疑似ラベルを用いて最適化
トリプレット損失:soft softmax-triplet loss
(従来は疑似ソフトラベル用のトリプレット損失が研究されておらず、この研究で提案)
互いの過去の時間平均ネットワークで生成されたsoft tripletラベルを使用
MMTの流れ
提案 soft softmax-tripet loss 従来のハードなsoftmax-tripet loss
(この研究でもハード疑似ラベル精製の時に使用)
9手法 Mutual Mean-Teaching(MMT)
3. 目的関数
• ハード疑似ラベルとソフト疑似ラベルの両方で訓練される
𝜆𝑖𝑑
𝑡
𝜆 𝑡𝑟𝑖
𝑡
が損失同士の重みを決めるパラメータ
ℒ 𝑖𝑑
𝑡
ℒ 𝑡𝑟𝑖
𝑡
がハードな損失、ℒ 𝑠𝑖𝑑
𝑡
ℒ 𝑠𝑡𝑟𝑖
𝑡
がソフトな損失として𝜃1, 𝜃2を最適化
全体のアルゴリズム
10実験
• 評価指標:mAP,CMC-1,5,10(類似度順で同一人物がn番目以内にくる確率)
• バックボーン:ResNet-50,IBN-ResNet-50,クラスタリング:K-means
• データセットMarket1501,DukeMTMC-reID,MSMT17の3つ
• Duke→Market,Market→Duke,Duke→MSMT,Market→MSMTで評価
• 疑似ラベル数:Market,Duke(500,700,900),MSMT(500,1000,1500,2000)
Person Transfer GAN to Bridge Domain Gap for Person Re-Identificationから引用
MSMT17が新しいデータセット
• アイデンティティ数
• Market,Duke:1501,1404
• MSMT:4101
• 枚数
• Market,Duke:32668,16522
• MSMT:126441
• MSMT17について
• 屋内、屋外の両方
• 月に4日、午前・正午・午後撮影
• その他バリエーション
11実験
• 他手法との精度比較1(Market-to-Duke,Duke-to-Market)
• mAP,CMC共に他手法を高く上回っている
• 精度としては2018年の教師あり手法と同等くらい
12実験(他手法との比較)
• 他手法との精度比較1(Market-to-MSMT,Duke-to-MSMT)
• mAP,CMC共に他手法を高く上回っている
13実験(他手法との比較)
• 疑似ラベル500を持つ他手法(Co-teaching)との比較
• Co-teachingはpeer-teachingを使っておらず精度が低い
14実験(Ablation Study)
• ソフトな疑似ラベル精製の有効性
• ハード疑似ラベルのみで最適化した場合
• 10.7~17.7%mAPが低下する
提案手法
提案手法
ハードのみ
ハードのみ
15実験(Ablation Study)
• soft softmax-triplet損失の有効性
• soft softmax-triplet損失除外した場合
• 3.6~5.3%のmAP低下
提案手法
提案手法
除外
除外
16実験(Ablation Study)
• Mutual Mean Teachingの有効性
• Mutual有効性:2つのネットワークを使わず1つのネットワークを使った場合
• Mean有効性:時間平均を使わない場合
• 精度低下
提案手法
提案手法
17実験(Ablation Study)
• ハードな疑似ラベルの有効性
• ハード分類とハードトリプレットまたはハードトリプレットのみ除いた場合
• 約40~50mAPの大幅な精度低下
 ハードな損失がターゲットドメインのデータ分布をとらえる
基盤であるため。
提案手法
提案手法
両方除外
triplet除外
両方除外
triplet除外
18まとめ
UDA(Unsupervised Domain Adaption)におけるノイズの多い疑似ラベル問題に
取り組むためのMean Mutual Teachingを提案
ネットワークを共同でトレーニングして洗練したハード疑似ラベルと
ソフト疑似ラベルも使用して最適化することで、ターゲットドメインの
サンプル間の関係を適切にモデル化
新しいsoft sofrmax-triplet損失も提案

More Related Content

What's hot

You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
harmonylab
 

What's hot (20)

AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
 
Playing Atari with Six Neurons
Playing Atari with Six NeuronsPlaying Atari with Six Neurons
Playing Atari with Six Neurons
 
2019 08 20_dl
2019 08 20_dl2019 08 20_dl
2019 08 20_dl
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender SystemTop-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender System
 
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
 
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
 
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
 
A PID Controller Approach for Stochastic Optimization of Deep Networks
A PID Controller Approach for Stochastic Optimization of Deep NetworksA PID Controller Approach for Stochastic Optimization of Deep Networks
A PID Controller Approach for Stochastic Optimization of Deep Networks
 
Recursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human FeedbackRecursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human Feedback
 
Capsule Graph Neural Network
Capsule Graph Neural NetworkCapsule Graph Neural Network
Capsule Graph Neural Network
 
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Bayesian Uncertainty Estimation for Batch Normalized Deep NetworksBayesian Uncertainty Estimation for Batch Normalized Deep Networks
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
 
勉強会用スライド
勉強会用スライド勉強会用スライド
勉強会用スライド
 
2021 haizoku
2021 haizoku2021 haizoku
2021 haizoku
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learning
 
Differential Networks for Visual Question Answering
Differential Networks for Visual Question AnsweringDifferential Networks for Visual Question Answering
Differential Networks for Visual Question Answering
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
 

More from harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

More from harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

Recently uploaded

Recently uploaded (10)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption on Person Re-identification

  • 1. DLゼミ論文紹介 「MUTUAL MEAN-TEACHING: PSEUDO LABEL REFINERY FOR UNSUPERVISED DOMAIN ADAPTATION ON PERSON RE-IDENTIFICATION」 久保田遼裕 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室学研究室 2020年 10月 21日
  • 2. 1論文情報 • タイトル MUTUAL MEAN-TEACHING: PSEUDO LABEL REFINERY FOR UNSUPERVISED DOMAIN ADAPTATION ON PERSON RE- IDENTIFICATION • 著者 Yixiao Ge, Dapeng Chen & Hongsheng Li The Chinese University of Hong Kong • 学会 • ICLR2020 • まとめ re-IDタスクにおいて既存のデータセットで学習したモデルをアノテーションされていない データセットに対応させるための教師なしドメイン適応(UDA:Unsupervised Domain Adaption) があるが、クラスタリングで生成される疑似ラベルのノイズは従来無視されてきた。それらのノイズ の影響を軽減するためにハード疑似ラベルとソフト疑似ラベルの両方を用いた相互平均学習 (MMT:Mutual Mean-Teaching)を提案。またソフトラベルを学習するためのソフトマックス トリプレットロスを提案し教師なしドメイン適応(UDA)のタスクにおいて大幅な改善を達成した。 • 実装URL https://github.com/yxgeee/MMT
  • 3. 2背景 • Person re-identification • タスク  複数カメラで撮影された画像から同じ人の画像を取得するタスク • データセット  大量のアノテーションが必要  Market1501,DukeMTMCのようなre-id用データセットが提案されてきた しかし  実際で撮影された人物画像と既存のデータセットでは明るさ・解像度等 ドメイン間のギャップがあり、パフォーマンス低下の原因となる そこでこれまで提案されてきたのがUDA(unsupervised domain adaption) • UDA(unsupervised domain adaption) • source image domain(ラベル付きのデータセット)を target image domain(ラベルなしのデータセット)に適応させる • 問題  クラスタリングベースの手法ではでラベルなし画像に疑似ラベルをクラスタリング で付与して学習するためノイズ(ラベル付け間違い)が発生し精度低下を招く 疑似ラベルのノイズの影響を軽減するMutual Mean-Teaching (MMT)を提案
  • 4. 3 • ハードな疑似ラベルからロバストなソフト疑似ラベルを生成する  peer-teaching(同僚学習)でラベル・特徴を改善していく • 図中のNet1とNet2は同じデータセットですでに訓練されてある (片方が訓練済み、片方が訓練されてない、というわけではない) 左図ではA1,A2は同一人物、Bは別人だが、誤った疑似ラベルが付与されている このような疑似ラベルのノイズをソフト疑似ラベルによって製錬していく 背景 疑似ラベルのノイズの影響を軽減するMutual Mean-Teaching (MMT)を提案
  • 5. 4手法 一般的なクラスタリングを使うUnsupervised Domain Adaption • 事前にソースドメインで訓練された特徴抽出器F(∙ |𝜃)から特徴量出力 ソースドメイン特徴量 ターゲットドメイン特徴量 1. ターゲットドメイン特徴量がクラスタリングでMクラスにグループ分けされる ここで疑似ラベルを が付与される 2. モデルのパラメータ𝜃とターゲットドメインの分類器𝐶𝑡が分類損失とトリプレット損失で 最適化される 分類損失 トリプレット損失 このクラスタリングのノイズを軽減したい
  • 6. 5手法 Mutual Mean-Teaching(MMT) 1. ソースドメインで分類・トリプレット損失を使って2つの特徴抽出器を学習 (二つとも同じソースドメインで訓練する)
  • 7. 6手法 Mutual Mean-Teaching(MMT) 2. ターゲットドメインへのドメイン適応 同僚ネットワーク(peer-teaching)を使った疑似ソフトラベルの精錬 1. まず従来手法の様にクラスタリングでハード疑似ラベルを生成 (ここでハード疑似ラベルを用いるのは大まかにターゲットの分布を捉えるため) 2. ハード疑似ラベルを分類器に入力して出力確率を得る この出力確率を疑似ソフトラベルとして扱う  ただこの疑似ソフトラベルを単純に使用すると、2つのネットワーク𝜃1, 𝜃2が 収束して等しくなってしまい、独立性が失われてしまう  各ネットワークは時間(iteration)平均モデルを使用して最適化する 疑似ソフトラベルは MMTの流れ
  • 8. 7手法 Mutual Mean-Teaching(MMT) 2. ターゲットドメインを使ったドメイン適応 3. パラメータの最適化 • 互いのネットワークのソフト疑似ラベルを用いて最適化 分類損失:soft classification loss MMTの流れ
  • 9. 8手法 Mutual Mean-Teaching(MMT) 2. ターゲットドメインを使ったドメイン適応 3. パラメータの最適化 • 互いのネットワークのソフト疑似ラベルを用いて最適化 トリプレット損失:soft softmax-triplet loss (従来は疑似ソフトラベル用のトリプレット損失が研究されておらず、この研究で提案) 互いの過去の時間平均ネットワークで生成されたsoft tripletラベルを使用 MMTの流れ 提案 soft softmax-tripet loss 従来のハードなsoftmax-tripet loss (この研究でもハード疑似ラベル精製の時に使用)
  • 10. 9手法 Mutual Mean-Teaching(MMT) 3. 目的関数 • ハード疑似ラベルとソフト疑似ラベルの両方で訓練される 𝜆𝑖𝑑 𝑡 𝜆 𝑡𝑟𝑖 𝑡 が損失同士の重みを決めるパラメータ ℒ 𝑖𝑑 𝑡 ℒ 𝑡𝑟𝑖 𝑡 がハードな損失、ℒ 𝑠𝑖𝑑 𝑡 ℒ 𝑠𝑡𝑟𝑖 𝑡 がソフトな損失として𝜃1, 𝜃2を最適化 全体のアルゴリズム
  • 11. 10実験 • 評価指標:mAP,CMC-1,5,10(類似度順で同一人物がn番目以内にくる確率) • バックボーン:ResNet-50,IBN-ResNet-50,クラスタリング:K-means • データセットMarket1501,DukeMTMC-reID,MSMT17の3つ • Duke→Market,Market→Duke,Duke→MSMT,Market→MSMTで評価 • 疑似ラベル数:Market,Duke(500,700,900),MSMT(500,1000,1500,2000) Person Transfer GAN to Bridge Domain Gap for Person Re-Identificationから引用 MSMT17が新しいデータセット • アイデンティティ数 • Market,Duke:1501,1404 • MSMT:4101 • 枚数 • Market,Duke:32668,16522 • MSMT:126441 • MSMT17について • 屋内、屋外の両方 • 月に4日、午前・正午・午後撮影 • その他バリエーション
  • 15. 14実験(Ablation Study) • ソフトな疑似ラベル精製の有効性 • ハード疑似ラベルのみで最適化した場合 • 10.7~17.7%mAPが低下する 提案手法 提案手法 ハードのみ ハードのみ
  • 16. 15実験(Ablation Study) • soft softmax-triplet損失の有効性 • soft softmax-triplet損失除外した場合 • 3.6~5.3%のmAP低下 提案手法 提案手法 除外 除外
  • 17. 16実験(Ablation Study) • Mutual Mean Teachingの有効性 • Mutual有効性:2つのネットワークを使わず1つのネットワークを使った場合 • Mean有効性:時間平均を使わない場合 • 精度低下 提案手法 提案手法
  • 18. 17実験(Ablation Study) • ハードな疑似ラベルの有効性 • ハード分類とハードトリプレットまたはハードトリプレットのみ除いた場合 • 約40~50mAPの大幅な精度低下  ハードな損失がターゲットドメインのデータ分布をとらえる 基盤であるため。 提案手法 提案手法 両方除外 triplet除外 両方除外 triplet除外
  • 19. 18まとめ UDA(Unsupervised Domain Adaption)におけるノイズの多い疑似ラベル問題に 取り組むためのMean Mutual Teachingを提案 ネットワークを共同でトレーニングして洗練したハード疑似ラベルと ソフト疑似ラベルも使用して最適化することで、ターゲットドメインの サンプル間の関係を適切にモデル化 新しいsoft sofrmax-triplet損失も提案

Editor's Notes

  1. 名前,日付をいれること