SlideShare a Scribd company logo
1 of 14
Download to read offline
©Yuki Saito, Nov. 20, 2020.
Paralinguistic Classification of Mask Wearing by
Image Classifiers and Fusion
東京大学 D3 齋藤 佑樹
INTERSPEECH2020 論文読み会 (オンライン)
/131
自己紹介
 齋藤 佑樹 (SAITO Yuki)
– 出身: 釧路高専専攻科 → 東京大学大学院 (猿渡・小山研 現在D3)
– HP: http://sython.org/
 専門: 音声合成・声質変換
– + 統計的機械学習理論 (GAN 音声合成, VAE 声質変換)
– + Human computation (human-in-the-loop 話者埋め込み)
 その他
– D論予備審査を終えました
/132
本日紹介する論文
 Paralinguistic Classification of Mask Wearing by Image
Classifiers and Fusion
– J. Szep(University of Arizona) & S. Hariri(University of Arizona)
 3行まとめ
– The INTERSPEECH 2020 ComParE* Mask Sub-Challenge (MSC) で優勝
– 音声スペクトログラムから, その話者がマスクを着用しているか判定
– 複数の認識モデルからの予測結果のアンサンブルで性能改善
 選んだ動機
– タイムリーな話題だったから
*Computational Paralinguistics ChallengE
/133
1. Introduction
 COVID-19 の大流行
– マスクを着用した状態での音声コミュニケーションの機会が増加
– 音声情報だけからマスク着用の有無を識別する技術の需要
 本論文: Pre-trained large image classifiers + data fusion
– 大規模画像認識モデル (例: VGGNet [Simonyan+15]) を MSC に適応
– 音声スペクトログラム (SP) を入力し, マスク着用の有無を識別
• 複数の分析条件により得られた SP を fusion して入力
• 複数モデルの予測結果をアンサンブルして最終結果を出力
– Discussion として, どの音声周波数帯域が重要なのか調査
SP
analysis
Wearing mask
Not
Deep
convolutional
classifier(s)
Ensemble
/134
2. Experimental framework: Dataset
 Mask Augsburg Speech Corpus (MASC)
– 32名の独語母語話者によるマスク着用/非着用での音声発話
– 男性話者16名/女性話者16名, 1秒間の音声セグメント × 36,554
– 3つのサブセット (Train, Dev, Test) 間で, 話者の重複はなし
SP
analysis
Wearing mask
Not
Deep
convolutional
classifier(s)
Ensemble
表は [Schuller+20] (オーガナイザーによるタスク説明) より引用
/135
2. Experimental framework: SP analysis
 音声スペクトログラム (SP) の分析
– 音声を時間 (横軸), 周波数, (縦軸), 強度 (色)で可視化した表現
– 分析時のパラメータ (特に窓長) 設定が重要
• 時間/周波数分解能の両立は原理的に不可能 (左図 & 中央図)
– 本論文では, 異なるパラメータによる分析結果を多チャネル化 (右図)
SP
analysis
Wearing mask
Not
Deep
convolutional
classifier(s)
Ensemble
/136
2. Experimental framework: Image classifiers
 事前学習済み大規模画像認識モデルを用いた転移学習
– 音声からの話者認識 [Chung+18] や感情推定 [Amiriparian+17] 等で有効
– 本論文では, 以下のモデルを採用
• VGGNet (VG19)[Simonyan+15]
• ResNet (ResNet-50, ResNet-101)[He+15]
• DenseNet (DenseNet-121) [Huang+18]
SP
analysis
Wearing mask
Not
Deep
convolutional
classifier(s)
Ensemble
/137
2. Experimental framework: Ensemble learning
 複数の認識モデルによる予測結果を統合
– 異なるアーキテクチャ, 異なる入力の良いとこ取り
• Averaging: 各モデルの出力確率を平均
• Voting: 各モデルの予測結果で多数決
 その他の機械学習的テクニック等
– データ拡張 (回転, 拡大, 照度変更, 伸縮)
– 周期的な学習率 (1.5e-3 ~ 2.0e-5 で変動)
– Gradually trainable layers (出力層に近い部分から順に更新)
SP
analysis
Wearing mask
Not
Deep
convolutional
classifier(s)
Ensemble
表は [Schuller+20] (オーガナイザーによるタスク説明) より引用
/138
3. Experimental results: 'Training at daylight'
 Train データで学習 & Dev データで検証
– 評価指標: 各 SP & 各モデルの UAR* (正例/負例ごとの Recall の平均)
– Linear SP > others (MSS: Mel & ConstQ: Log)
– 3CH SP > 1CH SP, Narrowband SP (8, 15, 30) [ms] ≈ Wideband SP (5, 15, 50) [ms]
*Unweighted Average Recall
以後の評価では, 表中の太字で示された SP & モデルの組合せのみを使用
/139
3. Experimental results: 'Training in the darkness'
 Train データ と Dev データを混合して 5-fold cross validation
– 評価指標: 各 SP & 各モデルの UAR
– Validation データに学習データの話者が含まれる可能性あり
• 実際に想定している test の環境とギャップがあるが,
• 単に使えるデータの数を増やした時の影響を調べたかっただけ (らしい)
– (参考程度の結果でしかないが) 90%を超える UAR を達成
/1310
3. Experimental results: Data fusion & final result
 Data fusion: 3 SPs × 4 models のアンサンブルで予測
– 評価指標: アンサンブル予測の UAR & Accuracy
– 'Daylight' 設定で Dev データに対する UAR が 73.0%
• オーガナイザーから提供されたベースライン特徴量を加えると 73.3% に
 最終的な Test データに対する予測結果
– 'Darkness' 設定で 80.1% UAR (8.3% higher than the baseline)
• → Validation データに対する UAR (92.5% よりも低い)
/1311
4. Discussion: Class Activation Mapping (CAM)
 CAM: 認識時にモデルが画像中のどこを注視しているか可視化
– モデルの特徴抽出部における最終出力をチャネル方向に平均
• → MSC において, どの周波数レンジが重要なのかを示唆する情報
/1312
4. Discussion: CAM analysis
 3CH SP を入力した際の各モデルの CAM を可視化
– 1,000 サンプルで平均した結果 (右図) → 3 ~ 5 [kHz] にピークを観測
• Mel や Log スケールだとこの帯域の情報が軽視されるので,
Linear SP が識別に適していたという結果とも対応
/1313
5. Conclusion
 本論文: 音声スペクトログラムからのマスク着用識別
– 事前学習済み画像認識モデルを, マスク着用識別タスク (MSC) に適応
– 複数入力・複数モデルのアンサンブル
• 異なる分析パラメータを用いた場合の音声スペクトログラム
• 様々な学習済みモデル (VGGNet, ResNet, DenseNet)
 結果
– Test データに対して 80.3% の UAR を達成
• Baseline よりも 8.3% 改善 & MSC で優勝
– MSC では, 3 ~ 5 [kHz] の周波数帯域の情報が重要であることを示唆
• Mel や Log ではなく, Linear スケールのスペクトログラムが better
 感想
– 実データに対してどれだけ動くのか気になる

More Related Content

What's hot

Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNAYuki Saito
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumnYuki Saito
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)Shunya Ueta
 
Connecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typingConnecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typing禎晃 山崎
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)Toru Tamaki
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...KoueiYamaoka
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識Tomoki Hayashi
 
機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPython機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPythonKimikazu Kato
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
Dataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamicsDataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamics禎晃 山崎
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習Tsubasa Hirakawa
 
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105STAIR Lab Seminar 202105
STAIR Lab Seminar 202105Sho Takase
 
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completionharmonylab
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用Eiji Uchibe
 

What's hot (20)

Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
 
Connecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typingConnecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typing
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
 
ACL2020
ACL2020ACL2020
ACL2020
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
Skip gram shirakawa_20141121
Skip gram shirakawa_20141121Skip gram shirakawa_20141121
Skip gram shirakawa_20141121
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
 
機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPython機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPython
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
Dataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamicsDataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamics
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
 
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105STAIR Lab Seminar 202105
STAIR Lab Seminar 202105
 
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
 

Similar to Interspeech2020 reading

Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 
エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~
エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~
エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~Kazuhiro Suzuki
 
「ソフトウェア品質データ分析を通じた組織的改善の促進」ソフトウエアジャパン2014「ITフォーラムセッション」IPA/SEC データの分析に基づくシステム...
「ソフトウェア品質データ分析を通じた組織的改善の促進」ソフトウエアジャパン2014「ITフォーラムセッション」IPA/SEC データの分析に基づくシステム...「ソフトウェア品質データ分析を通じた組織的改善の促進」ソフトウエアジャパン2014「ITフォーラムセッション」IPA/SEC データの分析に基づくシステム...
「ソフトウェア品質データ分析を通じた組織的改善の促進」ソフトウエアジャパン2014「ITフォーラムセッション」IPA/SEC データの分析に基づくシステム...Makoto Nonaka
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太Preferred Networks
 
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォームAutoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォームTakuya Azumi
 
機械学習エンジニアリング・品質保証 (ESS2018招待講演 鷲崎弘宜)
機械学習エンジニアリング・品質保証 (ESS2018招待講演 鷲崎弘宜)機械学習エンジニアリング・品質保証 (ESS2018招待講演 鷲崎弘宜)
機械学習エンジニアリング・品質保証 (ESS2018招待講演 鷲崎弘宜)Hironori Washizaki
 
Gifu University Before Study 2015
Gifu University Before Study 2015Gifu University Before Study 2015
Gifu University Before Study 2015Kiyoshi Ogawa
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summaryTakuya Minagawa
 
日本における組み合わせテスト - 歴史、適用状況、技法、ツール -
日本における組み合わせテスト - 歴史、適用状況、技法、ツール -日本における組み合わせテスト - 歴史、適用状況、技法、ツール -
日本における組み合わせテスト - 歴史、適用状況、技法、ツール -Keizo Tatsumi
 
TensorFlowをもう少し詳しく入門
TensorFlowをもう少し詳しく入門TensorFlowをもう少し詳しく入門
TensorFlowをもう少し詳しく入門tak9029
 
Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~
Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~
Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~Yasuharu Nishi
 
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習Hori Tasuku
 
マルチコアを用いた画像処理
マルチコアを用いた画像処理マルチコアを用いた画像処理
マルチコアを用いた画像処理Norishige Fukushima
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...y-uti
 

Similar to Interspeech2020 reading (16)

Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~
エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~
エンタープライズシステムにおけるテスト ~STE研究交流会 参加者の視点から ~
 
「ソフトウェア品質データ分析を通じた組織的改善の促進」ソフトウエアジャパン2014「ITフォーラムセッション」IPA/SEC データの分析に基づくシステム...
「ソフトウェア品質データ分析を通じた組織的改善の促進」ソフトウエアジャパン2014「ITフォーラムセッション」IPA/SEC データの分析に基づくシステム...「ソフトウェア品質データ分析を通じた組織的改善の促進」ソフトウエアジャパン2014「ITフォーラムセッション」IPA/SEC データの分析に基づくシステム...
「ソフトウェア品質データ分析を通じた組織的改善の促進」ソフトウエアジャパン2014「ITフォーラムセッション」IPA/SEC データの分析に基づくシステム...
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォームAutoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
 
機械学習エンジニアリング・品質保証 (ESS2018招待講演 鷲崎弘宜)
機械学習エンジニアリング・品質保証 (ESS2018招待講演 鷲崎弘宜)機械学習エンジニアリング・品質保証 (ESS2018招待講演 鷲崎弘宜)
機械学習エンジニアリング・品質保証 (ESS2018招待講演 鷲崎弘宜)
 
Gifu University Before Study 2015
Gifu University Before Study 2015Gifu University Before Study 2015
Gifu University Before Study 2015
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
 
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システムアイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
 
日本における組み合わせテスト - 歴史、適用状況、技法、ツール -
日本における組み合わせテスト - 歴史、適用状況、技法、ツール -日本における組み合わせテスト - 歴史、適用状況、技法、ツール -
日本における組み合わせテスト - 歴史、適用状況、技法、ツール -
 
TensorFlowをもう少し詳しく入門
TensorFlowをもう少し詳しく入門TensorFlowをもう少し詳しく入門
TensorFlowをもう少し詳しく入門
 
Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~
Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~
Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~
 
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
 
マルチコアを用いた画像処理
マルチコアを用いた画像処理マルチコアを用いた画像処理
マルチコアを用いた画像処理
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
 

More from Yuki Saito

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdfYuki Saito
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_ascYuki Saito
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfYuki Saito
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUSYuki Saito
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentationYuki Saito
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn MeetingYuki Saito
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_publishedYuki Saito
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会Yuki Saito
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asjYuki Saito
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_ttsYuki Saito
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vcYuki Saito
 
Saito2017icassp
Saito2017icasspSaito2017icassp
Saito2017icasspYuki Saito
 

More from Yuki Saito (20)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
 
Saito2017icassp
Saito2017icasspSaito2017icassp
Saito2017icassp
 
Slp201702
Slp201702Slp201702
Slp201702
 

Interspeech2020 reading

  • 1. ©Yuki Saito, Nov. 20, 2020. Paralinguistic Classification of Mask Wearing by Image Classifiers and Fusion 東京大学 D3 齋藤 佑樹 INTERSPEECH2020 論文読み会 (オンライン)
  • 2. /131 自己紹介  齋藤 佑樹 (SAITO Yuki) – 出身: 釧路高専専攻科 → 東京大学大学院 (猿渡・小山研 現在D3) – HP: http://sython.org/  専門: 音声合成・声質変換 – + 統計的機械学習理論 (GAN 音声合成, VAE 声質変換) – + Human computation (human-in-the-loop 話者埋め込み)  その他 – D論予備審査を終えました
  • 3. /132 本日紹介する論文  Paralinguistic Classification of Mask Wearing by Image Classifiers and Fusion – J. Szep(University of Arizona) & S. Hariri(University of Arizona)  3行まとめ – The INTERSPEECH 2020 ComParE* Mask Sub-Challenge (MSC) で優勝 – 音声スペクトログラムから, その話者がマスクを着用しているか判定 – 複数の認識モデルからの予測結果のアンサンブルで性能改善  選んだ動機 – タイムリーな話題だったから *Computational Paralinguistics ChallengE
  • 4. /133 1. Introduction  COVID-19 の大流行 – マスクを着用した状態での音声コミュニケーションの機会が増加 – 音声情報だけからマスク着用の有無を識別する技術の需要  本論文: Pre-trained large image classifiers + data fusion – 大規模画像認識モデル (例: VGGNet [Simonyan+15]) を MSC に適応 – 音声スペクトログラム (SP) を入力し, マスク着用の有無を識別 • 複数の分析条件により得られた SP を fusion して入力 • 複数モデルの予測結果をアンサンブルして最終結果を出力 – Discussion として, どの音声周波数帯域が重要なのか調査 SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble
  • 5. /134 2. Experimental framework: Dataset  Mask Augsburg Speech Corpus (MASC) – 32名の独語母語話者によるマスク着用/非着用での音声発話 – 男性話者16名/女性話者16名, 1秒間の音声セグメント × 36,554 – 3つのサブセット (Train, Dev, Test) 間で, 話者の重複はなし SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble 表は [Schuller+20] (オーガナイザーによるタスク説明) より引用
  • 6. /135 2. Experimental framework: SP analysis  音声スペクトログラム (SP) の分析 – 音声を時間 (横軸), 周波数, (縦軸), 強度 (色)で可視化した表現 – 分析時のパラメータ (特に窓長) 設定が重要 • 時間/周波数分解能の両立は原理的に不可能 (左図 & 中央図) – 本論文では, 異なるパラメータによる分析結果を多チャネル化 (右図) SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble
  • 7. /136 2. Experimental framework: Image classifiers  事前学習済み大規模画像認識モデルを用いた転移学習 – 音声からの話者認識 [Chung+18] や感情推定 [Amiriparian+17] 等で有効 – 本論文では, 以下のモデルを採用 • VGGNet (VG19)[Simonyan+15] • ResNet (ResNet-50, ResNet-101)[He+15] • DenseNet (DenseNet-121) [Huang+18] SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble
  • 8. /137 2. Experimental framework: Ensemble learning  複数の認識モデルによる予測結果を統合 – 異なるアーキテクチャ, 異なる入力の良いとこ取り • Averaging: 各モデルの出力確率を平均 • Voting: 各モデルの予測結果で多数決  その他の機械学習的テクニック等 – データ拡張 (回転, 拡大, 照度変更, 伸縮) – 周期的な学習率 (1.5e-3 ~ 2.0e-5 で変動) – Gradually trainable layers (出力層に近い部分から順に更新) SP analysis Wearing mask Not Deep convolutional classifier(s) Ensemble 表は [Schuller+20] (オーガナイザーによるタスク説明) より引用
  • 9. /138 3. Experimental results: 'Training at daylight'  Train データで学習 & Dev データで検証 – 評価指標: 各 SP & 各モデルの UAR* (正例/負例ごとの Recall の平均) – Linear SP > others (MSS: Mel & ConstQ: Log) – 3CH SP > 1CH SP, Narrowband SP (8, 15, 30) [ms] ≈ Wideband SP (5, 15, 50) [ms] *Unweighted Average Recall 以後の評価では, 表中の太字で示された SP & モデルの組合せのみを使用
  • 10. /139 3. Experimental results: 'Training in the darkness'  Train データ と Dev データを混合して 5-fold cross validation – 評価指標: 各 SP & 各モデルの UAR – Validation データに学習データの話者が含まれる可能性あり • 実際に想定している test の環境とギャップがあるが, • 単に使えるデータの数を増やした時の影響を調べたかっただけ (らしい) – (参考程度の結果でしかないが) 90%を超える UAR を達成
  • 11. /1310 3. Experimental results: Data fusion & final result  Data fusion: 3 SPs × 4 models のアンサンブルで予測 – 評価指標: アンサンブル予測の UAR & Accuracy – 'Daylight' 設定で Dev データに対する UAR が 73.0% • オーガナイザーから提供されたベースライン特徴量を加えると 73.3% に  最終的な Test データに対する予測結果 – 'Darkness' 設定で 80.1% UAR (8.3% higher than the baseline) • → Validation データに対する UAR (92.5% よりも低い)
  • 12. /1311 4. Discussion: Class Activation Mapping (CAM)  CAM: 認識時にモデルが画像中のどこを注視しているか可視化 – モデルの特徴抽出部における最終出力をチャネル方向に平均 • → MSC において, どの周波数レンジが重要なのかを示唆する情報
  • 13. /1312 4. Discussion: CAM analysis  3CH SP を入力した際の各モデルの CAM を可視化 – 1,000 サンプルで平均した結果 (右図) → 3 ~ 5 [kHz] にピークを観測 • Mel や Log スケールだとこの帯域の情報が軽視されるので, Linear SP が識別に適していたという結果とも対応
  • 14. /1313 5. Conclusion  本論文: 音声スペクトログラムからのマスク着用識別 – 事前学習済み画像認識モデルを, マスク着用識別タスク (MSC) に適応 – 複数入力・複数モデルのアンサンブル • 異なる分析パラメータを用いた場合の音声スペクトログラム • 様々な学習済みモデル (VGGNet, ResNet, DenseNet)  結果 – Test データに対して 80.3% の UAR を達成 • Baseline よりも 8.3% 改善 & MSC で優勝 – MSC では, 3 ~ 5 [kHz] の周波数帯域の情報が重要であることを示唆 • Mel や Log ではなく, Linear スケールのスペクトログラムが better  感想 – 実データに対してどれだけ動くのか気になる