SlideShare a Scribd company logo
1 of 23
Download to read offline
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Incorporating group update for speech enhancement
based on convolutional gated recurrent network
Hiroshi Sekiguchi, Morikawa Lab
書誌情報
• “Incorporating group update for speech enhancement based
on convolutional gated recurrent network”,
Wenhao Yuan
School of Computer Science and Technology, Shandong University of Technology, Zibo, China
Speech Communication 132 (2021) 32–39
https://www.sciencedirect.com/science/article/abs/pii/S0167639321000534
• 概要
– 音声強調の分野で、①従来のノイジー音声の時間方向の特徴相関に
加えて周波数方向の空間情報を使い、②ノイジー音声の変化速度が
局所的に異なる領域をグルーピングし、③causalなalgorithmを用いて、
実時間処理でSOTAを達成した
• 興味:ノイズ削減の新たな仕組みの導出(①と②)が新鮮 2
アジェンダ
• 背景
• 提案手法
• 評価
• まとめ
• 感想
3
背景-1: 本論文の対象技術分野
• Speech enhancement(音声強調)の応用分野
– 重畳音声分離(Voice separation)
– 声楽音声の分離(Singing voice separation)
– 背景雑音低減
– 部屋の反響除去
• 音声強調技術の分類
– Computational auditory scena analysis(聴覚物体分析モデル)
– Non-negative matrix factorization(NMF)
– 深層学習
• 時間ドメインか周波数ー時間ドメインか
– 時間ドメイン(入力:音声波形):多次元データ→計算時間大、位相情報含む→分離性能は良い
– 時間-周波数ドメイン(入力:周波数分析データ)
» 振幅のみ: 実数のみで計算が軽い、位相は使わないので分離性能はそこそこ
» 振幅・位相両方(複素数):計算量が多い、位相は予測誤差が大、
• Causalかnon-causalか
– Causal: 現在と過去のデータのみを使う → 分離性能はそこそこ、実時間処理に向く
– Non-Causal:現在、過去のデータに加えて、将来のデータも使える →分離性のは良い、実時間処理は無理
4
本論文の対象技術分野
背景-2: 時間ー周波数ドメインの振幅のみを用いた背景雑音低減
• 教師あり学習
– 学習データ入力:ノイジー音声とクリーン音声:
• 𝑋𝑙,𝑘 :ノイズ音声の時間フレーム𝑙、周波数ビン𝑘のスペクトラム(複素数)
• 𝑋𝑙,𝑘 = S𝑙,𝑘 + N𝑙,𝑘、S𝑙,𝑘:クリーン音声、 N𝑙,𝑘:背景ノイズ
• 𝑌𝑙: 時間フレーム𝑙の対数スペクトラム振幅ベクトル(実数ベクトル)
𝑌𝑙 = log 𝑋𝑙,1
2
, log 𝑋𝑙,2
2
, ⋯ , log 𝑋𝑙,𝑘
2
, ⋯ , log 𝑋𝑙,𝐾
2
– 教師データ:マスクのGround Truth:ノイジー音声とクリーン音声から計算
• 𝑇𝑙,𝑘 = log
𝑆𝑙,𝑘
𝑋𝑙,𝑘
+ 1 : Ground Truth: 振幅mask(実数)
• 𝑇𝑙 = 𝑇𝑙,1, 𝑇𝑙,2, ⋯ , 𝑇𝑙,𝑘, ⋯ 𝑇𝑙,𝐾
• 学習: (𝑌𝑙, 𝑇𝑙)のペアで 𝑓θ(・):マスク予測を学習
– Loss関数:𝐿 θ =
1
𝐿
σ𝑙=1
𝐿
𝑓θ 𝑌𝑙 − 𝑇𝑙
• 推測:未知𝑋𝑙,𝑘から、 ෠
𝑇𝑙 = 𝑓θ(𝑌𝑙)で推測
– クリーン音声の推測:
Ƹ
𝑠𝑙 = 𝐼𝑆𝑇𝐹 exp(෠
𝑇𝑙 − 1 𝑋𝑙,𝑘 exp 𝑗α𝑙
α𝑙: 時間フレーム𝑙のノイジー音声位相
5
𝑓θ(・)
𝑌𝑙: ノイジー音声 ෠
𝑇𝑙 = 𝑓θ(𝑌𝑙)
S𝑙:クリーン音声
N𝑙: 背景ノイズ
⊕
𝑇𝑙: 𝐺𝑟𝑜𝑢𝑛𝑑
𝑇𝑟𝑢𝑡ℎ
Loss: 𝐿 θ
背景-3:時間ー周波数ドメインにおける音声強調の基本思想
• クリーン音声と背景ノイズの特性差を学習する。
• 𝑓θ ・ : 𝑌𝑙 → ෠
𝑇𝑙のマッピング関数の教師あり学習で、ノイジー音声ス
ペクトラムの動きとマスクの動きの差からクリーン音声スペクトラル
を推定する能力を学習する
• 従来は:ノイジ音声のスペクトラルの時間方向の動きとマスクの時間
方向の動きの差からクリーン音声と背景ノイズの特性差を学習した→
時間方向の相関を検出するRNN(LSTM,GRU)を使用
6
<標準GRU>
𝑧𝑙 = σ 𝑊
𝑧ℎ𝑙−1 + 𝑈𝑧𝑋𝑙 + 𝑏𝑧 : input gate
𝑟𝑙 = σ 𝑊
𝑟ℎ𝑙−1 + 𝑈𝑟𝑋𝑙 + 𝑏𝑟 : reset gate
෨
ℎ𝑙 = tanh(𝑊ℎ 𝑟𝑙 ○ ℎ𝑙−1 + 𝑈ℎ𝑋𝑙 + 𝑏ℎ)
ℎ𝑙 = 1 − 𝑧𝑙 ○ ℎ𝑙−1 + 𝑧𝑙 ○ ෨
ℎ𝑙
○ :要素毎の乗算、𝑊ℎ,UX: 行列乗算 GRUブロック図
𝑧𝑙
1 − 𝑧𝑙
𝑟𝑙
ℎ𝑙
ℎ𝑙−1
𝑦𝑙
𝑋𝑙
達成したい要件と提案方策
• 音声強調後のターゲット音声(クリーン音声の推測信号)の音質向上
– 従来の時間方向の特徴量相関情報に加えて、周波数方向の特徴量の依存関係や空
間構造を用いることで分離性能を向上
→(提案方策①)Convolutional Gated Recurrent Network(CGRN)を用いる
– ノイジ音声に含まれるノイズの特性は、時間および周波数の局所で、時間変化速
度が異なる領域が併存する場合があり、これに対応する構造を実現することで、
分離性能を向上
→(提案方策②)Ordered Neuron-LSTMを用いる
• 実時間処理
– Causalなアルゴリズム
→(提案方策) unidirectional GRUの採用
7
ON-LSTMの隠れ層の特徴マップ
変化速度遅く、発声全体渡って同じ
特徴を維持するニューロン群
時間
RNN隠れ層
Neuron
index
変化速度速く、短時間のみ同じ特徴
を維持するニューロン群
上下両者の中間のニューロン群
提案手法-1: Convolutional Gated Recurrent Network(CGRN)
• (提案方策①)Convolutional Gated Recurrent Network(CGRN)を用いる
– 行列のFull-ConnectedをConvolutionに置き換える
→ 周波数方向の局所的な空間構造を抽出可能
<Convolutional Gated Recurrent Network>
𝑍𝑙 = σ 𝑊𝑍 ∗ 𝐻𝑙−1 + 𝑈𝑍 ∗ 𝑋𝑙 +𝑏𝑍 : input(update) gate
𝑅𝑙 = σ 𝑊𝑅 ∗ 𝐻𝑙−1 +𝑈𝑅 ∗ 𝑋𝑙 +𝑏𝑅 : reset gate
෩
𝐻𝑙 = ELU(𝑊𝐻∗ 𝑅𝑙 ○ 𝐻𝑙−1 + 𝑈𝐻 ∗ 𝑋𝑙 + 𝑏𝐻)
𝐻𝑙 = 1 − 𝑍𝑙 ○ 𝐻𝑙−1 + 𝑍𝑙 ○ ෩
𝐻𝑙
○ :要素毎の乗算、∗: Convolution、
ELU: Exponential Linear Unit
8
Convolution計算とELU以外はGRUと同じ
CGRNブロック図
Z𝑙
1 − 𝑍𝑙
𝑅𝑙
H𝑙
H𝑙−1
𝑦𝑙
𝑋𝑙
Convolution計算
周
波
数
方
向
提案手法-2: Ordered Neuron(ON)-LSTM
• (提案方策②)Ordered Neuron(ON)-LSTMを用いる
– Ordered Neuron :深層学習によるNLP(自然言語解析)文章構造解析の解法で、
解析出力が木構造になるように誘導バイアスを組み込む手法
(参考文献) “ORDERED NEURONS: INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORKS”
https://arxiv.org/abs/1810.09536
9
GroundTruth
文章解析推定結果
変化速度が遅く、文章全体に渡って持続する内部情報
変化速度が速く、文章の局所部でのみ有効な内部情報
情報の
階層
上下両者の中間的な内部情報
時間
木構造
のnode
提案手法-3: Ordered Neuron(ON)-LSTM
• ON-LSTMの機能
– 木構造の各ノードは、RNNの隠れ層のneuronの部分領域(segment)に相当し、それぞれの部分領域では、内部情報の時間変化速度に違いが
ある。また、この部分領域は時間的に変化する。 ON-LSTMは、この時間変化速度の対応したneuron部分領域をデータから自動的に割り付
ける
– まず、部分領域が2つの場合を考える
– Ordered neuron: 時間変化速度にランクがついたneuronのこと
• slow neuron=内部情報の持続時間が長いneuron=高位のneuron:特徴量の時間変化速度が遅い部分領域のneuron
• Fast neuron=内部情報の持続時間が短いneuron=低位のneuron:特徴量の時間変化速度が速い部分領域のneuron
– On-LSTMでは、この2つの部分領域を生成するため、同じ部分領域に属するneuronに対するgate出力を同値か近い値とするgate(活性化関
数)を提案する
ො
𝑔 = 𝑐𝑢𝑚𝑎𝑥 ⋯ : ⋯確率変数が離散の時
= 𝑐𝑢𝑚𝑠𝑢𝑚 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 ⋯ :確率変数が連続続の時 𝑠𝑜𝑓𝑡𝑚𝑎𝑥で緩和近似する
⋯ は、ベクトル=[𝑎1, 𝑎2, ⋯ , 𝑎𝑀]、𝑀:隠れ層の次元数、の時に
(確率変数𝑑が離散の場合:𝑎𝑖、𝑖 = 1, ⋯ , 𝑀、は確率分布𝑝に対して、𝑎𝑖 = 𝑝(𝑑 = 𝑖)、σ𝑖=1
𝑀
𝑎𝑀 = 1)
(確率変数dが連続の場合:𝑎𝑖、𝑖 = 1, ⋯ , 𝑀、は実数のセット{𝑑𝑖、𝑖 = 1, ⋯ , 𝑀}に対して𝑎𝑖 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑑𝑖 、 σ𝑖=1
𝑀
𝑎𝑀 = 1)
𝑐𝑢𝑚𝑎𝑥 ⋯ ≡ 𝑎1, 𝑎1 + 𝑎2, ⋯ , 𝑎1 + 𝑎2 + ⋯ + 𝑎𝑀
𝑐𝑢𝑚𝑎𝑥 ⋯ ≡ 𝑎1 + 𝑎2 + ⋯ + 𝑎𝑀, ⋯ , 𝑎𝑀−1 + 𝑎𝑀, 𝑎𝑀
10
提案手法-4: Ordered Neuron(ON)-LSTM
• ON-LSTMの仕組み
– Binary gate 𝑔=(0,…0,1…1)となるvectorで、0と1で、Neuron内部情報の更新頻度に高低の2通りの
neuron群を生成したい。このgateが制御する0-segment(変化速度が速い)と1-segment(変化速度
が遅い)で、異なる更新ルールがあるとする。
– このvector 𝑔において、要素が0から1へ初めて変化するvector index 𝑑をsplit pointと呼び、index 𝑑
が確率変数と考えて、index 𝑑で要素が0から1へ初めて変化する確率を𝑝 𝑑 = [𝑝 𝑑 = 1 , 𝑝(
)
𝑑 =
2 , ⋯ , 𝑝 𝑑 = 𝑀 ]とする。 (Mは隠れ層の次元数)
– この時、Vector𝑔のindex 𝑘が1である確率𝑝 𝑔𝑘 = 1 は、 σi≤𝑘 𝑝(𝑑 = 𝑖) となり、ベクトルでの表記は、
𝑝 𝑔 = [𝑝 𝑑 = 1 , 𝑝 𝑑 = 1 + 𝑝 𝑑 = 2 , ⋯ , 𝑝 𝑑 = 1 + 𝑝 𝑑 = 2 + ⋯ + 𝑝 𝑑 = 𝑀 ] ≡ 𝑐𝑢𝑚𝑎𝑥 (𝑝 𝑑 )である。
– 𝑔𝑘がbinaryの確率変数であれば、 𝑝 𝑔 = 𝑐𝑢𝑚𝑎𝑥 (𝑝 𝑑 )は、Vector 𝑔の期待値(各index 𝑘の期待値)に
なっている。
11
連続
連続
RNN隠れ層
neuron index
時間
slow neuronの領域
(1-segment)
Fast neuronの領域
(0-segment)
𝑑 𝑝 𝑑 = 𝑖
𝑖
𝑀
1
1
:
1
0
:
0
𝑑
Binary gate 𝑔
Index 小
Index 大
⊚
Binary gate 𝑔=(0,…0,1…1)
変化速度が
遅い信号
• ON-LSTMの音声強調への適用:
– ノイズ音声の特徴量の変化速度が高中低の
3領域に分ける機能を作る
– この領域毎に属する隠れ層neuronのindex
範囲を更新する(Group-update(GU)と呼
ぶ)
– 2つのgate、 𝑐𝑢𝑚𝑎𝑥 ⋯ と𝑐𝑢𝑚𝑎𝑥 ⋯ を
overlapさせて3つの領域を作成
෨
𝐹𝑙 = 𝑐𝑢𝑚𝑎𝑥(softmax(𝑊෨
𝐹 ∗ 𝐻𝑙−1 + 𝑈 ෨
𝐹 ∗ 𝑋𝑙 + 𝑏 ෨
𝐹))
ሚ
𝐼𝑙 = 𝑐𝑢𝑚𝑎𝑥(softmax(𝑊ሚ
𝐼 ∗ 𝐻𝑙−1 + 𝑈ሚ
𝐼 ∗ 𝑋𝑙 + 𝑏ሚ
𝐼))
Ω𝑙 = ෨
𝐹𝑙 ○ ሚ
𝐼𝑙
𝐻𝑙 = Ω𝑙 ○ ((1 − 𝑍𝑙) ○ 𝐻𝑙−1 + 𝑍𝑙 ○ ෩
𝐻𝑙)
+( ෨
𝐹𝑙 − Ω𝑙) ○ 𝐻𝑙−1 + (ሚ
𝐼𝑙 − Ω𝑙) ○ ෩
𝐻𝑙
提案手法-5: Convolutional Gated Recurrent Network(CGRN)に
ON-LSTMを組み込む (CGRN-GU)
12
CGRNブロック図
Z𝑙
1 − 𝑍𝑙
𝑅𝑙
H𝑙−1
𝑋𝑙
෩
𝐻𝑙
𝐻𝑙
∗
⊚
⊕
⊚
⊚
෩
𝐻𝑙
𝐻𝑙
∗
H𝑙−1
H𝑙
slow neuron
制御gate
fast neuron
制御gate
𝑐𝑢𝑚𝑎𝑥
𝑐𝑢𝑚𝑎𝑥
Middle speed
neuron制御
gate
前フレーム隠れ層の信号
(変化速度遅い)
Index 大
Index 小
0
0
1
1
1
現入力信号
(変化速度速い)
CGRN出力信号
(中間速度)
slow neuronの領域
fast neuronの領域
middle speed neuronの領域
𝑀
1
評価方法
• データーセット
① Voice Bank + DEMAND
◼ 音声データ:Voice Bank
◼ ノイズデータ:DEMAND
◼ Trainingデータセット
◼ 11572個のノイジー音声とクリーン音声のペア::話者28名(男女各14名)
◼ ノイズ:10種類
◼ 音声:ノイズのSNR=0, 5, 10, 15dB
◼ Testデータセット
◼ 824個のノイジー音声とクリーン音声のペア:話者2名(Trainingデータセットには含まれない話者)
◼ ノイズ:5種類(Trainingデータセットに含まれない種類のノイズ)
◼ 音声:ノイズのSNR=2.5, 7.5, 12.5, 17.5dB
◼ 元音声48KHzサンプリング→16KHzにdown samplingして使用
② DNS challenge at Interspeech 2020
◼ 音声データ:500時間、話者2150名
◼ ノイズデータ:Audioset、Freesound、DEMANDから60000クリップ
◼ Trainingデータセット
◼ 100時間の音声とランダム選択したノイズクリップから合成
◼ 音声:ノイズのSNR=-15~+15dBの区間を1dB刻みでランダムに選択
◼ Testデータセット
◼ 150個の合成したノイズ音声
③ その他条件
◼ Hannning窓:512point、フレームシフト:256point 13
評価方法
• 学習方法
① 学習モデル
◼ CGRN-GU, CGRN, GRUの3モデル
◼ RNN層数:5-層
◼ CGRN-GUとCGRNのCNN:filter数:64、filter size: 9
◼ GRUの隠れ層とunit stateの次元数: 1024
② 学習条件
◼ Backpropagationのtruncation length:Voice Bank+DEMAND: 128, DNS challenge: 64
◼ 最適化アルゴリズム:Adam, batch size: 512, 学習率:0.02
◼ Epoch数: Voice Bank+DEMAND :50, DNS challenge: 20
◼ 音質評価指標
① CSIG, CBAK, COVL :主観的オピニオン評価
② PESQ(音質知覚評価)
③ SDR(Signal to Distortion Ratio)
④ STOI(明瞭度評価)
14
評価項目
• モデルのノイズ削減性能比較
• Group-updateの効果
• フレームシフトの効果
• 他のベースラインアルゴリズムとのノイズ削減性能比較
• 実時間処理の比較
15
評価結果
• モデルのノイズ削減性能比較
– ノイズ削減性能
• 3modelともノイズ削減効果がある
• CGRN-GU>CGRN>GRU
– 考察
• GRUに比較して、CGRN、CGRN-GUの
パラメータ数は大幅削減している→Full
connectをCNNに代えた効果
• GU部分のパラメータ増加(0.65M)は最
小限になっている
16
評価結果
• Group-updateの効果
– CGRNとCGRN-GUの各々で、過去情報𝐻𝑙−1を反映
する能力の差を評価する→ 𝐻𝑙−1に掛かる比例項の累
積分布を比較する
– CGRNに掛かる比例項:1 − 𝑍𝑙
– CGRN-GUに掛かる比例項:
෨
𝐹𝑙 − Ω𝑙 ○ 𝑍𝑙 / ෨
𝐹𝑙 + ሚ
𝐼𝑙 − Ω𝑙
– 考察
• CGRN-CUの累積分布はCGRNよりも下方に位
置している→CGRNCの過去情報𝐻𝑙−1を制御す
るgateの0→1に変化するindex 𝑑の平均は、
CGRNよりも小さいので、過去情報𝐻𝑙−1を利用
する隠れ層のneuron領域はより広範囲である
• これが、ノイズ削減性能がCGRN-CU>CGRN
である根拠の一つ
17
評価結果
• フレームシフトの効果
– 従来:一般的に、フレームシフト=ウィンドウ長÷2
– 最近:フレームシフトを短くすると、ノイズ削減性能が向上するとの報告有り
– 実際に、フレームシフト256→128と半減すると、ノイズ削減性能が良くなった
– 考察
• フレームシフトが短いと、同じノイズ情報を複数のフレームで用いて学習するので、ノイズの
性質をより学習できるため
• フレームシフトが短いと、発声全体を処理する計算量は反比例して多くなる。
– ノイズ低減性能と計算時間はトレードオフの関係であり、実時間処理が必要な場
合は、フレームシフト量に下限がある。
18
評価結果
• 他のベースラインアルゴリズムとのノイズ削減性能比較
– 他のベースライン:4つのCausal手法(現在と過去データのみ使用)と7つの
Non-Causal手法(現在、過去、および将来データも使用)
– 一般的には、学習に使うデータ量が多いのでNonーCausal手法の性能が良いはず
– Causal内での比較:CGRN-GUはフレームシフト128で全音質評価指標でトップ
– Causal/Non-Causalを通した全体での比較:CGRN-GUはフレームシフト128で
Non-CausalのPHASEN以外で、より良い高い音質性能
19
評価結果
• 実時間性能の比較
– 音声を16msec毎に逐次処理して、実時間で処理可能かを評価
– 環境: Onnix Runtime 1.1
– 結果
• 低性能CPUでは、CGRNは実時間処理可能
• 高性能のCPUであれば、CGRNおよびCGRN-GUともに実時間処理可能
20
Laptop (Intel i5-8250U CPU) Destop (AMD 2700X CPU)
処理時間 RealTime
Factor
処理時間 RealTime
Factor
CGRN 7 msec 0.44 5 msec 0.31
CGRN-GU 22 msec 1.38 12 msec 0.75
まとめ
• 音声のノイズ低減を改善するために、Convolutional Gated Recurrent Network(CGRN)と、
それにGroup update(GU)を追加したCGRN-GUを、causalのパラダイム(学習データは現在
と過去のものに限定)で開発した
• CGRN-GUは、ノイジー音声の特性を、従来よりも、より考慮した工夫を施した
– 時間方向のデータ長時間依存性は:GRUで
– 周波数方向の局所的な空間構造は:CNNで
– ノイズの変化速度の追跡には:Ordered-Neuron LSTMで
• ノイズ削減評価の結果、CGRN-GUは他のNon-Causalのアルゴリズムのほとんどよりもノイ
ズ削減性能が良かった
• CGRNとCGRN-GUは、ともに、Desk TopであればCPUのみで実時間処理ができることが分
かった。
• 将来研究
– 時間ー周波数ドメインのノイズ音声の位相を考慮したアルゴリズムに本手法を適用して、さらなる
性能改善を図る
21
感想
• ノイズの局所的な時間的変化速度を追跡するのに、ON-LSTMを用いて
いるが面白い。
• しかし、背景ノイズが人間の音声の場合は、適用ができないのだろう
か
– 背景の音声は、ターゲットの音声と特徴が類似しているため見分けがつかな
いのでは。
• ON-LSTMは、初めてだったが、NLPでは常識なのか。
22
END
23

More Related Content

What's hot

モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化Yusuke Uchida
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...Deep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心Shota Imai
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会正志 坪坂
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心にウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心にRyosuke Tachibana
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 

What's hot (20)

モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心にウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 

Similar to 【DL輪読会】Incorporating group update for speech enhancement based on convolutional gated recurrent network

JAISTサマースクール2016「脳を知るための理論」講義04 Neural Networks and Neuroscience
JAISTサマースクール2016「脳を知るための理論」講義04 Neural Networks and Neuroscience JAISTサマースクール2016「脳を知るための理論」講義04 Neural Networks and Neuroscience
JAISTサマースクール2016「脳を知るための理論」講義04 Neural Networks and Neuroscience hirokazutanaka
 
Neural Networks Ver1
Neural  Networks  Ver1Neural  Networks  Ver1
Neural Networks Ver1ncct
 
Economic Load Dispatch (ELD), Economic Emission Dispatch (EED), Combined Econ...
Economic Load Dispatch (ELD), Economic Emission Dispatch (EED), Combined Econ...Economic Load Dispatch (ELD), Economic Emission Dispatch (EED), Combined Econ...
Economic Load Dispatch (ELD), Economic Emission Dispatch (EED), Combined Econ...cscpconf
 
Recurrent Neural Networks
Recurrent Neural NetworksRecurrent Neural Networks
Recurrent Neural NetworksSharath TS
 
Deep learning lecture - part 1 (basics, CNN)
Deep learning lecture - part 1 (basics, CNN)Deep learning lecture - part 1 (basics, CNN)
Deep learning lecture - part 1 (basics, CNN)SungminYou
 
Objective Evaluation of a Deep Neural Network Approach for Single-Channel Spe...
Objective Evaluation of a Deep Neural Network Approach for Single-Channel Spe...Objective Evaluation of a Deep Neural Network Approach for Single-Channel Spe...
Objective Evaluation of a Deep Neural Network Approach for Single-Channel Spe...csandit
 
5.MLP(Multi-Layer Perceptron)
5.MLP(Multi-Layer Perceptron) 5.MLP(Multi-Layer Perceptron)
5.MLP(Multi-Layer Perceptron) 艾鍗科技
 
Restricting the Flow: Information Bottlenecks for Attribution
Restricting the Flow: Information Bottlenecks for AttributionRestricting the Flow: Information Bottlenecks for Attribution
Restricting the Flow: Information Bottlenecks for Attributiontaeseon ryu
 
Deep Neural Networks (D1L2 Insight@DCU Machine Learning Workshop 2017)
Deep Neural Networks (D1L2 Insight@DCU Machine Learning Workshop 2017)Deep Neural Networks (D1L2 Insight@DCU Machine Learning Workshop 2017)
Deep Neural Networks (D1L2 Insight@DCU Machine Learning Workshop 2017)Universitat Politècnica de Catalunya
 
Deep Learning Based Voice Activity Detection and Speech Enhancement
Deep Learning Based Voice Activity Detection and Speech EnhancementDeep Learning Based Voice Activity Detection and Speech Enhancement
Deep Learning Based Voice Activity Detection and Speech EnhancementNAVER Engineering
 
Digital Implementation of Artificial Neural Network for Function Approximatio...
Digital Implementation of Artificial Neural Network for Function Approximatio...Digital Implementation of Artificial Neural Network for Function Approximatio...
Digital Implementation of Artificial Neural Network for Function Approximatio...IOSR Journals
 
Digital Implementation of Artificial Neural Network for Function Approximatio...
Digital Implementation of Artificial Neural Network for Function Approximatio...Digital Implementation of Artificial Neural Network for Function Approximatio...
Digital Implementation of Artificial Neural Network for Function Approximatio...IOSR Journals
 
Neural Networks. Overview
Neural Networks. OverviewNeural Networks. Overview
Neural Networks. OverviewOleksandr Baiev
 
Introduction to deep learning
Introduction to deep learningIntroduction to deep learning
Introduction to deep learningJunaid Bhat
 
NS-CUK Seminar: S.T.Nguyen, Review on "Improving Graph Neural Network Express...
NS-CUK Seminar: S.T.Nguyen, Review on "Improving Graph Neural Network Express...NS-CUK Seminar: S.T.Nguyen, Review on "Improving Graph Neural Network Express...
NS-CUK Seminar: S.T.Nguyen, Review on "Improving Graph Neural Network Express...ssuser4b1f48
 
Biomedical Signals Classification With Transformer Based Model.pptx
Biomedical Signals Classification With Transformer Based Model.pptxBiomedical Signals Classification With Transformer Based Model.pptx
Biomedical Signals Classification With Transformer Based Model.pptxSandeep Kumar
 

Similar to 【DL輪読会】Incorporating group update for speech enhancement based on convolutional gated recurrent network (20)

JAISTサマースクール2016「脳を知るための理論」講義04 Neural Networks and Neuroscience
JAISTサマースクール2016「脳を知るための理論」講義04 Neural Networks and Neuroscience JAISTサマースクール2016「脳を知るための理論」講義04 Neural Networks and Neuroscience
JAISTサマースクール2016「脳を知るための理論」講義04 Neural Networks and Neuroscience
 
Neural Networks Ver1
Neural  Networks  Ver1Neural  Networks  Ver1
Neural Networks Ver1
 
Economic Load Dispatch (ELD), Economic Emission Dispatch (EED), Combined Econ...
Economic Load Dispatch (ELD), Economic Emission Dispatch (EED), Combined Econ...Economic Load Dispatch (ELD), Economic Emission Dispatch (EED), Combined Econ...
Economic Load Dispatch (ELD), Economic Emission Dispatch (EED), Combined Econ...
 
Recurrent Neural Networks
Recurrent Neural NetworksRecurrent Neural Networks
Recurrent Neural Networks
 
Deep learning lecture - part 1 (basics, CNN)
Deep learning lecture - part 1 (basics, CNN)Deep learning lecture - part 1 (basics, CNN)
Deep learning lecture - part 1 (basics, CNN)
 
Objective Evaluation of a Deep Neural Network Approach for Single-Channel Spe...
Objective Evaluation of a Deep Neural Network Approach for Single-Channel Spe...Objective Evaluation of a Deep Neural Network Approach for Single-Channel Spe...
Objective Evaluation of a Deep Neural Network Approach for Single-Channel Spe...
 
5.MLP(Multi-Layer Perceptron)
5.MLP(Multi-Layer Perceptron) 5.MLP(Multi-Layer Perceptron)
5.MLP(Multi-Layer Perceptron)
 
Deep Learning for Computer Vision: Deep Networks (UPC 2016)
Deep Learning for Computer Vision: Deep Networks (UPC 2016)Deep Learning for Computer Vision: Deep Networks (UPC 2016)
Deep Learning for Computer Vision: Deep Networks (UPC 2016)
 
Restricting the Flow: Information Bottlenecks for Attribution
Restricting the Flow: Information Bottlenecks for AttributionRestricting the Flow: Information Bottlenecks for Attribution
Restricting the Flow: Information Bottlenecks for Attribution
 
Deep Neural Networks (D1L2 Insight@DCU Machine Learning Workshop 2017)
Deep Neural Networks (D1L2 Insight@DCU Machine Learning Workshop 2017)Deep Neural Networks (D1L2 Insight@DCU Machine Learning Workshop 2017)
Deep Neural Networks (D1L2 Insight@DCU Machine Learning Workshop 2017)
 
Deep Learning Based Voice Activity Detection and Speech Enhancement
Deep Learning Based Voice Activity Detection and Speech EnhancementDeep Learning Based Voice Activity Detection and Speech Enhancement
Deep Learning Based Voice Activity Detection and Speech Enhancement
 
JACT 5-3_Christakis
JACT 5-3_ChristakisJACT 5-3_Christakis
JACT 5-3_Christakis
 
Digital Implementation of Artificial Neural Network for Function Approximatio...
Digital Implementation of Artificial Neural Network for Function Approximatio...Digital Implementation of Artificial Neural Network for Function Approximatio...
Digital Implementation of Artificial Neural Network for Function Approximatio...
 
Digital Implementation of Artificial Neural Network for Function Approximatio...
Digital Implementation of Artificial Neural Network for Function Approximatio...Digital Implementation of Artificial Neural Network for Function Approximatio...
Digital Implementation of Artificial Neural Network for Function Approximatio...
 
Neural Networks. Overview
Neural Networks. OverviewNeural Networks. Overview
Neural Networks. Overview
 
Introduction to deep learning
Introduction to deep learningIntroduction to deep learning
Introduction to deep learning
 
NS-CUK Seminar: S.T.Nguyen, Review on "Improving Graph Neural Network Express...
NS-CUK Seminar: S.T.Nguyen, Review on "Improving Graph Neural Network Express...NS-CUK Seminar: S.T.Nguyen, Review on "Improving Graph Neural Network Express...
NS-CUK Seminar: S.T.Nguyen, Review on "Improving Graph Neural Network Express...
 
Biomedical Signals Classification With Transformer Based Model.pptx
Biomedical Signals Classification With Transformer Based Model.pptxBiomedical Signals Classification With Transformer Based Model.pptx
Biomedical Signals Classification With Transformer Based Model.pptx
 
6
66
6
 
20120140503023
2012014050302320120140503023
20120140503023
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek Schlawack
"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek Schlawack"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek Schlawack
"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek SchlawackFwdays
 
Time Series Foundation Models - current state and future directions
Time Series Foundation Models - current state and future directionsTime Series Foundation Models - current state and future directions
Time Series Foundation Models - current state and future directionsNathaniel Shimoni
 
How AI, OpenAI, and ChatGPT impact business and software.
How AI, OpenAI, and ChatGPT impact business and software.How AI, OpenAI, and ChatGPT impact business and software.
How AI, OpenAI, and ChatGPT impact business and software.Curtis Poe
 
New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024BookNet Canada
 
Gen AI in Business - Global Trends Report 2024.pdf
Gen AI in Business - Global Trends Report 2024.pdfGen AI in Business - Global Trends Report 2024.pdf
Gen AI in Business - Global Trends Report 2024.pdfAddepto
 
SALESFORCE EDUCATION CLOUD | FEXLE SERVICES
SALESFORCE EDUCATION CLOUD | FEXLE SERVICESSALESFORCE EDUCATION CLOUD | FEXLE SERVICES
SALESFORCE EDUCATION CLOUD | FEXLE SERVICESmohitsingh558521
 
"ML in Production",Oleksandr Bagan
"ML in Production",Oleksandr Bagan"ML in Production",Oleksandr Bagan
"ML in Production",Oleksandr BaganFwdays
 
"Debugging python applications inside k8s environment", Andrii Soldatenko
"Debugging python applications inside k8s environment", Andrii Soldatenko"Debugging python applications inside k8s environment", Andrii Soldatenko
"Debugging python applications inside k8s environment", Andrii SoldatenkoFwdays
 
The Ultimate Guide to Choosing WordPress Pros and Cons
The Ultimate Guide to Choosing WordPress Pros and ConsThe Ultimate Guide to Choosing WordPress Pros and Cons
The Ultimate Guide to Choosing WordPress Pros and ConsPixlogix Infotech
 
A Journey Into the Emotions of Software Developers
A Journey Into the Emotions of Software DevelopersA Journey Into the Emotions of Software Developers
A Journey Into the Emotions of Software DevelopersNicole Novielli
 
Merck Moving Beyond Passwords: FIDO Paris Seminar.pptx
Merck Moving Beyond Passwords: FIDO Paris Seminar.pptxMerck Moving Beyond Passwords: FIDO Paris Seminar.pptx
Merck Moving Beyond Passwords: FIDO Paris Seminar.pptxLoriGlavin3
 
What's New in Teams Calling, Meetings and Devices March 2024
What's New in Teams Calling, Meetings and Devices March 2024What's New in Teams Calling, Meetings and Devices March 2024
What's New in Teams Calling, Meetings and Devices March 2024Stephanie Beckett
 
Transcript: New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
Transcript: New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024Transcript: New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
Transcript: New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024BookNet Canada
 
SIP trunking in Janus @ Kamailio World 2024
SIP trunking in Janus @ Kamailio World 2024SIP trunking in Janus @ Kamailio World 2024
SIP trunking in Janus @ Kamailio World 2024Lorenzo Miniero
 
WordPress Websites for Engineers: Elevate Your Brand
WordPress Websites for Engineers: Elevate Your BrandWordPress Websites for Engineers: Elevate Your Brand
WordPress Websites for Engineers: Elevate Your Brandgvaughan
 
Training state-of-the-art general text embedding
Training state-of-the-art general text embeddingTraining state-of-the-art general text embedding
Training state-of-the-art general text embeddingZilliz
 
From Family Reminiscence to Scholarly Archive .
From Family Reminiscence to Scholarly Archive .From Family Reminiscence to Scholarly Archive .
From Family Reminiscence to Scholarly Archive .Alan Dix
 
The State of Passkeys with FIDO Alliance.pptx
The State of Passkeys with FIDO Alliance.pptxThe State of Passkeys with FIDO Alliance.pptx
The State of Passkeys with FIDO Alliance.pptxLoriGlavin3
 
Digital Identity is Under Attack: FIDO Paris Seminar.pptx
Digital Identity is Under Attack: FIDO Paris Seminar.pptxDigital Identity is Under Attack: FIDO Paris Seminar.pptx
Digital Identity is Under Attack: FIDO Paris Seminar.pptxLoriGlavin3
 
TrustArc Webinar - How to Build Consumer Trust Through Data Privacy
TrustArc Webinar - How to Build Consumer Trust Through Data PrivacyTrustArc Webinar - How to Build Consumer Trust Through Data Privacy
TrustArc Webinar - How to Build Consumer Trust Through Data PrivacyTrustArc
 

Recently uploaded (20)

"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek Schlawack
"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek Schlawack"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek Schlawack
"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek Schlawack
 
Time Series Foundation Models - current state and future directions
Time Series Foundation Models - current state and future directionsTime Series Foundation Models - current state and future directions
Time Series Foundation Models - current state and future directions
 
How AI, OpenAI, and ChatGPT impact business and software.
How AI, OpenAI, and ChatGPT impact business and software.How AI, OpenAI, and ChatGPT impact business and software.
How AI, OpenAI, and ChatGPT impact business and software.
 
New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
 
Gen AI in Business - Global Trends Report 2024.pdf
Gen AI in Business - Global Trends Report 2024.pdfGen AI in Business - Global Trends Report 2024.pdf
Gen AI in Business - Global Trends Report 2024.pdf
 
SALESFORCE EDUCATION CLOUD | FEXLE SERVICES
SALESFORCE EDUCATION CLOUD | FEXLE SERVICESSALESFORCE EDUCATION CLOUD | FEXLE SERVICES
SALESFORCE EDUCATION CLOUD | FEXLE SERVICES
 
"ML in Production",Oleksandr Bagan
"ML in Production",Oleksandr Bagan"ML in Production",Oleksandr Bagan
"ML in Production",Oleksandr Bagan
 
"Debugging python applications inside k8s environment", Andrii Soldatenko
"Debugging python applications inside k8s environment", Andrii Soldatenko"Debugging python applications inside k8s environment", Andrii Soldatenko
"Debugging python applications inside k8s environment", Andrii Soldatenko
 
The Ultimate Guide to Choosing WordPress Pros and Cons
The Ultimate Guide to Choosing WordPress Pros and ConsThe Ultimate Guide to Choosing WordPress Pros and Cons
The Ultimate Guide to Choosing WordPress Pros and Cons
 
A Journey Into the Emotions of Software Developers
A Journey Into the Emotions of Software DevelopersA Journey Into the Emotions of Software Developers
A Journey Into the Emotions of Software Developers
 
Merck Moving Beyond Passwords: FIDO Paris Seminar.pptx
Merck Moving Beyond Passwords: FIDO Paris Seminar.pptxMerck Moving Beyond Passwords: FIDO Paris Seminar.pptx
Merck Moving Beyond Passwords: FIDO Paris Seminar.pptx
 
What's New in Teams Calling, Meetings and Devices March 2024
What's New in Teams Calling, Meetings and Devices March 2024What's New in Teams Calling, Meetings and Devices March 2024
What's New in Teams Calling, Meetings and Devices March 2024
 
Transcript: New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
Transcript: New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024Transcript: New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
Transcript: New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024
 
SIP trunking in Janus @ Kamailio World 2024
SIP trunking in Janus @ Kamailio World 2024SIP trunking in Janus @ Kamailio World 2024
SIP trunking in Janus @ Kamailio World 2024
 
WordPress Websites for Engineers: Elevate Your Brand
WordPress Websites for Engineers: Elevate Your BrandWordPress Websites for Engineers: Elevate Your Brand
WordPress Websites for Engineers: Elevate Your Brand
 
Training state-of-the-art general text embedding
Training state-of-the-art general text embeddingTraining state-of-the-art general text embedding
Training state-of-the-art general text embedding
 
From Family Reminiscence to Scholarly Archive .
From Family Reminiscence to Scholarly Archive .From Family Reminiscence to Scholarly Archive .
From Family Reminiscence to Scholarly Archive .
 
The State of Passkeys with FIDO Alliance.pptx
The State of Passkeys with FIDO Alliance.pptxThe State of Passkeys with FIDO Alliance.pptx
The State of Passkeys with FIDO Alliance.pptx
 
Digital Identity is Under Attack: FIDO Paris Seminar.pptx
Digital Identity is Under Attack: FIDO Paris Seminar.pptxDigital Identity is Under Attack: FIDO Paris Seminar.pptx
Digital Identity is Under Attack: FIDO Paris Seminar.pptx
 
TrustArc Webinar - How to Build Consumer Trust Through Data Privacy
TrustArc Webinar - How to Build Consumer Trust Through Data PrivacyTrustArc Webinar - How to Build Consumer Trust Through Data Privacy
TrustArc Webinar - How to Build Consumer Trust Through Data Privacy
 

【DL輪読会】Incorporating group update for speech enhancement based on convolutional gated recurrent network

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Incorporating group update for speech enhancement based on convolutional gated recurrent network Hiroshi Sekiguchi, Morikawa Lab
  • 2. 書誌情報 • “Incorporating group update for speech enhancement based on convolutional gated recurrent network”, Wenhao Yuan School of Computer Science and Technology, Shandong University of Technology, Zibo, China Speech Communication 132 (2021) 32–39 https://www.sciencedirect.com/science/article/abs/pii/S0167639321000534 • 概要 – 音声強調の分野で、①従来のノイジー音声の時間方向の特徴相関に 加えて周波数方向の空間情報を使い、②ノイジー音声の変化速度が 局所的に異なる領域をグルーピングし、③causalなalgorithmを用いて、 実時間処理でSOTAを達成した • 興味:ノイズ削減の新たな仕組みの導出(①と②)が新鮮 2
  • 3. アジェンダ • 背景 • 提案手法 • 評価 • まとめ • 感想 3
  • 4. 背景-1: 本論文の対象技術分野 • Speech enhancement(音声強調)の応用分野 – 重畳音声分離(Voice separation) – 声楽音声の分離(Singing voice separation) – 背景雑音低減 – 部屋の反響除去 • 音声強調技術の分類 – Computational auditory scena analysis(聴覚物体分析モデル) – Non-negative matrix factorization(NMF) – 深層学習 • 時間ドメインか周波数ー時間ドメインか – 時間ドメイン(入力:音声波形):多次元データ→計算時間大、位相情報含む→分離性能は良い – 時間-周波数ドメイン(入力:周波数分析データ) » 振幅のみ: 実数のみで計算が軽い、位相は使わないので分離性能はそこそこ » 振幅・位相両方(複素数):計算量が多い、位相は予測誤差が大、 • Causalかnon-causalか – Causal: 現在と過去のデータのみを使う → 分離性能はそこそこ、実時間処理に向く – Non-Causal:現在、過去のデータに加えて、将来のデータも使える →分離性のは良い、実時間処理は無理 4 本論文の対象技術分野
  • 5. 背景-2: 時間ー周波数ドメインの振幅のみを用いた背景雑音低減 • 教師あり学習 – 学習データ入力:ノイジー音声とクリーン音声: • 𝑋𝑙,𝑘 :ノイズ音声の時間フレーム𝑙、周波数ビン𝑘のスペクトラム(複素数) • 𝑋𝑙,𝑘 = S𝑙,𝑘 + N𝑙,𝑘、S𝑙,𝑘:クリーン音声、 N𝑙,𝑘:背景ノイズ • 𝑌𝑙: 時間フレーム𝑙の対数スペクトラム振幅ベクトル(実数ベクトル) 𝑌𝑙 = log 𝑋𝑙,1 2 , log 𝑋𝑙,2 2 , ⋯ , log 𝑋𝑙,𝑘 2 , ⋯ , log 𝑋𝑙,𝐾 2 – 教師データ:マスクのGround Truth:ノイジー音声とクリーン音声から計算 • 𝑇𝑙,𝑘 = log 𝑆𝑙,𝑘 𝑋𝑙,𝑘 + 1 : Ground Truth: 振幅mask(実数) • 𝑇𝑙 = 𝑇𝑙,1, 𝑇𝑙,2, ⋯ , 𝑇𝑙,𝑘, ⋯ 𝑇𝑙,𝐾 • 学習: (𝑌𝑙, 𝑇𝑙)のペアで 𝑓θ(・):マスク予測を学習 – Loss関数:𝐿 θ = 1 𝐿 σ𝑙=1 𝐿 𝑓θ 𝑌𝑙 − 𝑇𝑙 • 推測:未知𝑋𝑙,𝑘から、 ෠ 𝑇𝑙 = 𝑓θ(𝑌𝑙)で推測 – クリーン音声の推測: Ƹ 𝑠𝑙 = 𝐼𝑆𝑇𝐹 exp(෠ 𝑇𝑙 − 1 𝑋𝑙,𝑘 exp 𝑗α𝑙 α𝑙: 時間フレーム𝑙のノイジー音声位相 5 𝑓θ(・) 𝑌𝑙: ノイジー音声 ෠ 𝑇𝑙 = 𝑓θ(𝑌𝑙) S𝑙:クリーン音声 N𝑙: 背景ノイズ ⊕ 𝑇𝑙: 𝐺𝑟𝑜𝑢𝑛𝑑 𝑇𝑟𝑢𝑡ℎ Loss: 𝐿 θ
  • 6. 背景-3:時間ー周波数ドメインにおける音声強調の基本思想 • クリーン音声と背景ノイズの特性差を学習する。 • 𝑓θ ・ : 𝑌𝑙 → ෠ 𝑇𝑙のマッピング関数の教師あり学習で、ノイジー音声ス ペクトラムの動きとマスクの動きの差からクリーン音声スペクトラル を推定する能力を学習する • 従来は:ノイジ音声のスペクトラルの時間方向の動きとマスクの時間 方向の動きの差からクリーン音声と背景ノイズの特性差を学習した→ 時間方向の相関を検出するRNN(LSTM,GRU)を使用 6 <標準GRU> 𝑧𝑙 = σ 𝑊 𝑧ℎ𝑙−1 + 𝑈𝑧𝑋𝑙 + 𝑏𝑧 : input gate 𝑟𝑙 = σ 𝑊 𝑟ℎ𝑙−1 + 𝑈𝑟𝑋𝑙 + 𝑏𝑟 : reset gate ෨ ℎ𝑙 = tanh(𝑊ℎ 𝑟𝑙 ○ ℎ𝑙−1 + 𝑈ℎ𝑋𝑙 + 𝑏ℎ) ℎ𝑙 = 1 − 𝑧𝑙 ○ ℎ𝑙−1 + 𝑧𝑙 ○ ෨ ℎ𝑙 ○ :要素毎の乗算、𝑊ℎ,UX: 行列乗算 GRUブロック図 𝑧𝑙 1 − 𝑧𝑙 𝑟𝑙 ℎ𝑙 ℎ𝑙−1 𝑦𝑙 𝑋𝑙
  • 7. 達成したい要件と提案方策 • 音声強調後のターゲット音声(クリーン音声の推測信号)の音質向上 – 従来の時間方向の特徴量相関情報に加えて、周波数方向の特徴量の依存関係や空 間構造を用いることで分離性能を向上 →(提案方策①)Convolutional Gated Recurrent Network(CGRN)を用いる – ノイジ音声に含まれるノイズの特性は、時間および周波数の局所で、時間変化速 度が異なる領域が併存する場合があり、これに対応する構造を実現することで、 分離性能を向上 →(提案方策②)Ordered Neuron-LSTMを用いる • 実時間処理 – Causalなアルゴリズム →(提案方策) unidirectional GRUの採用 7 ON-LSTMの隠れ層の特徴マップ 変化速度遅く、発声全体渡って同じ 特徴を維持するニューロン群 時間 RNN隠れ層 Neuron index 変化速度速く、短時間のみ同じ特徴 を維持するニューロン群 上下両者の中間のニューロン群
  • 8. 提案手法-1: Convolutional Gated Recurrent Network(CGRN) • (提案方策①)Convolutional Gated Recurrent Network(CGRN)を用いる – 行列のFull-ConnectedをConvolutionに置き換える → 周波数方向の局所的な空間構造を抽出可能 <Convolutional Gated Recurrent Network> 𝑍𝑙 = σ 𝑊𝑍 ∗ 𝐻𝑙−1 + 𝑈𝑍 ∗ 𝑋𝑙 +𝑏𝑍 : input(update) gate 𝑅𝑙 = σ 𝑊𝑅 ∗ 𝐻𝑙−1 +𝑈𝑅 ∗ 𝑋𝑙 +𝑏𝑅 : reset gate ෩ 𝐻𝑙 = ELU(𝑊𝐻∗ 𝑅𝑙 ○ 𝐻𝑙−1 + 𝑈𝐻 ∗ 𝑋𝑙 + 𝑏𝐻) 𝐻𝑙 = 1 − 𝑍𝑙 ○ 𝐻𝑙−1 + 𝑍𝑙 ○ ෩ 𝐻𝑙 ○ :要素毎の乗算、∗: Convolution、 ELU: Exponential Linear Unit 8 Convolution計算とELU以外はGRUと同じ CGRNブロック図 Z𝑙 1 − 𝑍𝑙 𝑅𝑙 H𝑙 H𝑙−1 𝑦𝑙 𝑋𝑙 Convolution計算 周 波 数 方 向
  • 9. 提案手法-2: Ordered Neuron(ON)-LSTM • (提案方策②)Ordered Neuron(ON)-LSTMを用いる – Ordered Neuron :深層学習によるNLP(自然言語解析)文章構造解析の解法で、 解析出力が木構造になるように誘導バイアスを組み込む手法 (参考文献) “ORDERED NEURONS: INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORKS” https://arxiv.org/abs/1810.09536 9 GroundTruth 文章解析推定結果 変化速度が遅く、文章全体に渡って持続する内部情報 変化速度が速く、文章の局所部でのみ有効な内部情報 情報の 階層 上下両者の中間的な内部情報 時間 木構造 のnode
  • 10. 提案手法-3: Ordered Neuron(ON)-LSTM • ON-LSTMの機能 – 木構造の各ノードは、RNNの隠れ層のneuronの部分領域(segment)に相当し、それぞれの部分領域では、内部情報の時間変化速度に違いが ある。また、この部分領域は時間的に変化する。 ON-LSTMは、この時間変化速度の対応したneuron部分領域をデータから自動的に割り付 ける – まず、部分領域が2つの場合を考える – Ordered neuron: 時間変化速度にランクがついたneuronのこと • slow neuron=内部情報の持続時間が長いneuron=高位のneuron:特徴量の時間変化速度が遅い部分領域のneuron • Fast neuron=内部情報の持続時間が短いneuron=低位のneuron:特徴量の時間変化速度が速い部分領域のneuron – On-LSTMでは、この2つの部分領域を生成するため、同じ部分領域に属するneuronに対するgate出力を同値か近い値とするgate(活性化関 数)を提案する ො 𝑔 = 𝑐𝑢𝑚𝑎𝑥 ⋯ : ⋯確率変数が離散の時 = 𝑐𝑢𝑚𝑠𝑢𝑚 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 ⋯ :確率変数が連続続の時 𝑠𝑜𝑓𝑡𝑚𝑎𝑥で緩和近似する ⋯ は、ベクトル=[𝑎1, 𝑎2, ⋯ , 𝑎𝑀]、𝑀:隠れ層の次元数、の時に (確率変数𝑑が離散の場合:𝑎𝑖、𝑖 = 1, ⋯ , 𝑀、は確率分布𝑝に対して、𝑎𝑖 = 𝑝(𝑑 = 𝑖)、σ𝑖=1 𝑀 𝑎𝑀 = 1) (確率変数dが連続の場合:𝑎𝑖、𝑖 = 1, ⋯ , 𝑀、は実数のセット{𝑑𝑖、𝑖 = 1, ⋯ , 𝑀}に対して𝑎𝑖 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑑𝑖 、 σ𝑖=1 𝑀 𝑎𝑀 = 1) 𝑐𝑢𝑚𝑎𝑥 ⋯ ≡ 𝑎1, 𝑎1 + 𝑎2, ⋯ , 𝑎1 + 𝑎2 + ⋯ + 𝑎𝑀 𝑐𝑢𝑚𝑎𝑥 ⋯ ≡ 𝑎1 + 𝑎2 + ⋯ + 𝑎𝑀, ⋯ , 𝑎𝑀−1 + 𝑎𝑀, 𝑎𝑀 10
  • 11. 提案手法-4: Ordered Neuron(ON)-LSTM • ON-LSTMの仕組み – Binary gate 𝑔=(0,…0,1…1)となるvectorで、0と1で、Neuron内部情報の更新頻度に高低の2通りの neuron群を生成したい。このgateが制御する0-segment(変化速度が速い)と1-segment(変化速度 が遅い)で、異なる更新ルールがあるとする。 – このvector 𝑔において、要素が0から1へ初めて変化するvector index 𝑑をsplit pointと呼び、index 𝑑 が確率変数と考えて、index 𝑑で要素が0から1へ初めて変化する確率を𝑝 𝑑 = [𝑝 𝑑 = 1 , 𝑝( ) 𝑑 = 2 , ⋯ , 𝑝 𝑑 = 𝑀 ]とする。 (Mは隠れ層の次元数) – この時、Vector𝑔のindex 𝑘が1である確率𝑝 𝑔𝑘 = 1 は、 σi≤𝑘 𝑝(𝑑 = 𝑖) となり、ベクトルでの表記は、 𝑝 𝑔 = [𝑝 𝑑 = 1 , 𝑝 𝑑 = 1 + 𝑝 𝑑 = 2 , ⋯ , 𝑝 𝑑 = 1 + 𝑝 𝑑 = 2 + ⋯ + 𝑝 𝑑 = 𝑀 ] ≡ 𝑐𝑢𝑚𝑎𝑥 (𝑝 𝑑 )である。 – 𝑔𝑘がbinaryの確率変数であれば、 𝑝 𝑔 = 𝑐𝑢𝑚𝑎𝑥 (𝑝 𝑑 )は、Vector 𝑔の期待値(各index 𝑘の期待値)に なっている。 11 連続 連続 RNN隠れ層 neuron index 時間 slow neuronの領域 (1-segment) Fast neuronの領域 (0-segment) 𝑑 𝑝 𝑑 = 𝑖 𝑖 𝑀 1 1 : 1 0 : 0 𝑑 Binary gate 𝑔 Index 小 Index 大 ⊚ Binary gate 𝑔=(0,…0,1…1) 変化速度が 遅い信号
  • 12. • ON-LSTMの音声強調への適用: – ノイズ音声の特徴量の変化速度が高中低の 3領域に分ける機能を作る – この領域毎に属する隠れ層neuronのindex 範囲を更新する(Group-update(GU)と呼 ぶ) – 2つのgate、 𝑐𝑢𝑚𝑎𝑥 ⋯ と𝑐𝑢𝑚𝑎𝑥 ⋯ を overlapさせて3つの領域を作成 ෨ 𝐹𝑙 = 𝑐𝑢𝑚𝑎𝑥(softmax(𝑊෨ 𝐹 ∗ 𝐻𝑙−1 + 𝑈 ෨ 𝐹 ∗ 𝑋𝑙 + 𝑏 ෨ 𝐹)) ሚ 𝐼𝑙 = 𝑐𝑢𝑚𝑎𝑥(softmax(𝑊ሚ 𝐼 ∗ 𝐻𝑙−1 + 𝑈ሚ 𝐼 ∗ 𝑋𝑙 + 𝑏ሚ 𝐼)) Ω𝑙 = ෨ 𝐹𝑙 ○ ሚ 𝐼𝑙 𝐻𝑙 = Ω𝑙 ○ ((1 − 𝑍𝑙) ○ 𝐻𝑙−1 + 𝑍𝑙 ○ ෩ 𝐻𝑙) +( ෨ 𝐹𝑙 − Ω𝑙) ○ 𝐻𝑙−1 + (ሚ 𝐼𝑙 − Ω𝑙) ○ ෩ 𝐻𝑙 提案手法-5: Convolutional Gated Recurrent Network(CGRN)に ON-LSTMを組み込む (CGRN-GU) 12 CGRNブロック図 Z𝑙 1 − 𝑍𝑙 𝑅𝑙 H𝑙−1 𝑋𝑙 ෩ 𝐻𝑙 𝐻𝑙 ∗ ⊚ ⊕ ⊚ ⊚ ෩ 𝐻𝑙 𝐻𝑙 ∗ H𝑙−1 H𝑙 slow neuron 制御gate fast neuron 制御gate 𝑐𝑢𝑚𝑎𝑥 𝑐𝑢𝑚𝑎𝑥 Middle speed neuron制御 gate 前フレーム隠れ層の信号 (変化速度遅い) Index 大 Index 小 0 0 1 1 1 現入力信号 (変化速度速い) CGRN出力信号 (中間速度) slow neuronの領域 fast neuronの領域 middle speed neuronの領域 𝑀 1
  • 13. 評価方法 • データーセット ① Voice Bank + DEMAND ◼ 音声データ:Voice Bank ◼ ノイズデータ:DEMAND ◼ Trainingデータセット ◼ 11572個のノイジー音声とクリーン音声のペア::話者28名(男女各14名) ◼ ノイズ:10種類 ◼ 音声:ノイズのSNR=0, 5, 10, 15dB ◼ Testデータセット ◼ 824個のノイジー音声とクリーン音声のペア:話者2名(Trainingデータセットには含まれない話者) ◼ ノイズ:5種類(Trainingデータセットに含まれない種類のノイズ) ◼ 音声:ノイズのSNR=2.5, 7.5, 12.5, 17.5dB ◼ 元音声48KHzサンプリング→16KHzにdown samplingして使用 ② DNS challenge at Interspeech 2020 ◼ 音声データ:500時間、話者2150名 ◼ ノイズデータ:Audioset、Freesound、DEMANDから60000クリップ ◼ Trainingデータセット ◼ 100時間の音声とランダム選択したノイズクリップから合成 ◼ 音声:ノイズのSNR=-15~+15dBの区間を1dB刻みでランダムに選択 ◼ Testデータセット ◼ 150個の合成したノイズ音声 ③ その他条件 ◼ Hannning窓:512point、フレームシフト:256point 13
  • 14. 評価方法 • 学習方法 ① 学習モデル ◼ CGRN-GU, CGRN, GRUの3モデル ◼ RNN層数:5-層 ◼ CGRN-GUとCGRNのCNN:filter数:64、filter size: 9 ◼ GRUの隠れ層とunit stateの次元数: 1024 ② 学習条件 ◼ Backpropagationのtruncation length:Voice Bank+DEMAND: 128, DNS challenge: 64 ◼ 最適化アルゴリズム:Adam, batch size: 512, 学習率:0.02 ◼ Epoch数: Voice Bank+DEMAND :50, DNS challenge: 20 ◼ 音質評価指標 ① CSIG, CBAK, COVL :主観的オピニオン評価 ② PESQ(音質知覚評価) ③ SDR(Signal to Distortion Ratio) ④ STOI(明瞭度評価) 14
  • 15. 評価項目 • モデルのノイズ削減性能比較 • Group-updateの効果 • フレームシフトの効果 • 他のベースラインアルゴリズムとのノイズ削減性能比較 • 実時間処理の比較 15
  • 16. 評価結果 • モデルのノイズ削減性能比較 – ノイズ削減性能 • 3modelともノイズ削減効果がある • CGRN-GU>CGRN>GRU – 考察 • GRUに比較して、CGRN、CGRN-GUの パラメータ数は大幅削減している→Full connectをCNNに代えた効果 • GU部分のパラメータ増加(0.65M)は最 小限になっている 16
  • 17. 評価結果 • Group-updateの効果 – CGRNとCGRN-GUの各々で、過去情報𝐻𝑙−1を反映 する能力の差を評価する→ 𝐻𝑙−1に掛かる比例項の累 積分布を比較する – CGRNに掛かる比例項:1 − 𝑍𝑙 – CGRN-GUに掛かる比例項: ෨ 𝐹𝑙 − Ω𝑙 ○ 𝑍𝑙 / ෨ 𝐹𝑙 + ሚ 𝐼𝑙 − Ω𝑙 – 考察 • CGRN-CUの累積分布はCGRNよりも下方に位 置している→CGRNCの過去情報𝐻𝑙−1を制御す るgateの0→1に変化するindex 𝑑の平均は、 CGRNよりも小さいので、過去情報𝐻𝑙−1を利用 する隠れ層のneuron領域はより広範囲である • これが、ノイズ削減性能がCGRN-CU>CGRN である根拠の一つ 17
  • 18. 評価結果 • フレームシフトの効果 – 従来:一般的に、フレームシフト=ウィンドウ長÷2 – 最近:フレームシフトを短くすると、ノイズ削減性能が向上するとの報告有り – 実際に、フレームシフト256→128と半減すると、ノイズ削減性能が良くなった – 考察 • フレームシフトが短いと、同じノイズ情報を複数のフレームで用いて学習するので、ノイズの 性質をより学習できるため • フレームシフトが短いと、発声全体を処理する計算量は反比例して多くなる。 – ノイズ低減性能と計算時間はトレードオフの関係であり、実時間処理が必要な場 合は、フレームシフト量に下限がある。 18
  • 19. 評価結果 • 他のベースラインアルゴリズムとのノイズ削減性能比較 – 他のベースライン:4つのCausal手法(現在と過去データのみ使用)と7つの Non-Causal手法(現在、過去、および将来データも使用) – 一般的には、学習に使うデータ量が多いのでNonーCausal手法の性能が良いはず – Causal内での比較:CGRN-GUはフレームシフト128で全音質評価指標でトップ – Causal/Non-Causalを通した全体での比較:CGRN-GUはフレームシフト128で Non-CausalのPHASEN以外で、より良い高い音質性能 19
  • 20. 評価結果 • 実時間性能の比較 – 音声を16msec毎に逐次処理して、実時間で処理可能かを評価 – 環境: Onnix Runtime 1.1 – 結果 • 低性能CPUでは、CGRNは実時間処理可能 • 高性能のCPUであれば、CGRNおよびCGRN-GUともに実時間処理可能 20 Laptop (Intel i5-8250U CPU) Destop (AMD 2700X CPU) 処理時間 RealTime Factor 処理時間 RealTime Factor CGRN 7 msec 0.44 5 msec 0.31 CGRN-GU 22 msec 1.38 12 msec 0.75
  • 21. まとめ • 音声のノイズ低減を改善するために、Convolutional Gated Recurrent Network(CGRN)と、 それにGroup update(GU)を追加したCGRN-GUを、causalのパラダイム(学習データは現在 と過去のものに限定)で開発した • CGRN-GUは、ノイジー音声の特性を、従来よりも、より考慮した工夫を施した – 時間方向のデータ長時間依存性は:GRUで – 周波数方向の局所的な空間構造は:CNNで – ノイズの変化速度の追跡には:Ordered-Neuron LSTMで • ノイズ削減評価の結果、CGRN-GUは他のNon-Causalのアルゴリズムのほとんどよりもノイ ズ削減性能が良かった • CGRNとCGRN-GUは、ともに、Desk TopであればCPUのみで実時間処理ができることが分 かった。 • 将来研究 – 時間ー周波数ドメインのノイズ音声の位相を考慮したアルゴリズムに本手法を適用して、さらなる 性能改善を図る 21
  • 22. 感想 • ノイズの局所的な時間的変化速度を追跡するのに、ON-LSTMを用いて いるが面白い。 • しかし、背景ノイズが人間の音声の場合は、適用ができないのだろう か – 背景の音声は、ターゲットの音声と特徴が類似しているため見分けがつかな いのでは。 • ON-LSTMは、初めてだったが、NLPでは常識なのか。 22