SlideShare a Scribd company logo
1 of 16
DEEP LEARNING JP
[DL Seminar]
Learning Differentiable Grammars for Continuous Data
Hiromi Nakagawa ACES, Inc.
https://deeplearning.jp
• AJ Piergiovanni, Anelia Angelova, Michael S. Ryoo(Google Brain)
• AAAI2020
• 概要
– 動画のような実世界の時系列データの認識・予測に言語学における形式文法(正規文法)の概念を導入
– 正規文法を微分可能なNNで定義して学習→系列の潜在的な時系列的構造を明示的に考慮した生成や予測が可能に
– 解釈性が高く、またSoTAのモデルに組み込むことで、動画行動認識・行動予測のSoTAを更新
2
Overview
• Formal Grammar(形式文法)G = (V, Σ, P, S):言語を文の集合として記述するもの(cf. チョムスキー階層)
– V: Non-terminals(非終端記号)=置き換えられるもの
– Σ: Terminals(終端記号)=これ以上置き換えられないもの
– P: Production rule(生成規則)=置き換えルールの集合
– S: Starting non-terminal(開始記号)=初期状態
• Regular Grammar(正規文法)
– チョムスキー階層におけるタイプ3の形式文法
– 生成規則:左側に1つの非終端記号、右側に1つの終端記号と0or1つの非終端記号
– 例:正規表現
• 系列の変化を表現する文法が学習できれば、時系列構造やイベント間の関係性を明示的かつ高度にモデリングできるはず
– 動画認識や動画予測の精度改善や、生成過程の意味的な解釈性も上がる
• シンボルや離散的な表現(例:テキスト)からではなく、動画のような連続表現からの学習は難しい
– 本研究では、形式文法の構成要素や生成規則を微分可能なNNの関数として定義した機構(=RNNの亜種)で認識タスクを学習することで、
形式文法の構造が動画のようなデータからも学習できる&認識タスクに活用できることを示す
3
Introduction
A, B:非終端記号
a:終端記号
ε:空の文字列
V = {<文章>,<主語>,<述語>}
Σ = {私は,あなたは,寝る。,食べる。}
P = {<文章>→<主語><述語>
<主語>→わたしは|あなたは
<述語>→寝る。|食べる。}
S = <文章>
出典:http://zellij.hatenablog.com/entry/20140612/p1
Proposed Method
• 非終端記号/終端記号は時刻tにおける潜在表現として定義
– v_t inV (非終端記号):N次元のsoft one-hot vector(Nは非終端記号の数)
– w_t in Σ(終端記号) :T次元のvector(Tは各時刻の系列表現の次元数):動画では各フレームのラベルに相当
• 生成規則は2つの関数で定義(NNのパラメータθによって制御)
– 任意の微分可能な関数で実装可能だが、今回はシンプルなMatrix operationで実装
– f :V → {P} v_t inV(非終端記号)をp_i in P(生成規則のsubset)に写像
•
• W:N x (R・N) (Rは1非終端記号あたりの最大生成規則の数)
– g : P → (V, Σ) pをV(非終端記号)とΣ(終端記号)に変換
•
• H1: (R・N) x N, H2: (R・N) xT
• 順伝播の再帰的な生成モデルを形成
– S=v_0から始まりiterativeに各時刻で終端記号を出力
– 生成規則を関数で表すことで終端記号系列の生成をその関数の反復で表現できる
5
定式化
Matrix Operationの例
(N=3, T=3, R=2)
• 終端記号 w_t の系列のクロスエントロピーを最小化
– 動画認識では、w_tが各フレームのラベルに対する予測、z_tは各フレームの正解ラベル
– 各フレームのラベルを再帰的に出力して、それぞれのロスの和を取る
• 動画データへの対応のために、初期状態の非終端記号 S=v_0 は学習済みの動画認識モデル(I3D)で特徴抽出
– 推論時は、CNNの予測確率に最もマッチする(?)生成規則を選択して系列を生成、grammarの出力とCNNの出力をかけ合わせる
• 複数の生成規則を学習するために、Softmax(σ)をGumbel Softmax(φ)に
– 一つの非終端記号 v_t から複数パターンの生成規則 p_i をサンプリングできる
– 学習時は複数パターンの中から最小のロスを取る
6
学習
Experiments
• トイデータでの検証(提案手法で学習・表現できることの確認)
8
Experiments
非終端記号Aのsoft one-hot表現 v_t
Aに対応する生成規則p_iの確率を返すルール行列W
(Gumbel-Softmaxを入れるとここが確率的になる)
生成規則p_iに基づきt+1の非終端記号Bを返す行列H1
生成規則p_iに基づきt+1の終端記号aを返す行列H2
生成規則P
• 時系列データセットでの検証
– The Air Polution prediction dataset:毎時間の各種特徴+空気汚染度 x 数年間の時系列データセット
– 単純な系列データで、単純なLSTMなどより高い精度が得られることを確認
• 最後の値をそのまま利用:RMSE=36.45
• LSTM:RMSE=27.12
• 提案手法:RMSE=22.14
9
Experiments
• 行動検知データセットでの検証
– フレーム単位で行動クラスのアノテーションが存在
10
Experiments
MultiTHUMOS Charades MLB-YouTube
• 多様な行動65クラス
• 30時間400動画
• 日常行動157クラス
• 9858動画
• 野球中継
• 42時間4290動画
• 背景が同じ&粒度が細かい等の理由から
コンテキスト情報が使いにくく、難しい
• 厳格なルールに沿って試合が進むので、
学習された文法の検証がしやすい
• Activity Detectionの精度(per-frame mAP)を比較
• 3つのデータセットすべてで、SoTAのI3D(+super-events)に導入することによりSoTAを更新
11
Experiments
• Future Prediction/Forecastingにおいても、高い精度を発揮
– 10-20secなどの長期予測でも◯
12
Experiments
• MLB-YouTubeで学習された文法構造の可視化
– 野球のルールを正しく学習できている
13
Experiments
カッコ内は予測確率
Conclusion
• 動画のような実世界の時系列データの認識・予測に言語学における形式文法(正規文法)の概念を導入
– Formal Grammar(形式文法)G= (V, Σ, P, S):言語を文の集合として記述(cf. チョムスキー階層)
– 終端記号 w_t in Σ = 各フレームのラベル
• 正規文法を微分可能なNNで定義して学習→系列の潜在的な時系列的構造を明示的に考慮した生成や予測が可能に
– シンプルな行列演算ベースのモデルを検証
– Gumbel-Softmaxを導入することで1つの非終端記号から複数パターンの生成規則を出力
– 動画の特徴抽出は既存の動画認識モデルI3Dを利用
• 解釈性が高く、またSoTAのモデルに組み込むことで、動画行動認識・行動予測のSoTAを更新
– 野球中継の行動認識データセットから、野球のルールに合致する文法を学習できることを確認
15
まとめ
• 言語学の文法の概念から時系列データ(動画、行動)の構造を学習する発想は興味深い(結果も見る限り良い)
• Formal Grammarを導入する(学習できる)こと自体の価値・必要性は自明な感じで議論されており、動画認識の文脈と
の接続の記述は若干粗い印象。 (精度が上がるのは正義だが)現実的にどこまで重要なのかは要議論
– ドメイン知識に基づく制約(文法)を入れやすい、とかであれば、実用的にも意味がありそう
– 最近のGNNなどの行動クラス間の関係性のモデリング、などの話も絡んできそう
– 明示的な時系列構造をデータから学習できる→異常検知とかに利用できる?
• 今の単純な仕組みで学習できない/そもそも相性の悪い時系列構造を持つデータなどについても整理されるとよさそう
– 野球とかも、普遍的なルールの部分は文法的な構造を入れ込むメリットがありそうだが、局面ごとのローカルな変化は結局暗黙的に
吸収される前提(あまり考慮されていない)なので、その条件付も明示的に捉える機構が何か必要そう
• (動画にも使えるが)動画である必要は必ずしもないので、そのあたりの検証がしやすい(トイ)データでの実験がもっ
とあると「文法」を学習するメリットなどの議論・検証がしやすい気もする
16
感想

More Related Content

More from Deep Learning JP

【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...Deep Learning JP
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...Deep Learning JP
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデルDeep Learning JP
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...Deep Learning JP
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...Deep Learning JP
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLMDeep Learning JP
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without SupervisionDeep Learning JP
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
 

[DL輪読会]Learning Differentiable Grammars for Continuous Data

  • 1. DEEP LEARNING JP [DL Seminar] Learning Differentiable Grammars for Continuous Data Hiromi Nakagawa ACES, Inc. https://deeplearning.jp
  • 2. • AJ Piergiovanni, Anelia Angelova, Michael S. Ryoo(Google Brain) • AAAI2020 • 概要 – 動画のような実世界の時系列データの認識・予測に言語学における形式文法(正規文法)の概念を導入 – 正規文法を微分可能なNNで定義して学習→系列の潜在的な時系列的構造を明示的に考慮した生成や予測が可能に – 解釈性が高く、またSoTAのモデルに組み込むことで、動画行動認識・行動予測のSoTAを更新 2 Overview
  • 3. • Formal Grammar(形式文法)G = (V, Σ, P, S):言語を文の集合として記述するもの(cf. チョムスキー階層) – V: Non-terminals(非終端記号)=置き換えられるもの – Σ: Terminals(終端記号)=これ以上置き換えられないもの – P: Production rule(生成規則)=置き換えルールの集合 – S: Starting non-terminal(開始記号)=初期状態 • Regular Grammar(正規文法) – チョムスキー階層におけるタイプ3の形式文法 – 生成規則:左側に1つの非終端記号、右側に1つの終端記号と0or1つの非終端記号 – 例:正規表現 • 系列の変化を表現する文法が学習できれば、時系列構造やイベント間の関係性を明示的かつ高度にモデリングできるはず – 動画認識や動画予測の精度改善や、生成過程の意味的な解釈性も上がる • シンボルや離散的な表現(例:テキスト)からではなく、動画のような連続表現からの学習は難しい – 本研究では、形式文法の構成要素や生成規則を微分可能なNNの関数として定義した機構(=RNNの亜種)で認識タスクを学習することで、 形式文法の構造が動画のようなデータからも学習できる&認識タスクに活用できることを示す 3 Introduction A, B:非終端記号 a:終端記号 ε:空の文字列 V = {<文章>,<主語>,<述語>} Σ = {私は,あなたは,寝る。,食べる。} P = {<文章>→<主語><述語> <主語>→わたしは|あなたは <述語>→寝る。|食べる。} S = <文章> 出典:http://zellij.hatenablog.com/entry/20140612/p1
  • 5. • 非終端記号/終端記号は時刻tにおける潜在表現として定義 – v_t inV (非終端記号):N次元のsoft one-hot vector(Nは非終端記号の数) – w_t in Σ(終端記号) :T次元のvector(Tは各時刻の系列表現の次元数):動画では各フレームのラベルに相当 • 生成規則は2つの関数で定義(NNのパラメータθによって制御) – 任意の微分可能な関数で実装可能だが、今回はシンプルなMatrix operationで実装 – f :V → {P} v_t inV(非終端記号)をp_i in P(生成規則のsubset)に写像 • • W:N x (R・N) (Rは1非終端記号あたりの最大生成規則の数) – g : P → (V, Σ) pをV(非終端記号)とΣ(終端記号)に変換 • • H1: (R・N) x N, H2: (R・N) xT • 順伝播の再帰的な生成モデルを形成 – S=v_0から始まりiterativeに各時刻で終端記号を出力 – 生成規則を関数で表すことで終端記号系列の生成をその関数の反復で表現できる 5 定式化 Matrix Operationの例 (N=3, T=3, R=2)
  • 6. • 終端記号 w_t の系列のクロスエントロピーを最小化 – 動画認識では、w_tが各フレームのラベルに対する予測、z_tは各フレームの正解ラベル – 各フレームのラベルを再帰的に出力して、それぞれのロスの和を取る • 動画データへの対応のために、初期状態の非終端記号 S=v_0 は学習済みの動画認識モデル(I3D)で特徴抽出 – 推論時は、CNNの予測確率に最もマッチする(?)生成規則を選択して系列を生成、grammarの出力とCNNの出力をかけ合わせる • 複数の生成規則を学習するために、Softmax(σ)をGumbel Softmax(φ)に – 一つの非終端記号 v_t から複数パターンの生成規則 p_i をサンプリングできる – 学習時は複数パターンの中から最小のロスを取る 6 学習
  • 8. • トイデータでの検証(提案手法で学習・表現できることの確認) 8 Experiments 非終端記号Aのsoft one-hot表現 v_t Aに対応する生成規則p_iの確率を返すルール行列W (Gumbel-Softmaxを入れるとここが確率的になる) 生成規則p_iに基づきt+1の非終端記号Bを返す行列H1 生成規則p_iに基づきt+1の終端記号aを返す行列H2 生成規則P
  • 9. • 時系列データセットでの検証 – The Air Polution prediction dataset:毎時間の各種特徴+空気汚染度 x 数年間の時系列データセット – 単純な系列データで、単純なLSTMなどより高い精度が得られることを確認 • 最後の値をそのまま利用:RMSE=36.45 • LSTM:RMSE=27.12 • 提案手法:RMSE=22.14 9 Experiments
  • 10. • 行動検知データセットでの検証 – フレーム単位で行動クラスのアノテーションが存在 10 Experiments MultiTHUMOS Charades MLB-YouTube • 多様な行動65クラス • 30時間400動画 • 日常行動157クラス • 9858動画 • 野球中継 • 42時間4290動画 • 背景が同じ&粒度が細かい等の理由から コンテキスト情報が使いにくく、難しい • 厳格なルールに沿って試合が進むので、 学習された文法の検証がしやすい
  • 11. • Activity Detectionの精度(per-frame mAP)を比較 • 3つのデータセットすべてで、SoTAのI3D(+super-events)に導入することによりSoTAを更新 11 Experiments
  • 12. • Future Prediction/Forecastingにおいても、高い精度を発揮 – 10-20secなどの長期予測でも◯ 12 Experiments
  • 15. • 動画のような実世界の時系列データの認識・予測に言語学における形式文法(正規文法)の概念を導入 – Formal Grammar(形式文法)G= (V, Σ, P, S):言語を文の集合として記述(cf. チョムスキー階層) – 終端記号 w_t in Σ = 各フレームのラベル • 正規文法を微分可能なNNで定義して学習→系列の潜在的な時系列的構造を明示的に考慮した生成や予測が可能に – シンプルな行列演算ベースのモデルを検証 – Gumbel-Softmaxを導入することで1つの非終端記号から複数パターンの生成規則を出力 – 動画の特徴抽出は既存の動画認識モデルI3Dを利用 • 解釈性が高く、またSoTAのモデルに組み込むことで、動画行動認識・行動予測のSoTAを更新 – 野球中継の行動認識データセットから、野球のルールに合致する文法を学習できることを確認 15 まとめ
  • 16. • 言語学の文法の概念から時系列データ(動画、行動)の構造を学習する発想は興味深い(結果も見る限り良い) • Formal Grammarを導入する(学習できる)こと自体の価値・必要性は自明な感じで議論されており、動画認識の文脈と の接続の記述は若干粗い印象。 (精度が上がるのは正義だが)現実的にどこまで重要なのかは要議論 – ドメイン知識に基づく制約(文法)を入れやすい、とかであれば、実用的にも意味がありそう – 最近のGNNなどの行動クラス間の関係性のモデリング、などの話も絡んできそう – 明示的な時系列構造をデータから学習できる→異常検知とかに利用できる? • 今の単純な仕組みで学習できない/そもそも相性の悪い時系列構造を持つデータなどについても整理されるとよさそう – 野球とかも、普遍的なルールの部分は文法的な構造を入れ込むメリットがありそうだが、局面ごとのローカルな変化は結局暗黙的に 吸収される前提(あまり考慮されていない)なので、その条件付も明示的に捉える機構が何か必要そう • (動画にも使えるが)動画である必要は必ずしもないので、そのあたりの検証がしやすい(トイ)データでの実験がもっ とあると「文法」を学習するメリットなどの議論・検証がしやすい気もする 16 感想