SlideShare a Scribd company logo
1 of 25
Neural Netowork
Based Language Model
内海慶
kuchiumi@d-itlab.co.jp
黒船到来
• 自然言語処理における Deep Learning の活用を紹介
• google の人が公開したword2vecというツールが話題
デモ
文章のみから単語の意味を獲得する
n-gram language model
• 文に対する確率分布をモデル化
• 単語の条件付き確率の積で表す
• 単語の条件付き確率はN-1個前までの単語で計
算できると仮定する
適切なn-gram確率をいかに求めるかがこれまでの焦点
コーパスに現れない低頻度なn-gramにも事前分布に従って正確な
確率を与えるという試みがなされてきた(スムージング)
n-gram lm の例
• HPYLM
trigram の確率は… 観測したtrigram頻度を
ディスカウントして…
bigram確率でback-off
“トヨタ/自動車” の確率は 0.5
“日産/自動車”の確率は0.4
Q: トヨタと日産の関係は?
A: 知らない
n-gram LMのポイント
• 直接訓練コーパスに対して尤度最大化
• 過学習になるのでやらない
• 適切なスムージングを入れる
• 事前分布を考慮して,今あるコーパスから真
のn-gram確率を推定する
• 汎化されたモデル(アウトドメインに強い)
Neural Network Language Model
これまでの言語モデル
• 単語の出現確率を頻度から計算
• 適切なn-gram確率を計算するこ
とにフォーカス
• 各単語は独立に扱われる
• 単語間の関係は見ない
NNLM
• 単語の出現確率をデータから学
習・予測
• 直接コーパスに対して尤度最大化
• インドメインに強い
• アウトドメイン?何それ
• 各単語を連続空間のベクトルとし
て表現
• 似た単語は似たベクトルを持つ
従来は禁忌とされてきたコーパスに対する直接の尤度最大化をやってしまった.
事前知識なんていらない.アウトドメインとか汎化とか知らない.
NNLMの例
• Recurrent Neural Network Language Model
• 次の単語の出現確率を直接コーパスから学習
次の単語は,
1. 入力単語を潜在空間へ写像(ベクトル表
現)したものと,
2. 単語の潜在ベクトルの履歴(ベクトル)
を結合したベクトルと
3. 重みベクトルVとの内積
で予測
RNNLM
NNLMのポイント
• 学習された単語の潜在ベクトル(U*j)が単語の意味を
獲得する
• 獲得した単語の潜在ベクトルを使った操作で単語間
の関係が分かる
• (やろうと思えば)入力単語を表す素性の追加もでき
る(音声系で最近よくやられている)
• コーパスの尤度を直接最大化するのでインドメイン
に強い
獲得した潜在ベクトル
man
woman
king
queen
U で獲得された単語の潜在ベクトル表現
king のベクトルから man のベクトルを引く
(manとkingの関係を取り出す)
womanのベクトルに足すと…
queen に近いベクトル
コサイン類似度で
queenが見つかる
NNLMって今までなかったの?
• 実は…
• 1990年にElmanが既に単純再帰型ニューラル
ネットワーク(通称エルマンネット)を提案
• 1991年には単語予測に利用して,文法構造が
ネットワークの結合係数として学習されるこ
とを示している
エルマンネットとの違い
RNNLM
単語を潜在ベクトルで表現
Uで潜在空間へ写像する
エルマンネット
単語を1 of V で表現
文脈 s も V 次元ベクトル
過去の単語ベクトルに減衰係数を掛け
て足し込んでいる
w(t)+αs(t-1)
つまり
• エルマンネットでは単語を潜在空間に写像
するという発想は無かった
RNNLMの学習
• を最大化するようなU, W, V の3つを学習する
• 学習はSGDを使って逐次更新をする
• だいたい5〜10回程度のepochで良い
f : シグモイド関数
g : ソフトマックス関数
次の単語の確率
単語の潜在ベクトル表現
対数尤度の最大化
• データの対数尤度を最大化
• 逆誤差伝搬を使って更新
• 細かいところはおいておいて,更新式
は...
: 出力誤差
: 正解ベクトル(1 of V 表現)
次の単語w(t+1)の位置だけが1で残りは0
出力層Vの更新式
• 出力誤差を潜在ベクトルに掛けてVに足し込むだけ
• αは学習率
隠れ層への誤差伝搬
• 誤差の勾配を隠れ層へ伝搬させる
• Vの重みを逆向き(隠れ層へ向かって)掛ける
• dは隠れ層の関数sの微分
• RNNLMではsにシグモイド関数を使ってるのでこの式になる
単語の潜在ベクトル表現
Uの更新
• 隠れ層の誤差の勾配を入力層に伝搬
• w(t)が1 of V表現なので更新は効率的
再帰の重みWの更新
• Uと同じように書けるが,s(t-1)は密
Backpropagation Through Time
• 文脈ユニットを畳み込まない
• 状態の履歴を持つ
• 直前の単語と状態は直後には影
響しないけど,もっと後には影
響するかもしれない
• UとWの更新にもっと過去の情
報も使うようにしてより最適に
しようという発想
• 今回は割愛
どのくらい上手く意味
を捉えられるのか?
• 文法規則を獲得できているかのテスト
• 形容詞の原型,比較級,最高級
• 名詞の単数,複数
• 所有格と非所有格
• 現在形と過去形
• 現在形と三人称単数
• 過去形と三人称単数
• PennTreebankでニュース記事にタグ付けして,各項目ご
とに高頻度な事例を取り出し,同じカテゴリの単語と組
み合わせたりして analogy question を自動生成.
• 約40%の正解率
どのくらい上手く意味
を捉えられるのか?
• SemiEval-2012, Task2, Measuring Relation Similarity[Jurgens et
al., 2012]
• 細かい粒度で単語の関係が書かれている79単語を使用
• 10個を使って学習,69個はテストに使用
• 各関係には3〜4事例の単語のペアが与えられている
• e.g. 集合包含: 集合単数→clothing:shirt
• 正解のペアがどのくらいの関連度を持っているか平均を出し
て,他の手法と比較(MaxDiffという尺度を使うらしい)
• 他の手法と比較しても高いスコアを出せた
• e.g. RNN-1600 MaxDiff Acc. 0.418, UTD-NB, 0.395(state-of-the-art)
他分野での利用
• 言語モデルを使う他のタスクで利用され始めている
• 機械翻訳
• 音声認識
• InterSpeechの言語モデルセッションはRNNLMばかり
• etc.
• 提案
• 方言と標準語混じりのコーパスから類似語を獲得
• 画像処理分野で visual words に適用できたりする?
まとめ
• 最近話題のRNNLMについて紹介
• 従来のn-gram言語モデルでは考慮されていな
かった,単語間の関係がRNNLMでは獲得できる
• ニュース記事にタグ付けしたデータを使った評
価で,文法規則を自動で獲得できていることを
示している
• SemiEval-2012のデータを使った評価で,単語間の
関係も獲得できていることを確認
参考
• Tomas Mikolov, Statistical language models based on neural
networks (http://www.fit.vutbr.cz/~imikolov/rnnlm/thesis.pdf)
• Tomas Mikolov, et al., Linguistic regularities in continuous space
word representations, in NAACL HLT, 2013
• Tomas Mikolov, et al., Efficient estimation of word
representations in vector space, in ICLR, 2013
• 浅川伸一, 単純再帰型ニューラルネットワーク
(http://www.cis.twcu.ac.jp/~asakawa/waseda2002/elman.pdf)
• 浅川伸一, 単純再帰型ニューラルネットワークの心理学モデル
としての応用可能性
(http://www.cis.twcu.ac.jp/~asakawa/chiba2002/lect4-
SRN/srn2001-compact.pdf)

More Related Content

What's hot

【DL輪読会】Segment Anything
【DL輪読会】Segment Anything【DL輪読会】Segment Anything
【DL輪読会】Segment AnythingDeep Learning JP
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまでharmonylab
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)cvpaper. challenge
 
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編Fixstars Corporation
 
GANの概要とDCGANのアーキテクチャ/アルゴリズム
GANの概要とDCGANのアーキテクチャ/アルゴリズムGANの概要とDCGANのアーキテクチャ/アルゴリズム
GANの概要とDCGANのアーキテクチャ/アルゴリズムHirosaji
 
言語と画像の表現学習
言語と画像の表現学習言語と画像の表現学習
言語と画像の表現学習Yuki Noguchi
 
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~SSII
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image TranslationDeep Learning JP
 
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築Kosuke Shinoda
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement LearningDeep Learning JP
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)Deep Learning JP
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?hoxo_m
 
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出hoxo_m
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C modelWEBFARMER. ltd.
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial NetworksARISE analytics
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida
 

What's hot (20)

【DL輪読会】Segment Anything
【DL輪読会】Segment Anything【DL輪読会】Segment Anything
【DL輪読会】Segment Anything
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
 
GANの概要とDCGANのアーキテクチャ/アルゴリズム
GANの概要とDCGANのアーキテクチャ/アルゴリズムGANの概要とDCGANのアーキテクチャ/アルゴリズム
GANの概要とDCGANのアーキテクチャ/アルゴリズム
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
言語と画像の表現学習
言語と画像の表現学習言語と画像の表現学習
言語と画像の表現学習
 
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
 
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 

More from Kei Uchiumi

Deep Learning Chapter12
Deep Learning Chapter12Deep Learning Chapter12
Deep Learning Chapter12Kei Uchiumi
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelKei Uchiumi
 
DSIRNLP06 Nested Pitman-Yor Language Model
DSIRNLP06 Nested Pitman-Yor Language ModelDSIRNLP06 Nested Pitman-Yor Language Model
DSIRNLP06 Nested Pitman-Yor Language ModelKei Uchiumi
 
Sigir2013 retrieval models-and_ranking_i_pub
Sigir2013 retrieval models-and_ranking_i_pubSigir2013 retrieval models-and_ranking_i_pub
Sigir2013 retrieval models-and_ranking_i_pubKei Uchiumi
 
Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレートKei Uchiumi
 

More from Kei Uchiumi (10)

Ibisml vhmm
Ibisml vhmmIbisml vhmm
Ibisml vhmm
 
Deep Learning Chapter12
Deep Learning Chapter12Deep Learning Chapter12
Deep Learning Chapter12
 
Dsirnlp#7
Dsirnlp#7Dsirnlp#7
Dsirnlp#7
 
Gamglm
GamglmGamglm
Gamglm
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
 
DSIRNLP06 Nested Pitman-Yor Language Model
DSIRNLP06 Nested Pitman-Yor Language ModelDSIRNLP06 Nested Pitman-Yor Language Model
DSIRNLP06 Nested Pitman-Yor Language Model
 
Sigir2013 retrieval models-and_ranking_i_pub
Sigir2013 retrieval models-and_ranking_i_pubSigir2013 retrieval models-and_ranking_i_pub
Sigir2013 retrieval models-and_ranking_i_pub
 
Signl213
Signl213 Signl213
Signl213
 
Pylm public
Pylm publicPylm public
Pylm public
 
Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレート
 

RNNLM