More Related Content Similar to 深層学習を用いた文生成モデルの歴史と研究動向 (20) 深層学習を用いた文生成モデルの歴史と研究動向4. 言葉の構成単位
文字
言語を表記するために使われる記号の最小単位
Ex) a, あ, 1, 自
単語(𝑤 𝑛 )
文字を組みあわせて作られる、意味を表し構文上の働きを持つ最小単位
Ex) Natural, 自然
文(𝑤1 … 𝑤 𝑛 、 𝐰 )
単語を組み合わせて作られる、一区切りのまとまりある考え等を示すもの
単語列(𝑤1 … 𝑤𝑖 )
単語を並べたもの
文も単語列の一種
15. N-gram言語モデル
𝑃 𝐰 ~ 𝑖=1
𝑛
𝑃 𝑤𝑖 𝑤1 … 𝑤𝑖−1 ~ 𝑖=1
𝑛
𝑃 𝑤𝑖 𝑤𝑖+1−𝑁 … 𝑤𝑖−1
前の𝑁 − 1個の単語の並びに対し、次に来そうな単語の確率
𝑃 𝑤𝑖 𝑤𝑖+1−𝑁 … 𝑤𝑖−1 が分かれば𝑃 𝐰 が計算できる
たくさんのデータから統計的に𝑃 𝑤𝑖 𝑤𝑖+1−𝑁 … 𝑤𝑖−1 は得られる
𝑃 𝑤𝑖 𝑤𝑖+1−𝑁 … 𝑤𝑖−1 があれば次単語予測ができて文生成できる
言語モデル 次に来る単語はそれより前の単語が何かで決まるという仮定
19. RNN言語モデル(Mikolov et al, 2010)
Recurrent Neural Network(Rumelhart et al, 1986)は時系列を考慮
して予測を作るニューラルネットワークモデル
時系列と単語の順番を対応させれば言語モデルっぽい
RNN
ヤドン に なり たい
𝑷 𝒘 っぽいもの
20. RNN言語モデル
𝑷 𝒘 が得られないので、入力:文、正解: 𝑷 𝒘 という学習は不可
代わりにある単語を入れたとき、次に来る単語の確率を予測させる
入力:単語、正解:次の単語となり学習できる
<S>
ヤドン に なり たい
𝑃 𝑤2 𝑤1 𝑃 𝑤3 𝑤1 𝑤2 𝑃 𝑤4 𝑤1 … 𝑤3 𝑃 𝑤5 𝑤1 … 𝑤4
22. Seq2Seq (Sutskever et al, 2014)
文の意味を取り出すエンコーダーRNN、取り出した意味から文を生
成するデコーダーRNNを繋げて、文から文への変換を行うモデル
翻訳タスクで当時のSoTA
25. Transformer (Vaswani et al, 2017)
Seq2Seqと同じ文変換を行うモデル
再帰構造を持たないニューラルネットワークとAttentionのみで構成
され、高速
翻訳タスクにおいて、RNN系手法よりはるかに少ない学習でSoTA
26. BERT (Devlin et al, 2018)
巨大なTransformer Encoder
2種類の言語モデル的事前学習
マスクされた単語の予測
文の連続判定
膨大なデータで事前学習を行った後、少数のデータで目的タスクに
転移学習
NLPの幅広いベンチマークでSoTA
工夫された事前学習によってTransformerの双方向学習が可能に
言語モデル的事前学習の有効性を示す
29. GPT-2 (Radford et al, 2019)
巨大なTransformer Decoderで、膨大なデータを使って言語モデル的
な学習を行ったモデル
翻訳や対話といった文変換モデルではなく、N-gramやRNN言語モ
デルと同じ逐次的に単語を予測していく文生成モデル
(I want to be a cat.) Sitting on Dieter's lap is a thing of
beauty.
(NLP is) not strictly true and may sometimes exaggerate.
It is necessarily an ongoing process.
32. UniLM (Dong et al, 2019)
Transformer(Prefix LM)を使った事前学習モデル
複数種類の言語モデル学習を行う
読解系タスクでBERTと同程度、生成系タスクでSoTA
https://arxiv.org/abs/1905.03197
33. T5(Raffel et al, 2019)
Transformerと同じEncoder – Decoder構造を持つ巨大事前学習モデ
ル
全てのタスクを文変換として事前学習を行う
文生成系タスクを中心に幅広いタスクで極めて強力な性能を示す
https://arxiv.org/abs/1910.10683
34. GPT-3 (Brown et al, 2020)
1750億パラメーターの超巨大
モデル
BERT(Large):3.4億
T5(11B):110億
構造はGPT-2を踏襲
モデルのパラメーター数を増や
すことで、少ないデータの転移
学習でも性能を出せるようにな
る
https://arxiv.org/abs/2005.14165
40. 今回省略した話
Word2Vec
LSTMの双方向学習
巨大RNN言語モデル、ELMo
CNNを使用した並列化可能な文変換モデル、ConvS2S
転移学習を用いた文生成
Transformerに再帰構造を組み込む話
GANを利用した文生成器作成
BERTの改善と軽量化、ALBERT
可変長Transformer、Transformer-XL
他にも多数
Editor's Notes 𝑃 𝑤 𝑖 𝑤 𝑖+1−𝑁 … 𝑤 𝑖−1 があれば文生成ができますし、P(w)も手に入ります。色々と候補を作ってP(w)を計算し、どれがいいかを選ぶ、といったこともできます。 Google翻訳の精度が急上昇 長期依存問題の緩和 Google翻訳で使われる 実用上は少数のデータで目的タスクに適用できるという点が重要
学習データを作るコストを抑えられる 実用上の価値が生じてくる
例:翻訳、ニュース記事の自動要約や自動タイトル付け、ゲーム中などでのキャラクタースクリプトの自動生成
負の応用:フェイクニュースの生成、SNS上での大規模スパム