SlideShare a Scribd company logo
1 of 26
Exploiting Cloze Questions for Few Shot Text Classification and
Natural Language Inference (EACL, 2021)
It’s Not Just Size That Matters: Small Language Models
Are Also Few-Shot Learners (NAACL, 2021)
1
Kazuki Fujikawa
サマリ
• 書誌情報
– Exploiting Cloze Questions for Few Shot Text Classification and Natural Language
Inference
• EACL 2021
– It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners
• NAACL 2021, Outstanding Long Papers
• 著者
– Timo Schick, Hinrich Schütze
• 概要
– 自然言語処理におけるFew-shotタスクに対する新たなアプローチ: PET・iPETを提案
(EACL2021)
– PET・iPETの各モジュールに対する有効性を検証し、GPT-3に対する優位性を確認
(NAACL2021)
2
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
• 考察
3
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
• 考察
4
背景
• Transformer を Fine-tuning するアプローチは様々なNLPタスクで有効
– 事前学習で言語モデルを学習した上で、Head を目標タスク用に置き換えて
再学習を行うアプローチ
– 目標タスクを解かせるためには、十分な教師ありデータを準備する必要がある
• GPT-3 の登場で、Priming というアプローチが提案された
– 少ない教師データで目標タスクを解くアプローチ
– モデルの大きさ・教師データのトークン数に対する制約など、実用に課題も持つ
(詳細は後述)
5
GPT-3の課題を解決するモデルを考えたい
• 背景
• 関連研究
• 提案手法
• 実験・結果
• 考察
アウトライン
6
関連研究: GPT-3 [Brown+, NeurIPS2020]
• 少ない教師データで目標タスクを解くための新たな対応法: Priming
– 大規模なコーパスで学習したTransformer言語モデルをそのまま利用
– 目標タスクの再学習は行わず、以下のテキストを入力に、続きを出力させる
• task description: 問題設定
• example: 目標タスクの教師情報
• prompt: 目標タスクの推論対象
– 目標タスクの推論を促すテンプレートを設計する必要がある(Prompt engineering)
• 以下課題(例)を持つ
– GPT-3 自体が超巨大モデルであり、一般的な計算環境では扱うことが困難
– 教師データをモデルの入力に加えるため、教師データが増えるとスケールしない
(一般的にTransformerへのトークン数は多くて2048 tokenなどに限られる)
7
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
• 考察
8
• 目標タスクをMLMの穴埋め問題に変換(PET: Pattern-Exploiting Training)
– タスク毎に Pattern-Verbalizer Pair(PVP)を準備
• Pattern P(x): 目標タスクを穴埋め問題に変換するパターン(テンプレート)
• verbalizer v(y): 目標タスクのラベルを単語に変換するマッピング
– 少量サンプルの穴埋め問題(CELoss)で Fine-tuning
• 複数のPVPで独立にモデルを構築
– 複数モデルを蒸留して1つの分類器を作成
• 教師無しデータ D に対して複数モデルの出力平均(アンサンブル)を疑似ラベルとして付与
提案手法: PET / iPET [Shick+, EACL2021]
9
• 少量データに対する再学習は不安定 → 複数のアプローチで安定化
– 教師なしデータ D に対する疑似ラベル・知識蒸留を繰り返す(iPET)
• 教師なしデータからサンプリングされるテキスト・PVPの選び方に対する分散を小さくする
– 破滅的忘却を防ぐため、教師無しデータの MLMLoss 最小化を同時に解かせる
提案手法: PET / iPET [Shick+, EACL2021]
10
【推論】
● 分割されたトークンを1つずつ挿入した場合の
スコア積を取る
【訓練】
● 推論時と同等にしたいが、分割されたトークン数分の
z’ を準備するのはコストがかかる
● z の状態で全てのLossを計算してしまう
• PET・iPETの課題: 予測対象が1トークンであることを前提としている
– トーカナイザが terrible → terri + *ble と分割する場合、v(y) で terrible に変換できない
• 複数トークンを予測対象とする場合を定式化
提案手法: 複数トークン対応 [Shick+, NAACL2021]
11
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
• 考察
12
• SuperGLUEタスク [Wang+, 2019]
実験
13
BoolQ [Clark+, 2019]
文章: p を読んで、後の問い: q に
答えるタスク
(QAタスク)
p. Question: q? Answer: _.
p. Based on the previous passage, q? _.
Based on the following passage, q? _. p
CB [De Marneffe+, 2019]
RTE [Dagan+, 2006]
p が正しい場合、必ず h が正しく
なるかどうかを推定するタスク
(含意認識タスク)
h? | _. p
“h”? | _. “p”
h? | _, p
“h”? | _, “p”
yes, true
no, false
yes
no
maybe
文章: p は、c1, c2 のどちらと
因果関係があるかを推定するタスク
(因果推論タスク)
COPA [Gordon+, 2012]
“c1” or “c1”? p, so _.
c1 or c1? p, so _.
c1 or c2
そのまま
2文 s1, s2 間で、単語 w が同じ
意味で使われているかどうかを
推定するタスク
(語義曖昧解消タスク)
WiC
[Pilehvar and Camacho-
Collados, 2019]
“s1” / “s2”. Similar sense of “w”? _.
s1 s2 Does w have the same meaning in
both sentences? _
yes
no
タスク名 概要 パターン例 回答例
• SuperGLUEタスク [Wang+, 2019]
実験
14
WSC [Levesque+, 2011]
文: s 中の代名詞: p が指す
名詞: n を推定するタスク
(共参照解析)
s The pronoun ‘*p*’ refers to _.
s In the previous sentence, the pronoun
‘*p*’ refers to _.
MultiRC
[Khashabi+, 2018]
文章: p を読んで、後の問い: q に
対する回答: a が正しいかどうかを
答えるタスク
(QAタスク)
p. Question: q? Is it a ? _.
p. Question: q? I the correct answer
“a”? _.
該当する名詞を
抜き出して回答
yes/true
no/false
文章: p 中の、空欄: q に当てはまる
単語を、候補: a から選ぶタスク
(穴埋め問題)
ReCoRD [Zhang+, 2018]
タスク自体が穴埋め問題であるため、
タスクの文章: p, 空欄: q を
そのまま利用
回答候補のうち
正しい単語を
回答
タスク名 概要 パターン例 回答例
実験結果: 定量評価
• PET, iPETのSuperGLUEに対する精度をGPT-3と比較
– PET, iPET: 事前学習モデルにALBERTを採用
– GPT-3と比較して、少ないパラメータ数で巨大モデルに匹敵する性能を示している
– COPA, WSC, ReCoRDでマルチトークン化対応を実施
• 回答をそのまま出力する形式に必要とされた
15
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
• 考察
16
考察
• GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証
1. 提案法のパターンの有効性検証
• 利用するパターンの影響確認(GPT-3 vs PET)
2. 教師なしデータ利用法の有効性検証
• 蒸留の必要性・影響の確認
• 蒸留を複数回繰り返すことの有効性検証(iPET)
3. 教師ありデータ利用法の有効性検証
• 通常のFine-tuning・Primingとの比較
17
• GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証
1. 提案法のパターンの有効性検証
• 利用するパターンの影響確認(GPT-3 vs PET)
2. 教師なしデータ利用法の有効性検証
• 蒸留の必要性・影響の確認
• 蒸留を複数回繰り返すことの有効性検証(iPET)
3. 教師ありデータ利用法の有効性検証
• 通常のFine-tuning・Primingとの比較
考察
18
考察1: 提案法のパターンの有効性検証
• PETの枠組みで、以下のパターンを利用した場合の実験を実施
– p ours: 提案法のパターン
– p GPT-3: GPT-3で利用されたプロンプト
– p comb: ours, GPT-3 の組み合わせ
• 結果
– CB, MultiRC では ours, RTEでは GPT-3
• → タスクに適したパターンを考案することは、タスクの性能に直結する
– パターンを増やすことは、性能改善につながる(p comp)
19
• GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証
1. 提案法のパターンの有効性検証
• 利用するパターンの影響確認(GPT-3 vs PET)
2. 教師なしデータ利用法の有効性検証
• 蒸留の必要性・影響の確認
• 蒸留を複数回繰り返すことの有効性検証(iPET)
3. 教師ありデータ利用法の有効性検証
• 通常のFine-tuning・Primingとの比較
考察
20
• 知識蒸留の影響を調べるため、以下の性能を比較
– PET (p ours/comb) ¬ dist: 複数PVPで得たモデルのアンサンブル(下図: (2))
– PET (p ours/comb): 教師なしデータに対する疑似ラベルで蒸留したモデル(下図 (3))
• 結果
– 蒸留なしのアンサンブルの方が性能は高い結果
– 蒸留は性能を上げるためではなく、最終モデルのパラメータを減らす目的で実施
考察2: 教師なしデータ利用法の有効性検証
21
• 蒸留を複数回繰り返すことの有用性を検証
– iPETの各世代のスコア平均と標準偏差をグラフ化(下図)
• 結果
– MultiRC以外の3タスクで、iPETによる性能向上を確認
– 試行に対する標準偏差も、4世代目でほぼゼロになった
• 少数データに対するFine-tuningに対する学習の不安定さも排除できた
考察2: 教師なしデータ利用法の有効性検証
22
考察
• GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証
1. 提案法のパターンの有効性検証
• 利用するパターンの影響確認(GPT-3 vs PET)
2. 教師なしデータ利用法の有効性検証
• 蒸留の必要性・影響の確認
• 蒸留を複数回繰り返すことの有効性検証(iPET)
3. 教師ありデータ利用法の有効性検証
• 通常のFine-tuning・Primingとの比較
23
• パターンを利用した学習法の有効性を確認するため、以下を比較
– PET: 提案法
– unsupervised: 全PVPを利用、Fine-tuning無しのアンサンブル
– supervised: パターンを利用せず、Transformerにclassifier headを配置
– PET (XLNet): 提案法のバックボーンをXLNetに変更したもの
– Priming (XLNet): XLNetを使って Priming で Few-shot 推論したもの
• 結果
– PETが unsupervised, supervised, priming を大きく上回る結果
– MultiRCでは長文を入力するため、priming で推論することができなかった
• 32件の訓練データをプライミングで与えるためには10,000トークン以上のシーケンス長に
対応する必要がある
– プライミングと比較して、推論時のシーケンス長が短い点もPETの有用性の一つ
考察3: 教師ありデータ利用法の有効性検証
24
まとめ
• 自然言語処理におけるFew-shotタスクに対する新たなアプローチ:
PET・iPET を提案 [EACL2021]
– PET: Pattern-Verbalizer Pair (PVP) を利用した学習フレームワークを提案
– iPET: 知識蒸留を複数繰り返すことでFine-tuingの安定性を向上
• PET・iPETの各モジュールに対する有効性を検証し、GPT-3に対する
優位性を確認 [NAACL2021]
– 巨大なGPT-3に匹敵する性能を少ないパラメータ数で実現
– Maskトークンが複数に分割される場合に対しても対処可能にした
25
References
• Schick, Timo, and Hinrich Schütze. "Exploiting Cloze Questions for Few Shot Text Classification and Natural
Language Inference.” In EACL 2021.
• Schick, Timo, and Hinrich Schütze. "It's Not Just Size That Matters: Small Language Models Are Also Few-
Shot Learners.” In NAACL 2021.
• Brown, Tom B., et al. "Language models are few-shot learners." In NeurIPS 2020.
• Wang, Alex, et al. "Superglue: A stickier benchmark for general-purpose language understanding
systems." In NeurIPS 2019.
26

More Related Content

What's hot

数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理Taiji Suzuki
 
ICML 2021 Workshop 深層学習の不確実性について
ICML 2021 Workshop 深層学習の不確実性についてICML 2021 Workshop 深層学習の不確実性について
ICML 2021 Workshop 深層学習の不確実性についてtmtm otm
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic DatasetsDeep Learning JP
 
DNNの曖昧性に関する研究動向
DNNの曖昧性に関する研究動向DNNの曖昧性に関する研究動向
DNNの曖昧性に関する研究動向Naoki Matsunaga
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...Deep Learning JP
 
ユーザーサイド情報検索システム
ユーザーサイド情報検索システムユーザーサイド情報検索システム
ユーザーサイド情報検索システムjoisino
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文cvpaper. challenge
 
はじめてのKrylov部分空間法
はじめてのKrylov部分空間法はじめてのKrylov部分空間法
はじめてのKrylov部分空間法tmaehara
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?Masanao Ochi
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するTakahiro Kubo
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 

What's hot (20)

数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
ICML 2021 Workshop 深層学習の不確実性について
ICML 2021 Workshop 深層学習の不確実性についてICML 2021 Workshop 深層学習の不確実性について
ICML 2021 Workshop 深層学習の不確実性について
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
DNNの曖昧性に関する研究動向
DNNの曖昧性に関する研究動向DNNの曖昧性に関する研究動向
DNNの曖昧性に関する研究動向
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
 
ユーザーサイド情報検索システム
ユーザーサイド情報検索システムユーザーサイド情報検索システム
ユーザーサイド情報検索システム
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
 
はじめてのKrylov部分空間法
はじめてのKrylov部分空間法はじめてのKrylov部分空間法
はじめてのKrylov部分空間法
 
正準相関分析
正準相関分析正準相関分析
正準相関分析
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 

Similar to [DL輪読会]It's not just size that maters small language models are also few shot learners

大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価Yahoo!デベロッパーネットワーク
 
CIが分からない PE(SETエンジニア)の1年生がWebAPIの負荷テストを 背伸びしてCI運用した
CIが分からないPE(SETエンジニア)の1年生がWebAPIの負荷テストを背伸びしてCI運用したCIが分からないPE(SETエンジニア)の1年生がWebAPIの負荷テストを背伸びしてCI運用した
CIが分からない PE(SETエンジニア)の1年生がWebAPIの負荷テストを 背伸びしてCI運用したssuser0be501
 
組合せ最適化を体系的に知ってPythonで実行してみよう PyCon 2015
組合せ最適化を体系的に知ってPythonで実行してみよう PyCon 2015組合せ最適化を体系的に知ってPythonで実行してみよう PyCon 2015
組合せ最適化を体系的に知ってPythonで実行してみよう PyCon 2015SaitoTsutomu
 
Guiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation piecesGuiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation piecesSatoru Katsumata
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 
Incorporating syntactic and semantic information in word embeddings using gra...
Incorporating syntactic and semantic information in word embeddings using gra...Incorporating syntactic and semantic information in word embeddings using gra...
Incorporating syntactic and semantic information in word embeddings using gra...Hiroki Iida
 
Beyond Accuracy Behavioral Testing of NLP Models with CheckList
Beyond Accuracy Behavioral Testing of NLP Models with CheckListBeyond Accuracy Behavioral Testing of NLP Models with CheckList
Beyond Accuracy Behavioral Testing of NLP Models with CheckListDannis Lai
 
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105STAIR Lab Seminar 202105
STAIR Lab Seminar 202105Sho Takase
 
20140801ACL2014読み会
20140801ACL2014読み会20140801ACL2014読み会
20140801ACL2014読み会Peinan ZHANG
 
第2回nips+読み会: Learning to learn by gradient decent by gradient decent
第2回nips+読み会: Learning to learn by gradient decent by gradient decent第2回nips+読み会: Learning to learn by gradient decent by gradient decent
第2回nips+読み会: Learning to learn by gradient decent by gradient decentTaku Tsuzuki
 
NeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_publicNeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_publicAkira Tanimoto
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generationharmonylab
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020Yuki Saito
 
[DL輪読会]Explainable Reinforcement Learning: A Survey
[DL輪読会]Explainable Reinforcement Learning: A Survey[DL輪読会]Explainable Reinforcement Learning: A Survey
[DL輪読会]Explainable Reinforcement Learning: A SurveyDeep Learning JP
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classificationKazuki Fujikawa
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classificationDeep Learning JP
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 

Similar to [DL輪読会]It's not just size that maters small language models are also few shot learners (20)

大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価
 
CIが分からない PE(SETエンジニア)の1年生がWebAPIの負荷テストを 背伸びしてCI運用した
CIが分からないPE(SETエンジニア)の1年生がWebAPIの負荷テストを背伸びしてCI運用したCIが分からないPE(SETエンジニア)の1年生がWebAPIの負荷テストを背伸びしてCI運用した
CIが分からない PE(SETエンジニア)の1年生がWebAPIの負荷テストを 背伸びしてCI運用した
 
BERT+XLNet+RoBERTa
BERT+XLNet+RoBERTaBERT+XLNet+RoBERTa
BERT+XLNet+RoBERTa
 
組合せ最適化を体系的に知ってPythonで実行してみよう PyCon 2015
組合せ最適化を体系的に知ってPythonで実行してみよう PyCon 2015組合せ最適化を体系的に知ってPythonで実行してみよう PyCon 2015
組合せ最適化を体系的に知ってPythonで実行してみよう PyCon 2015
 
Guiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation piecesGuiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation pieces
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
Incorporating syntactic and semantic information in word embeddings using gra...
Incorporating syntactic and semantic information in word embeddings using gra...Incorporating syntactic and semantic information in word embeddings using gra...
Incorporating syntactic and semantic information in word embeddings using gra...
 
Beyond Accuracy Behavioral Testing of NLP Models with CheckList
Beyond Accuracy Behavioral Testing of NLP Models with CheckListBeyond Accuracy Behavioral Testing of NLP Models with CheckList
Beyond Accuracy Behavioral Testing of NLP Models with CheckList
 
PFI Christmas seminar 2009
PFI Christmas seminar 2009PFI Christmas seminar 2009
PFI Christmas seminar 2009
 
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105STAIR Lab Seminar 202105
STAIR Lab Seminar 202105
 
20140801ACL2014読み会
20140801ACL2014読み会20140801ACL2014読み会
20140801ACL2014読み会
 
第2回nips+読み会: Learning to learn by gradient decent by gradient decent
第2回nips+読み会: Learning to learn by gradient decent by gradient decent第2回nips+読み会: Learning to learn by gradient decent by gradient decent
第2回nips+読み会: Learning to learn by gradient decent by gradient decent
 
NeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_publicNeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_public
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
[DL輪読会]Explainable Reinforcement Learning: A Survey
[DL輪読会]Explainable Reinforcement Learning: A Survey[DL輪読会]Explainable Reinforcement Learning: A Survey
[DL輪読会]Explainable Reinforcement Learning: A Survey
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classification
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 

Recently uploaded (9)

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 

[DL輪読会]It's not just size that maters small language models are also few shot learners

  • 1. Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference (EACL, 2021) It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners (NAACL, 2021) 1 Kazuki Fujikawa
  • 2. サマリ • 書誌情報 – Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference • EACL 2021 – It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners • NAACL 2021, Outstanding Long Papers • 著者 – Timo Schick, Hinrich Schütze • 概要 – 自然言語処理におけるFew-shotタスクに対する新たなアプローチ: PET・iPETを提案 (EACL2021) – PET・iPETの各モジュールに対する有効性を検証し、GPT-3に対する優位性を確認 (NAACL2021) 2
  • 3. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 • 考察 3
  • 4. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 • 考察 4
  • 5. 背景 • Transformer を Fine-tuning するアプローチは様々なNLPタスクで有効 – 事前学習で言語モデルを学習した上で、Head を目標タスク用に置き換えて 再学習を行うアプローチ – 目標タスクを解かせるためには、十分な教師ありデータを準備する必要がある • GPT-3 の登場で、Priming というアプローチが提案された – 少ない教師データで目標タスクを解くアプローチ – モデルの大きさ・教師データのトークン数に対する制約など、実用に課題も持つ (詳細は後述) 5 GPT-3の課題を解決するモデルを考えたい
  • 6. • 背景 • 関連研究 • 提案手法 • 実験・結果 • 考察 アウトライン 6
  • 7. 関連研究: GPT-3 [Brown+, NeurIPS2020] • 少ない教師データで目標タスクを解くための新たな対応法: Priming – 大規模なコーパスで学習したTransformer言語モデルをそのまま利用 – 目標タスクの再学習は行わず、以下のテキストを入力に、続きを出力させる • task description: 問題設定 • example: 目標タスクの教師情報 • prompt: 目標タスクの推論対象 – 目標タスクの推論を促すテンプレートを設計する必要がある(Prompt engineering) • 以下課題(例)を持つ – GPT-3 自体が超巨大モデルであり、一般的な計算環境では扱うことが困難 – 教師データをモデルの入力に加えるため、教師データが増えるとスケールしない (一般的にTransformerへのトークン数は多くて2048 tokenなどに限られる) 7
  • 8. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 • 考察 8
  • 9. • 目標タスクをMLMの穴埋め問題に変換(PET: Pattern-Exploiting Training) – タスク毎に Pattern-Verbalizer Pair(PVP)を準備 • Pattern P(x): 目標タスクを穴埋め問題に変換するパターン(テンプレート) • verbalizer v(y): 目標タスクのラベルを単語に変換するマッピング – 少量サンプルの穴埋め問題(CELoss)で Fine-tuning • 複数のPVPで独立にモデルを構築 – 複数モデルを蒸留して1つの分類器を作成 • 教師無しデータ D に対して複数モデルの出力平均(アンサンブル)を疑似ラベルとして付与 提案手法: PET / iPET [Shick+, EACL2021] 9
  • 10. • 少量データに対する再学習は不安定 → 複数のアプローチで安定化 – 教師なしデータ D に対する疑似ラベル・知識蒸留を繰り返す(iPET) • 教師なしデータからサンプリングされるテキスト・PVPの選び方に対する分散を小さくする – 破滅的忘却を防ぐため、教師無しデータの MLMLoss 最小化を同時に解かせる 提案手法: PET / iPET [Shick+, EACL2021] 10
  • 11. 【推論】 ● 分割されたトークンを1つずつ挿入した場合の スコア積を取る 【訓練】 ● 推論時と同等にしたいが、分割されたトークン数分の z’ を準備するのはコストがかかる ● z の状態で全てのLossを計算してしまう • PET・iPETの課題: 予測対象が1トークンであることを前提としている – トーカナイザが terrible → terri + *ble と分割する場合、v(y) で terrible に変換できない • 複数トークンを予測対象とする場合を定式化 提案手法: 複数トークン対応 [Shick+, NAACL2021] 11
  • 12. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 • 考察 12
  • 13. • SuperGLUEタスク [Wang+, 2019] 実験 13 BoolQ [Clark+, 2019] 文章: p を読んで、後の問い: q に 答えるタスク (QAタスク) p. Question: q? Answer: _. p. Based on the previous passage, q? _. Based on the following passage, q? _. p CB [De Marneffe+, 2019] RTE [Dagan+, 2006] p が正しい場合、必ず h が正しく なるかどうかを推定するタスク (含意認識タスク) h? | _. p “h”? | _. “p” h? | _, p “h”? | _, “p” yes, true no, false yes no maybe 文章: p は、c1, c2 のどちらと 因果関係があるかを推定するタスク (因果推論タスク) COPA [Gordon+, 2012] “c1” or “c1”? p, so _. c1 or c1? p, so _. c1 or c2 そのまま 2文 s1, s2 間で、単語 w が同じ 意味で使われているかどうかを 推定するタスク (語義曖昧解消タスク) WiC [Pilehvar and Camacho- Collados, 2019] “s1” / “s2”. Similar sense of “w”? _. s1 s2 Does w have the same meaning in both sentences? _ yes no タスク名 概要 パターン例 回答例
  • 14. • SuperGLUEタスク [Wang+, 2019] 実験 14 WSC [Levesque+, 2011] 文: s 中の代名詞: p が指す 名詞: n を推定するタスク (共参照解析) s The pronoun ‘*p*’ refers to _. s In the previous sentence, the pronoun ‘*p*’ refers to _. MultiRC [Khashabi+, 2018] 文章: p を読んで、後の問い: q に 対する回答: a が正しいかどうかを 答えるタスク (QAタスク) p. Question: q? Is it a ? _. p. Question: q? I the correct answer “a”? _. 該当する名詞を 抜き出して回答 yes/true no/false 文章: p 中の、空欄: q に当てはまる 単語を、候補: a から選ぶタスク (穴埋め問題) ReCoRD [Zhang+, 2018] タスク自体が穴埋め問題であるため、 タスクの文章: p, 空欄: q を そのまま利用 回答候補のうち 正しい単語を 回答 タスク名 概要 パターン例 回答例
  • 15. 実験結果: 定量評価 • PET, iPETのSuperGLUEに対する精度をGPT-3と比較 – PET, iPET: 事前学習モデルにALBERTを採用 – GPT-3と比較して、少ないパラメータ数で巨大モデルに匹敵する性能を示している – COPA, WSC, ReCoRDでマルチトークン化対応を実施 • 回答をそのまま出力する形式に必要とされた 15
  • 16. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 • 考察 16
  • 17. 考察 • GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証 1. 提案法のパターンの有効性検証 • 利用するパターンの影響確認(GPT-3 vs PET) 2. 教師なしデータ利用法の有効性検証 • 蒸留の必要性・影響の確認 • 蒸留を複数回繰り返すことの有効性検証(iPET) 3. 教師ありデータ利用法の有効性検証 • 通常のFine-tuning・Primingとの比較 17
  • 18. • GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証 1. 提案法のパターンの有効性検証 • 利用するパターンの影響確認(GPT-3 vs PET) 2. 教師なしデータ利用法の有効性検証 • 蒸留の必要性・影響の確認 • 蒸留を複数回繰り返すことの有効性検証(iPET) 3. 教師ありデータ利用法の有効性検証 • 通常のFine-tuning・Primingとの比較 考察 18
  • 19. 考察1: 提案法のパターンの有効性検証 • PETの枠組みで、以下のパターンを利用した場合の実験を実施 – p ours: 提案法のパターン – p GPT-3: GPT-3で利用されたプロンプト – p comb: ours, GPT-3 の組み合わせ • 結果 – CB, MultiRC では ours, RTEでは GPT-3 • → タスクに適したパターンを考案することは、タスクの性能に直結する – パターンを増やすことは、性能改善につながる(p comp) 19
  • 20. • GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証 1. 提案法のパターンの有効性検証 • 利用するパターンの影響確認(GPT-3 vs PET) 2. 教師なしデータ利用法の有効性検証 • 蒸留の必要性・影響の確認 • 蒸留を複数回繰り返すことの有効性検証(iPET) 3. 教師ありデータ利用法の有効性検証 • 通常のFine-tuning・Primingとの比較 考察 20
  • 21. • 知識蒸留の影響を調べるため、以下の性能を比較 – PET (p ours/comb) ¬ dist: 複数PVPで得たモデルのアンサンブル(下図: (2)) – PET (p ours/comb): 教師なしデータに対する疑似ラベルで蒸留したモデル(下図 (3)) • 結果 – 蒸留なしのアンサンブルの方が性能は高い結果 – 蒸留は性能を上げるためではなく、最終モデルのパラメータを減らす目的で実施 考察2: 教師なしデータ利用法の有効性検証 21
  • 22. • 蒸留を複数回繰り返すことの有用性を検証 – iPETの各世代のスコア平均と標準偏差をグラフ化(下図) • 結果 – MultiRC以外の3タスクで、iPETによる性能向上を確認 – 試行に対する標準偏差も、4世代目でほぼゼロになった • 少数データに対するFine-tuningに対する学習の不安定さも排除できた 考察2: 教師なしデータ利用法の有効性検証 22
  • 23. 考察 • GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証 1. 提案法のパターンの有効性検証 • 利用するパターンの影響確認(GPT-3 vs PET) 2. 教師なしデータ利用法の有効性検証 • 蒸留の必要性・影響の確認 • 蒸留を複数回繰り返すことの有効性検証(iPET) 3. 教師ありデータ利用法の有効性検証 • 通常のFine-tuning・Primingとの比較 23
  • 24. • パターンを利用した学習法の有効性を確認するため、以下を比較 – PET: 提案法 – unsupervised: 全PVPを利用、Fine-tuning無しのアンサンブル – supervised: パターンを利用せず、Transformerにclassifier headを配置 – PET (XLNet): 提案法のバックボーンをXLNetに変更したもの – Priming (XLNet): XLNetを使って Priming で Few-shot 推論したもの • 結果 – PETが unsupervised, supervised, priming を大きく上回る結果 – MultiRCでは長文を入力するため、priming で推論することができなかった • 32件の訓練データをプライミングで与えるためには10,000トークン以上のシーケンス長に 対応する必要がある – プライミングと比較して、推論時のシーケンス長が短い点もPETの有用性の一つ 考察3: 教師ありデータ利用法の有効性検証 24
  • 25. まとめ • 自然言語処理におけるFew-shotタスクに対する新たなアプローチ: PET・iPET を提案 [EACL2021] – PET: Pattern-Verbalizer Pair (PVP) を利用した学習フレームワークを提案 – iPET: 知識蒸留を複数繰り返すことでFine-tuingの安定性を向上 • PET・iPETの各モジュールに対する有効性を検証し、GPT-3に対する 優位性を確認 [NAACL2021] – 巨大なGPT-3に匹敵する性能を少ないパラメータ数で実現 – Maskトークンが複数に分割される場合に対しても対処可能にした 25
  • 26. References • Schick, Timo, and Hinrich Schütze. "Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference.” In EACL 2021. • Schick, Timo, and Hinrich Schütze. "It's Not Just Size That Matters: Small Language Models Are Also Few- Shot Learners.” In NAACL 2021. • Brown, Tom B., et al. "Language models are few-shot learners." In NeurIPS 2020. • Wang, Alex, et al. "Superglue: A stickier benchmark for general-purpose language understanding systems." In NeurIPS 2019. 26