公開URL:https://arxiv.org/abs/2009.01325
出典:Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, Paul Christiano : Learning to summarize from human feedback, arXiv:2009.01325 (2020)
概要:言語モデルが強力になるにつれて、モデルの学習と評価は特定のタスクで使用されるデータとメトリクスによってボトルネックになることが多い。要約モデルでは人間が作成した参照要約を予測するように学習され、ROUGEによって評価されることが多い。しかし、これらのメトリクスと人間が本当に気にしている要約の品質との間にはズレが存在する。本研究では、大規模で高品質な人間のフィードバックデータセットを収集し、人間が好む要約を予測するモデルを学習する。そのモデルを報酬関数として使用して要約ポリシーをfine-tuneする。TL;DRデータセットにおいて本手法を適用したところ、人間の評価において参照要約よりも上回ることがわかった。
2. 論文情報
• 著者
– Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan
Lowe, Chelsea Voss, Alec Radford, Dario Amodei, Paul
Christiano
• OpenAI
• 概要
– 人間のフィードバックを用いて強化学習
– Pretrained Model を Fine Tune -> Human Feedback で強化学習
– 要約タスクでFine Tuneのみや人間の要約を上回る
• 論文URL
– https://arxiv.org/abs/2009.01325
• GitHub
– https://github.com/openai/summarize-from-feedback
• OpenAI Blog
– https://openai.com/blog/learning-to-summarize-with-human-
feedback/
1
4. Introduction
• 言語モデルの教師有り学習では対数尤度を最大化する
– 対数尤度最大化 と 人から見た良い文の生成 の間にはズレが存在
• 本論文の目標
– 我々が気にしている行動をより密接に捉えた目標に基づいて
言語モデルを学習させる方法を発展させる
• 英文の要約タスクを対象
– 文書要約においては強化学習は一般的
– ROUGEのような要約品質を評価する自動メトリクスは
人間の判断との相関性が低いという批判を受けている[1,2,3,4]
3
[1] N. Schluter. The limits of automatic summarisation according to rouge. In Proceedings of the 15th Conference of the
European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers, pages 41–45, 2017.
[2] R. Paulus, C. Xiong, and R. Socher. A deep reinforced model for abstractive summarization. arXiv preprint arXiv:1705.04304,
2017.
[3] A. T. Chaganty, S. Mussman, and P. Liang. The price of debiasing automatic metrics in natural language evaluation. arXiv
preprint arXiv:1807.02202, 2018.
[4] W. Kryscinski, N. S. Keskar, B. McCann, C. Xiong, and R. Socher. Neural text summarization: A critical evaluation. In
Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint
Conference on Natural Language Processing (EMNLP-IJCNLP), pages 540–551, 2019.
5. Related Work
• 強化学習(RL)を用いた要約モデルの学習に
人間のフィードバックを使用した研究[1,2]
– 人間評価のデータセットから報酬関数を学習[1]
– 人間のフィードバックを用いたオンライン学習[2]
• OpenAI(本論文と同じ著者含む)
• 変更点
– より大きなモデルを使用
» GPT-2(774M) -> GPT-3(1.3B, 6.7B)
– フィードバック収集をバッチ設定に移行
– ラベラーと研究者の高い一致率を確保
– policy network と value network を分離
– 参照要約上でfine-tuneしたモデルでその他モデルを初期化
– etc
4
[1] F. Böhm, Y. Gao, C. M. Meyer, O. Shapira, I. Dagan, and I. Gurevych. Better rewards yield better summaries: Learning to
summarise without references. arXiv preprint arXiv:1909.01214, 2019.
[2] D. M. Ziegler, N. Stiennon, J. Wu, T. B. Brown, A. Radford, D. Amodei, P. Christiano, and G. Irving. Fine-tuning language
models from human preferences. arXiv preprint arXiv:1909.08593, 2019.
12. TL;DR summarization dataset 例 11
要約
アメリカ在住と仕事を両立できるビザを取得するには?
オーストラリア出身の彼氏が私と一緒になるためにアメリカに移住したいと言って
いますが、ビザが必要です。私たちは、私たちのどちらも最初にお互いに会わずに
結婚することを望んでいないので、彼に家族スポンサーのビザを取得することがで
きません。
彼氏がアメリカに移住したいと言っていますが、ビザがありません。どうすれば取
得できるのでしょうか?
彼氏と私は違う大陸に住んでいて、アメリカに引っ越すためにはビザが必要です。
直接会わずに結婚するのは嫌だし、大学に通うための資金もない。
Human-written
reference summary
Human feedback 6B
model
Supervised 6B model
Pre-trained 6B model
13. Collecting human feedback
• 従来研究[1]での失敗
– モデルに学習させたい品質とラベラーの実際の評価にミスマッチ
• 従来研究からの変更
1. オフライン設定
• 以下を交互に繰り返す
– ラベラーに大量の比較データを送る
– 累積的に収集されたデータに基づいてモデルを再学習
2. ラベラーとのハンズオン関係を維持
• ラベラーと研究者の判断が一致するようにラベラーをトレーニング
• データ収集期間中にラベラーと研究者の判断の一致を監視
– 一部では一致度は約77±2%(研究者同士は73±4%)
• パフォーマンスの悪いラベラーは途中でクビにする
• etc
12
[1] D. M. Ziegler, N. Stiennon, J. Wu, T. B. Brown, A. Radford, D. Amodei, P. Christiano, and G. Irving. Fine-tuning language
models from human preferences. arXiv preprint arXiv:1909.08593, 2019.
14. Models
• どのモデルもGPT-3スタイルのTransformer Decoder
– 13億(1.3B)と67億(6.7B)のパラメータ数を持つモデルで実験
13
Pretrained
Model
(GPT-3)
Supervised
Model 𝝅 𝑺𝑭𝑻
Reward
Model 𝒓
Human
Feedback
Policy 𝝅 𝑹𝑳
TL;DR dataset
でfine-tune
Reward Modelを報酬とした
強化学習(PPO)でfine-tune
Human Feedbackデータによって
Reward Modelを学習
18. Results (Transfer to summarizing news articles)
• TL;DRで学習したモデルをCNN/DMニュース記事要約に転移
– 前ページと同様にリッカート尺度で評価(図は4軸の平均)
17
生成要約の文章長が短いのにも関わらずHuman feedback transfer
はCNN/DMでfine-tuneしたモデルとほぼ同等の性能
同じような長さではCNN/DMで学習したT5と同等の性能
19. Results (Understanding the Reward model)
• What happens as we optimize the reward model ?
– 初期バージョンの報酬モデルに対して
異なるKLペナルティ係数𝛽で学習したポリシーを評価
• 人間が 参照要約 よりも モデルが生成した要約 を好む割合
18
(small 𝜷)の下ではラベラーによるとモデルは改善する
(large 𝜷)と真の嗜好は予測と比較して低下する
これは望ましくない、この過剰適合はROUGEでも起こる
20. Results (Understanding the Reward model)
• How does reward modeling scale with increasing model
and data size?
– モデルサイズと学習データ量が報酬モデルの性能に与える影響
19
データ量を2倍にするとvalidation accuracyが1.1%増加
モデルサイズを2倍にすると1.8%増加
21. Results (Understanding the Reward model)
• What has the reward model learned?
– 報酬モデル(RM)とラベラーの評価、ROUGE等の一致率を計算
• 1.3B supervised model (T=0.7)の要約を使用
20
RMはlabelerと一致度が高い
22. Results (Understanding the Reward model)
• What has the reward model learned?
– 人間に要約を修正させ、修正前後でどっちが良いか評価
21
報酬モデル(RM)は人間と同程度の割合で修正後を好む
著者曰く…
報酬モデル(RM)は文のシャッフルにも敏感
ROUGEとかでは文のシャッフルには鈍感
一方で、報酬モデルは投稿タイトルが2回コピーされてたり
要約の最後にアドバイスを求めるような粗悪な要約を好むことがある
23. Results (Understanding the Reward model)
• What has the reward model learned?
– 要約の修正箇所と報酬モデルの変化
• 編集距離が5未満で報酬の変化が0.5より大きい例をランダム抽出
22
報酬モデルは小さな変化(意味的には大きな変化)に敏感
24. Results (Analyzing automatic metrics for summarization)
• 報酬モデル(RM)とラベラーの評価、ROUGE等の一致率を計算
– 1.3B supervised model (T=0.7)の要約を使用
23
対数確率やROUGEはlabelerとの一致度が低い