SlideShare a Scribd company logo
1 of 39
原聡@第12回最先端NLP勉強会
XAI技術の効能を
ユーザ実験で評価する研究
原 聡
大阪大学 産業科学研究所
1
第12回最先端NLP勉強会
2020/9/25-26@オンライン
担当論文 → 論文調査へ
Evaluating Explainable AI: Which Algorithmic Explanations
Help Users Predict Model Behavior? (ACL2020)
【論文調査】
原聡@第12回最先端NLP勉強会
Peeking inside the black-box: A survey on
Explainable Artificial Intelligence (XAI)
https://ieeexplore.ieee.org/document/8466590/
“XAIが大事”と言われはじめてから5年くらい
n 発表されるXAI関係の論文の数が爆発的に増えた。
• 機械学習関連の国際会議ではワークショップも開催。
• 【参考】 日本語まとめ資料
- 機械学習における解釈性(私のブックマーク), 人工知能, Vol.33, No.3, 2018.
- 説明可能AI(私のブックマーク), 人工知能, Vol.34, No.4, 2019.
- 機械学習モデルの判断根拠の説明
- 機械学習モデルの判断根拠の説明 (Ver.2)
2
原聡@第12回最先端NLP勉強会
ところで、XAI技術ってユーザの役に立ってるの?
n 5年も研究されて色々な技術が開発されているのなら、
既に色々なところで実用化されて役に立っているので
は?
n でも、「弊社はXAI技術で大儲けしてます」という話は
(私の知る範囲では)聞かない。
• 「サービスの一環としてXAI技術も提供します」はよく聞く。
n もしかして、XAI技術ってあまり役に立たない??
3
原聡@第12回最先端NLP勉強会
XAI技術がユーザの役に立つか調べた研究(一部)
n arXivの論文
[1] Manipulating and Measuring Model Interpretability, arXiv’18.
[2] Does the Whole Exceed its Parts? The Effect of AI Explanations on Complementary Term Performance, arXiv’20.
n NLP系の会議論文
[3] Comparing Automatic and Human Evaluation of_Local Explanations for Text Classification, NAACL-HLT’18.
[4] Evaluating Explainable AI: Which Algorithmic Explanations Help Users Predict Model Behavior?, ACL’20.
n CV系の会議論文
???(調査不足)
n FAT系の会議論文
[5] On Human Predictions with Explanations and Predictions of Machine Learning Models: A Case Study on Deception
Detection, FAT*’19.
[6] Effect of Confidence and Explanation on Accuracy and Trust Calibration in AI-Assisted Decision Making, FAT*’20.
n HCI系の会議論文
[7] The Effects of Example-Based Explanations in a Machine Learning Interface, IUI’19.
[8] What can AI do for me? Evaluating Machine Learning Interpretations in Cooperative Play, IUI’19.
[9] Effects of Influence on User Trust in Predictive Decision Making, CHI’19.
[10] The Principles and Limits of Algorithm-in-the-Loop Decision Making, CSCW’19.
[11] “Why is ‘Chicago’ deceptive?” Towards Building Model-Driven Tutorial for Humans, CHI’20.
4
原聡@第12回最先端NLP勉強会
XAI技術が “ユーザの役に立つ” とは?
n XAIに期待される効能(代表的な項目の一部)
• モデルの挙動理解
ユーザが「モデルの予測」を予測できるようになる。
• モデルへの信頼醸成
ユーザが「モデルの予測」を信頼して採用するようになる。
• ユーザの予測精度向上
モデルの補助を受けて、ユーザが高精度な予測ができるよう
になる。
n XAI(説明)が“ユーザの役に立つ”ならば、説明の有無
でユーザの行動に変化が生じるはず。
→ ユーザの行動の(良い方向への)変化が見られれば、
XAI(説明)が“ユーザの役に立つ”と言えそう。
5
原聡@第12回最先端NLP勉強会
【注意】
n 本資料は、論文[1] - [11]を主に「評価項目」と「結果」を
中心にまとめたもの。
• 実験の詳細や結果の分析方法などは各論文へ。
• 論文ごとにデータやモデル、評価した説明法などが異なるた
め、厳密には論文間の結果の比較はできないことに注意。
n 論文[1] - [11]の“ユーザ”は主にエンドユーザ
• 機械学習の知識はないが、モデルを予測(意思決定)に使う
ユーザ。
• 機械学習に詳しいユーザ(研究者/エンジニアなど)向けの
XAIの有効性の検証ではない。
6
原聡@第12回最先端NLP勉強会
XAIの効能まとめ
n 現状の評価
• モデルの挙動理解
ユーザが「モデルの予測」を予測できるようになる。
→ 効果はあるかもしれないが、限定的。
• モデルへの信頼醸成
ユーザが「モデルの予測」を信頼して採用するようになる。
→ 「予測クラスのクラス確率の提示」は効果ありそう。
• ユーザの予測精度向上
モデルの補助を受けて、ユーザが高精度な予測ができるよう
になる。
→ 効果はある が、ユーザがモデル単体の精度を超えるの
は困難。
7
原聡@第12回最先端NLP勉強会
現状の研究結果
n 効能 「モデルの挙動理解」
ユーザが「モデルの予測」を予測できるようになる。
n 現状の評価
効果はあるかもしれないが、限定的。
n 評価研究:[1], [3], [4]
• [1] 効果あり(限定的)
- 説明が十分に単純な場合のみ
• [3] 効果あり
• [4] 効果あり(限定的)
- 一部のデータおよび一部の説明法でのみ
8
原聡@第12回最先端NLP勉強会
現状の研究結果
n 効能 「モデルの挙動理解」
ユーザが「モデルの予測」を予測できるようになる。
n 現状の評価
効果はあるかもしれないが、限定的。
n 評価研究:[1], [3], [4]
• [1] 効果あり(限定的)
- 説明が十分に単純な場合のみ
• [3] 効果あり
• [4] 効果あり(限定的)
- 一部のデータおよび一部の説明法でのみ
9
原聡@第12回最先端NLP勉強会
[4] Evaluating Explainable AI: Which Algorithmic Explanations
Help Users Predict Model Behavior?, ACL’20.
10
評価項目 説明から、ユーザは「モデルの予測」を予測できるか?
データ Movie reviews / Adult
モデル DNN
説明 1. 重要単語・特徴(LIME)
2. 重要単語・特徴(Anchors)
3. 予測に関連する訓練データ(ProtoPNet)
4. 反実仮想データ(入力データの一部を改変して分類結果を反転させたデータ)
5. 1-4の組み合わせ
ユーザ 32人(CSまたは統計の学生)を(データ2種類 × 説明5種類)にランダム割当
タスク 実験に使うデータのTP/TN/FP/FNの比率を揃える。
• [訓練1] 16個の検証データとモデルの予測を見る。
• [本番1] 16個のテストデータについて、ユーザが「モデルの予測」を予測をする。
• [訓練2] 訓練1と同じデータについてモデルの予測と説明を見る。
• [本番2] 本番1と同じデータについて、ユーザが「モデルの予測」を予測をする。
動機付け $15.00/時間
結果 • 予測できた。ただし、Adult + LIMEでのみ([本番1]に比べて[本番2]でユーザの予
測精度の有意に向上)。
示唆 • 説明から、ユーザが「モデルの予測」を予測できるようには(それほど)ならない。
原聡@第12回最先端NLP勉強会
現状の研究結果
n 効能 「モデルへの信頼醸成」
ユーザが「モデルの予測」を信頼して採用するようにな
る。
n 現状の評価
「予測クラスのクラス確率の提示」は効果ありそう。
n 評価研究:[1], [6]
• [1] 効果は観測されず
• [6] 効果あり(限定的)
- 説明として予測クラスのクラス確率を提示した場合は効果あり
- 説明として重要特徴を提示した場合は効果は観測されず
11
原聡@第12回最先端NLP勉強会
現状の研究結果
n 効能 「モデルへの信頼醸成」
ユーザが「モデルの予測」を信頼して採用するようにな
る。
n 現状の評価
「予測クラスのクラス確率の提示」は効果ありそう。
n 評価研究:[1], [6]
• [1] 効果は観測されず
• [6] 効果あり(限定的)
- 説明として予測クラスのクラス確率を提示した場合は効果あり
- 説明として重要特徴を提示した場合は効果は観測されず
12
原聡@第12回最先端NLP勉強会
[6] Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making, FAT*’20.
13
評価項目 説明により、ユーザは「モデルの予測」に従うようになるか?
データ Adult
モデル GBDT
説明 1. 予測ラベル
2. クラス確率
ユーザ 全4通りの設定にそれぞれ9人@Amazon MTurkをランダム割当
タスク • [訓練] 20個のデータでクラスを予測 → 真のクラス、モデルの予測、説明を見る。
• [本番] 40個のデータでクラスを予測 → 説明を見て自身の予測とモデルの予測の
どちらを採用するかを決定。
動機付け 参加$3.00 + $0.05/正解 - $0.02/不正解
結果 • 従うようになった。予測ラベル提示の有無に関わらず、クラス確率の提示により
ユーザは「モデルの予測」に従う傾向が強まった。
• ただし、ユーザの予測精度が有意に向上したわけではない。
示唆 • クラス確率の提示には、ユーザのモデルへの信頼を醸成して「モデルの予測」を採
用するように促す効果がある。
【全4通り】
説明1の有無 × 説明2の有無
原聡@第12回最先端NLP勉強会
現状の研究結果
n 効能 「ユーザの予測精度向上」
モデルの補助を受けて、ユーザが高精度な予測ができ
るようになる。
n 現状の評価
効果はあるが、ユーザがモデル単体の精度を超えるの
は困難。
n 評価研究:[2], [5], [8], [10], [11]
• [2] 効果あり
• [5] 効果あり
• [8] 効果あり
• [10] 効果あり
• [11] 効果あり
14
ただし、モデル単体の予測精度を
ユーザが上回ることはできなかった
精度: モデル単体 > ユーザ(モデル補助あり) > ユーザ単体
原聡@第12回最先端NLP勉強会
現状の研究結果
n 効能 「ユーザの予測精度向上」
モデルの補助を受けて、ユーザが高精度な予測ができ
るようになる。
n 現状の評価
効果はあるが、ユーザがモデル単体の精度を超えるの
は困難。
n 評価研究:[2], [5], [8], [10], [11]
• [2] 効果あり
• [5] 効果あり
• [8] 効果あり
• [10] 効果あり
• [11] 効果あり
15
ただし、モデル単体の予測精度を
ユーザが上回ることはできなかった
精度: モデル単体 > ユーザ(モデル補助あり) > ユーザ単体
原聡@第12回最先端NLP勉強会
[5] On Human Predictions with Explanations and Predictions of Machine
Learning Models: A Case Study on Deception Detection, FAT*’19.
16
評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか?
データ 嘘レビューの検知(嘘 or not の分類)
モデル 線形SVM(bag-of-words特徴) - 精度 0.87
説明 1. 説明なし
2. 予測ラベル
3. 予測ラベル + モデルの分類精度
4. 重要単語(回帰係数)
5. 関連データ(最近傍データ)
6. 1と3の組み合わせ
ユーザ 説明1-6にそれぞれ80人@Amazon MTurkをランダム割当
タスク • [訓練] 3個のレビュー文と説明を見てクラスを予測する。
• [本番] 20個のレビュー文と説明を見てクラスを予測する。
動機付け $0.05/回答 + $0.02/正解
結果 • 高精度な予測ができた。説明1-4では、説明なしよりもユーザの予測精度が向上し
た(精度0.54 – 0.75)。特に説明2が顕著(精度 0.75)。
• ただし、モデル単体での予測が最大精度。
示唆 • 予測ラベルとモデルの精度を提示するのがユーザの精度向上に一番効果的。
原聡@第12回最先端NLP勉強会
[2] Does the Whole Exceed its Parts? The Effect of AI
Explanations on Complementary Term Performance, arXiv’20.
17
評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか?
データ レビュー文の分類データ(beer reviewsとbook reviews)
モデル RoBERTaを使った分類器をfine-tune
分類器のクラス確率(confidence score)はvalidation dataでcalibration
説明 1. モデルの予測クラスとそのクラス確率
2. 1 + 分類対象クラスの重要単語(LIME)
3. 2 + 確率が二番目に大きいクラスの重要単語(LIME)
4. 2と3をクラス確率に応じて適応的に使い分ける方法
5. 人手でannotateした重要フレーズ
ユーザ データそれぞれについて566人, 552人@Amazon MTurkを説明1-5にランダム割当。
Screeningにより、最終的には500人程度に。
タスク 50個のレビュー文を説明をもとに分類。レビュー文はユーザ単体とモデル単体とで同
等の分類精度になるように選択。
動機付け 参加$0.50 + 最終サーベイ回答$0.25 + $0.05/正解 + $0.50/$1.00(正解率90%/95%超)
結果 • 高精度な予測ができた。全ての説明で、ユーザ単体での予測精度を上回った。
• 説明の間で明確な優劣はなかった。
• 説明があると、ユーザはモデルの予測に引っ張られる傾向があった。
示唆 • ユーザが良い予測をするにはクラス確率の提示だけで十分かも。重要単語の提
示は精度向上に寄与せずにユーザのモデルへの盲信を促す可能性がある。
原聡@第12回最先端NLP勉強会
まとめ
n Q. XAI技術は “ユーザの役に立つ” のか?
n A. いくつかの効能はあるが、今のところ期待されていた
ほどの効果は見られていない。
n 課題: XAI技術の研究開発
• ユーザへの効能を考えて手法を開発する必要があるかもし
れない。
- 現状は出力したい説明Xが先にあって、「Xが出力できる手法を考え
る」という研究のアプローチが主流。
• ユーザへの効能を高めるために、ユーザの認知をハックする
のは許されるか?
- 嘘も方便?
- ユーザが幸せなら、ユーザに嘘の説明を提供しても良い?
18
原聡@第12回最先端NLP勉強会
まとめ
n Q. XAI技術は “ユーザの役に立つ” のか?
n A. いくつかの効能はあるが、今のところ期待されていた
ほどの効果は見られていない。
n 課題: 効能の評価方法
• 研究ごとにデータやモデル、評価した説明法などが異なるの
で、結果を公正に比較するのが困難。
- 評価研究がある程度増えてきたら、メタアナリシスが必要かも。
• 評価の質に大きなばらつきがある。
- アンケートレベルの簡素なものから、きちんと実験計画を立てて倫理
審査を経たものまで様々。
• 標準的なプロトコルが必要。
- ユーザ実験に習熟した研究者の知見が必要。
- CHIや社会統計学、心理学、経済学など。
19
原聡@第12回最先端NLP勉強会
研究まとめ一覧
20
原聡@第12回最先端NLP勉強会
[1] Manipulating and Measuring Model Interpretability, arXiv’18.
21
評価項目 説明から、ユーザは「モデルの予測」を予測できるか?
データ New Yorkの物件価格の予測データ
モデル 線形回帰モデル
モデル1: 特徴2つ(浴室の個数, 面積)
モデル2: 特徴8つ
説明
ユーザ 1250人@Amazon MTurkを5通りの設定にランダム割当
タスク • [訓練1] (説明なしのユーザ以外)予測に使われる特徴(および回帰係数)の説明
• [訓練2] 10件の物件/モデル予測を見て、自分で予測する → 正解を見る。
• [本番1] 12件の物件について、「モデルの予測」を予測 → 「予測の自信」を回答。
動機付け $2.50固定
結果 • 予測できた。ただし、「モデル1×係数見せる」の場合のみ。
• 「予測の自信」と予測の誤差には明確な関連性は見られなかった。
示唆 • 特徴の数が増えると、線形モデルでもユーザの予測は不正確になる。
補足 • AsPredictedにて仮説の事前登録あり
• IRB-Approved(組織内の倫理委員会の承認済み)
【全5通り】
説明なし + {モデル1, モデル2} × {回帰係数を見せる, 見せない}
原聡@第12回最先端NLP勉強会
[1] Manipulating and Measuring Model Interpretability, arXiv’18.
22
評価項目 説明により、ユーザは「モデルの予測」に従うようになるか?
ユーザ 1250人@Amazon MTurkを5通りの設定にランダム割当
タスク 前頁の[本番1]の後に
• [本番2] 12件の物件について、自身で価格を予測 → 「予測の自信」を回答。
動機付け $2.50固定
結果 • 従うようにならなかった。説明の種類と、ユーザ自信の予測の精度との間に明確
な関係は見られなかった。
示唆 • 説明によってモデルの挙動が理解できても、ユーザがモデルの予測に従うかは別
問題。
データ、モデル、説明は前頁と同じ
補足 • AsPredictedにて仮説の事前登録あり
• IRB-Approved(組織内の倫理委員会の承認済み)
原聡@第12回最先端NLP勉強会
[1] Manipulating and Measuring Model Interpretability, arXiv’18.
23
評価項目 説明から、ユーザは「モデルの予測」の間違いを見つけられるか?
ユーザ 1250人@Amazon MTurkを5通りの設定にランダム割当
タスク 前々頁の[訓練1][訓練2][本番1]と同じ
• [本番1]の12件の物件のうち2件はモデルの予測が上振れする外れ値(「寝室1つ、
浴室2つ」「寝室1つ、浴室3つ」)。
動機付け $2.50固定
結果 • 見つけられなかった。「説明なし」のユーザに比べて、4つの説明全てにおいて、
ユーザの予測価格は大きく上振れした(モデルの予測値/説明に引っ張られた)。
• 特に「回帰係数を見せる」に割り当てられたユーザは予測を大きく外した。
示唆 • 説明からユーザはモデルの間違いを検知できない。むしろ説明はユーザのモデル
への盲信を助長する可能性がある。
データ、モデル、説明は前頁と同じ
補足 • AsPredictedにて仮説の事前登録あり
• IRB-Approved(組織内の倫理委員会の承認済み)
原聡@第12回最先端NLP勉強会
[2] Does the Whole Exceed its Parts? The Effect of AI
Explanations on Complementary Term Performance, arXiv’20.
24
評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか?
データ レビュー文の分類データ(beer reviewsとbook reviews)
モデル RoBERTaを使った分類器をfine-tune
分類器のクラス確率(confidence score)はvalidation dataでcalibration
説明 1. モデルの予測クラスとそのクラス確率
2. 1 + 分類対象クラスの重要単語(LIME)
3. 2 + 確率が二番目に大きいクラスの重要単語(LIME)
4. 2と3をクラス確率に応じて適応的に使い分ける方法
5. 人手でannotateした重要フレーズ
ユーザ データそれぞれについて566人, 552人@Amazon MTurkを説明1-5にランダム割当。
Screeningにより、最終的には500人程度に。
タスク 50個のレビュー文を説明をもとに分類。レビュー文はユーザ単体とモデル単体とで同
等の分類精度になるように選択。
動機付け 参加$0.50 + 最終サーベイ回答$0.25 + $0.05/正解 + $0.50/$1.00(正解率90%/95%超)
結果 • 高精度な予測ができた。全ての説明で、ユーザ単体での予測精度を上回った。
• 説明の間で明確な優劣はなかった。
• 説明があると、ユーザはモデルの予測に引っ張られる傾向があった。
示唆 • ユーザが良い予測をするにはクラス確率の提示だけで十分かも。重要単語の提
示は精度向上に寄与せずにユーザのモデルへの盲信を促す可能性がある。
原聡@第12回最先端NLP勉強会
[3] Comparing Automatic and Human Evaluation of_Local
Explanations for Text Classification, NAACL-HLT’18.
25
評価項目 説明から、ユーザは「モデルの予測」を予測できるか?
データ 20News / Movie reviews
モデル 1. ロジスティック回帰(tf-idf特徴、L2正則化) - 精度 0.921 / 0.797
2. 多層パーセプトロン(512中間ユニット, ReLU) - 精度 0.939 / 0.832
説明 重要単語(10個または20個)
1. ランダム
2. LIME
3. 貪欲選択(クラス確率が減る単語を貪欲法で選択)
4. 入力勾配
ユーザ データそれぞれについて406人, 445人@CrowdFlowerを説明1-4にランダム割当。
タスク 200個の文書のうち、10~20文書程度を説明をもとに分類。200個の文書の内訳はモデ
ルの予測のTP/TN/FP/FNがそれぞれ50文書ずつ。
動機付け $0.03/回答
結果 • 予測できた。ランダムに比べて他の説明では、ユーザの「モデルの予測」の予測精
度が向上した。
• ランダム以外の説明間で明確な優劣は見られなかった。
示唆 • 説明により、ユーザは「モデルの予測」を予測できるようになる。
原聡@第12回最先端NLP勉強会
[3] Comparing Automatic and Human Evaluation of_Local
Explanations for Text Classification, NAACL-HLT’18.
26
評価項目 説明の定量評価指標と、説明に基づくユーザの「モデルの予測」の予測精度の間に
関係はあるか?
結果 • 関係はあった。説明の定量評価指標SP(switching point; モデルの予測を反転さ
せるのに削除する単語の割合)、AOPC(area over the perturbation curve; 削除単
語数とクラス確率をとのトレードオフの度合い)ともに、説明に基づくユーザの「モ
デルの予測」の予測精度との間に緩い相関が見られた。
示唆 • 定量評価指標SPおよびAOPCは、説明に基づくユーザの「モデルの予測」の予測
精度の代替評価指標として使えるかもしれない。
データ、モデル、説明、ユーザ、タスク、動機付けは前頁と同じ
原聡@第12回最先端NLP勉強会
[4] Evaluating Explainable AI: Which Algorithmic Explanations
Help Users Predict Model Behavior?, ACL’20.
27
評価項目 説明から、ユーザは「モデルの予測」を予測できるか?
データ Movie reviews / Adult
モデル DNN
説明 1. 重要単語・特徴(LIME)
2. 重要単語・特徴(Anchors)
3. 予測に関連する訓練データ(ProtoPNet)
4. 反実仮想データ(入力データの一部を改変して分類結果を反転させたデータ)
5. 1-4の組み合わせ
ユーザ 32人(CSまたは統計の学生)を(データ2種類 × 説明5種類)にランダム割当
タスク 実験に使うデータのTP/TN/FP/FNの比率を揃える。
• [訓練1] 16個の検証データとモデルの予測を見る。
• [本番1] 16個のテストデータについて、ユーザが「モデルの予測」を予測をする。
• [訓練2] 訓練1と同じデータについてモデルの予測と説明を見る。
• [本番2] 本番1と同じデータについて、ユーザが「モデルの予測」を予測をする。
動機付け $15.00/時間
結果 • 予測できた。ただし、Adult + LIMEでのみ([本番1]に比べて[本番2]でユーザの予
測精度の有意に向上)。
示唆 • 説明から、ユーザが「モデルの予測」を予測できるようには(それほど)ならない。
原聡@第12回最先端NLP勉強会
[4] Evaluating Explainable AI: Which Algorithmic Explanations
Help Users Predict Model Behavior?, ACL’20.
28
評価項目 説明から、ユーザはデータの小さな変化によって「モデルの予測」が変化するか否か
を予測できるか?
ユーザ 32人(CSまたは統計の学生)を(データ2種類 × 説明5種類)にランダム割当
タスク 実験に使うデータのTP/TN/FP/FNの比率を揃える。
• [本番1] 32個のテストデータについて、(データ、真のクラス、モデルの予測、“少し
異なるデータ”)を見て、“少し異なるデータ”に対する「モデルの予測」を予測をする。
• [本番2] 本番1と同じデータ + モデルの説明を見て、“少し異なるデータ”に対する
「モデルの予測」を予測をする。
動機付け $15.00/時間
結果 • 予測できなかった。どの説明においても、[本番1]と比べて[本番2]でユーザの予測
精度に有意な向上は見られなかった。
示唆 • 説明から、ユーザが「モデルの予測」を予測できるようにはならない。
データ、モデル、説明は前頁と同じ
原聡@第12回最先端NLP勉強会
[5] On Human Predictions with Explanations and Predictions of Machine
Learning Models: A Case Study on Deception Detection, FAT*’19.
29
評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか?
データ 嘘レビューの検知(嘘 or not の分類)
モデル 線形SVM(bag-of-words特徴) - 精度 0.87
説明 1. 説明なし
2. 予測ラベル
3. 予測ラベル + モデルの分類精度
4. 重要単語(回帰係数)
5. 関連データ(最近傍データ)
6. 1と3の組み合わせ
ユーザ 説明1-6にそれぞれ80人@Amazon MTurkをランダム割当
タスク • [訓練] 3個のレビュー文と説明を見てクラスを予測する。
• [本番] 20個のレビュー文と説明を見てクラスを予測する。
動機付け $0.05/回答 + $0.02/正解
結果 • 高精度な予測ができた。説明1-4では、説明なしよりもユーザの予測精度が向上し
た(精度0.54 – 0.75)。特に説明2が顕著(精度 0.75)。
• ただし、モデル単体での予測が最大精度。
示唆 • 予測ラベルとモデルの精度を提示するのがユーザの精度向上に一番効果的。
原聡@第12回最先端NLP勉強会
[6] Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making, FAT*’20.
30
評価項目 説明により、ユーザは「モデルの予測」に従うようになるか?
データ Adult
モデル GBDT
説明 1. 予測ラベル
2. クラス確率
ユーザ 全4通りの設定にそれぞれ9人@Amazon MTurkをランダム割当
タスク • [訓練] 20個のデータでクラスを予測 → 真のクラス、モデルの予測、説明を見る。
• [本番] 40個のデータでクラスを予測 → 説明を見て自身の予測とモデルの予測の
どちらを採用するかを決定。
動機付け 参加$3.00 + $0.05/正解 - $0.02/不正解
結果 • 従うようになった。予測ラベル提示の有無に関わらず、クラス確率の提示により
ユーザは「モデルの予測」に従う傾向が強まった。
• ただし、ユーザの予測精度が有意に向上したわけではない。
示唆 • クラス確率の提示には、ユーザのモデルへの信頼を醸成して「モデルの予測」を採
用するように促す効果がある。
【全4通り】
説明1の有無 × 説明2の有無
原聡@第12回最先端NLP勉強会
[6] Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making, FAT*’20.
31
評価項目 説明により、ユーザは「モデルの予測」に従うようになるか?
データ Adult
モデル GBDT
説明 1. 予測ラベル
2. 予測ラベル & クラス確率
3. 予測ラベル & 重要特徴(SHAP)
ユーザ 9人(おそらく@Amazon MTurkを説明1-3に3人ずつランダム割当したと思われる)
タスク • [訓練] 20個のデータでクラスを予測 → 真のクラス、モデルの予測、説明を見る。
• [本番] 40個のデータでクラスを予測 → 説明を見て自身の予測とモデルの予測の
どちらを採用するかを決定。
動機付け (不明; おそらく前頁と同じ)
結果 • 従うようにならなかった。重要特徴を提示しても、ユーザが「モデルの予測」を採用
する傾向に変化は見られなかった。
• ただし、ユーザの予測精度が有意に向上したわけでもない。
示唆 • 重要特徴の提示には、ユーザのモデルへの信頼を醸成する効果はなさそう。
原聡@第12回最先端NLP勉強会
[7] The Effects of Example-Based Explanations in a Machine Learning
Interface, IUI’19.
32
評価項目 説明をもとに、ユーザは「モデルの挙動」を理解できるか?
データ QuickDrawの手書きイラスト分類データ
モデル RNN
説明 1. 説明なし
2. 予測クラスと同じ訓練画像をランダムに30個
3. 上位3つの予測クラスについて最も類似した訓練画像を1つ
4. 2 + 3
ユーザ 1150人(募集方法は不明) → スクリーニング後 1070人
タスク • QuickDrawで指示されたオブジェクトのイラスト(モデルで当該クラスと分類される
イラスト)を描く。
• 「モデルの挙動」の理解度を7段階のスコアで回答する。
動機付け (不明)
結果 • 理解できた。ただし、イラストがモデルに適切に分類されなかった場合のみ。このと
き、説明2を提示されたユーザの理解度スコアは有意に高かった。
• イラストがモデルに適切に分類された場合には、説明間でユーザの理解度スコア
に有意な差はなかった。
示唆 • 類似データの提示は、ユーザが「モデルの挙動」を理解した、と思わせる。
• 提示するデータの選び方で効果は変わる。
原聡@第12回最先端NLP勉強会
[8] What can AI do for me? Evaluating Machine Learning Interpretations in
Cooperative Play, IUI’19.
33
評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか?
データ Quizbowlのクイズデータ(正解の選択肢を選ぶ分類データ)
モデル 線形モデル(QANTAのguesser)
説明 1. 予測上位5クラスとクラス確率
2. 類似クイズとその重要単語
3. クイズの重要単語
ユーザ Quizbowlが強い人 40人(ネット掲示板で募集) / 素人 40人(Amazon MTurk)を8通り
の説明に一様ランダムに割当 → 回答数少のユーザをスクリーニング後 30人/30人
タスク 新しく用意された160問に好きなだけ回答する → 1983回答/600回答を収集
動機付け 全問回答で報奨金(金額は不明) / (不明)
結果 • 高精度な予測ができた。強いユーザには説明3が正解率向上に一番効果的だった。
• 高精度な予測ができた。素人ユーザには説明2が正解率向上に一番効果的だった。
示唆 • 複数の説明の提示には相乗効果がある。しかし、複数の説明を見るのは認知負
荷が高いので、ユーザは一部の説明だけを主に確認して必要に応じて他の説明
を見る。
【全8通り】
説明1の有無 × 説明2の有無 × 説明3の有無
原聡@第12回最先端NLP勉強会
[9] Effects of Influence on User Trust in Predictive Decision Making, CHI’19.
34
評価項目 説明により、ユーザはモデルを信用するようになるか?
データ 水道管の破損予測データ(破損 or not の分類)
モデル CNN(5特徴) :モデル1 - 精度 0.90 / モデル2 – 精度 0.50
説明 1. 関連(影響関数)Top10の訓練データ
2. 関連(影響関数)Bottom10の訓練データ
ユーザ 22人(募集方法は不明)
タスク データと説明から破損を予測 → モデルの予測への信頼度を9段階で回答
(回答データ数は不明)
動機付け (不明)
結果 • 信用するようになった。モデル1では、説明1によりユーザのモデル予測への信頼
度が向上することが確認された。
• モデル2では、ユーザのモデル予測への信頼度向上は確認されなかった。
示唆 • モデルの精度が十分に高い場合には、関連データの提示によりユーザのモデル
への信頼度が向上する。モデルの精度が低いと説明に信頼醸成の効果はない。
【全4通り】
説明1の有無 × 説明2の有無
原聡@第12回最先端NLP勉強会
説明 1. 説明なし
2. 予測クラス
[10] The Principles and Limits of Algorithm-in-the-Loop Decision Making,
CSCW’19.
35
評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか?
データ 1. 公判前拘留データ(保釈した被疑者が公判に戻ってくるか否かの分類)
2. ローン返済データ(完済されるか否かの分類)
モデル GBDT – AUC 0.66 / AUC 0.71
ユーザ スクリーニング後 1156人 / 732人(Amazon MTurk) を説明1-6にランダム割当
タスク 300データのうちランダムな40データについて、説明に基づいて出力クラスの確率を
10%刻みの選択肢から選んで回答
動機付け 全回答$2.00 + 回答精度(Brier score)に応じて$0.00 ~ $2.00
結果 • 高精度な予測ができた。2-5は1よりユーザの回答精度(Brier score)が有意に高
かった。
• 4での2回目の予測の回答精度は1回目の予測に比べて有意に高かった。
• 全ての場合において、モデル単体の回答精度(Brier score)が有意に高かった。
示唆 • 提示される説明によってユーザの回答精度は変わる。
• ただし、モデル単体の回答精度の方が高い。
3. 予測クラスが標準回答
4. 1で予測 → 2で予測
5. 2 + 重要特徴
6. 2で予測 → 真値を見る
補足 • IRB-Approved(組織内の倫理委員会の承認済み)
原聡@第12回最先端NLP勉強会
[10] The Principles and Limits of Algorithm-in-the-Loop Decision Making,
CSCW’19.
36
評価項目 説明をもとに、ユーザは自身の予測の正しさを適切に見積もれるようになるか?
ユーザ スクリーニング後 1156人 / 732人(Amazon MTurk) を説明1-6にランダム割当
タスク 前頁のタスク後に、自身の予測の正しさを5段階評価で回答
動機付け 全回答$2.00 + 回答精度(Brier score)に応じて$0.00 ~ $2.00
結果 • 見積もれなかった。ユーザの回答精度と5段階評価との間に明確な関連性は見ら
れなかった。
示唆 • ユーザは自身の予測の正しさを適切に見積もることはできない。
データ、モデル、説明は前頁と同じ
補足 • IRB-Approved(組織内の倫理委員会の承認済み)
原聡@第12回最先端NLP勉強会
[11] “Why is ‘Chicago’ deceptive?” Towards Building Model-Driven Tutorial
for Humans, CHI’20.
37
評価項目 事前の説明をもとに、ユーザはモデルと協調して高精度な予測ができるか?
データ 嘘レビューの検知(嘘 or not の分類)
モデル 線形SVM(bag-of-words特徴) - 精度 0.863
説明 1. 説明なし
2. 人手で作った分類のガイドライン
3. ランダムに選んだデータ10個
4. SP-LIMEで選んだデータ10個とそれぞれの重要10単語
5. 同じ重要単語が出やすく選んだデータ10個とそれぞれの重要10単語
6. 2と5の組み合わせ
ユーザ 説明1-6にそれぞれ80人@Amazon MTurkをランダム割当
タスク • [訓練] (1以外のユーザ)説明を見てレビューの分類の仕方を学ぶ。
• [本番] 20個のレビュー文(説明なし)を見てクラスを予測する。
動機付け 参加$2.50 + $0.05/正解
結果 • 高精度な予測ができた。説明2-6では、説明なしよりもユーザの予測精度が有意
に向上した(0.57 ~ 0.61)。ただし、説明2-6の間で明確な優劣は見られなかった。
• モデル単体の精度(0.863)には大きく劣る。
示唆 • 説明の種類によってユーザの予測精度向上の度合いに変化はない。
• 事前に説明を見て全て覚えておくのが大変なのかもしれない。
補足 • AsPredictedにて仮説の事前登録あり
原聡@第12回最先端NLP勉強会
[11] “Why is ‘Chicago’ deceptive?” Towards Building Model-Driven Tutorial
for Humans, CHI’20.
38
評価項目 回答時の説明をもとに、ユーザはモデルと協調して高精度な予測ができるか?
データ 嘘レビューの検知(嘘 or not の分類)
モデル 線形SVM(bag-of-words特徴) - 精度 0.863
説明 1. 説明なし
2. 重要10単語(色の濃淡で重要度の絶対値を表示)
3. 重要10単語(色および濃淡で符号付き重要度を表示)
4. 3 + 予測ラベル
5. 4 + 人手で作ったガイドライン
6. 5 + モデルの精度
ユーザ 説明1-6にそれぞれ80人@Amazon MTurkをランダム割当
タスク • [訓練] 前頁の説明6を見てレビューの分類の仕方を学ぶ。
• [本番] 20個のレビュー文(説明あり)を見てクラスを予測する。
動機付け 参加$2.50 + $0.05/正解
結果 • 高精度な予測ができた。説明3-6では、説明なしよりもユーザの予測精度が有意
に向上した(0.70 ~ 0.74)。ただし、説明3-6の間で明確な優劣は見られなかった。
• モデル単体の精度(0.863)には大きく劣る。
示唆 • 説明の種類によってユーザの予測精度向上の度合いに変化は(ほぼ)ない。
• ユーザの精度が向上してもモデル単体の精度には及ばない。
補足 • AsPredictedにて仮説の事前登録あり
原聡@第12回最先端NLP勉強会
[11] “Why is ‘Chicago’ deceptive?” Towards Building Model-Driven Tutorial
for Humans, CHI’20.
39
評価項目 ユーザは単純/複雑なモデルのどちらとと協調して高精度な予測ができるか?
データ 嘘レビューの検知(嘘 or not の分類)
モデル • 単純なモデル: 線形SVM(bag-of-words特徴) - 精度 0.863
• 複雑なモデル: BERT – 精度 0.90
説明 重要10単語(色および濃淡で符号付き重要度を表示)
1. SVMの回帰係数上位10個
2. BERTのattention上位10個
3. BERT + LIMEの上位10個
ユーザ 全6通りの設定にそれぞれ80人@Amazon MTurkをランダム割当
タスク • [訓練] (訓練有のユーザ)前々頁の説明6を見てレビューの分類の仕方を学ぶ。
• [本番] 20個のレビュー文(説明あり)を見てクラスを予測する。
動機付け 参加$2.50 + $0.05/正解
結果 • 高精度な予測ができた。訓練有りでは訓練無しよりも有意にユーザの予測精度が
向上した。説明1 >説明3 >説明2 の順でユーザの予測精度が有意に向上した。
• ただし、いずれの場合もモデル単体の精度には大きく劣る。
示唆 • 事前の訓練はユーザの精度向上に有効。
• 単純なモデルに基づく説明の方がユーザの精度向上に有効な可能性がある。
• ユーザの精度が向上してもモデル単体の精度には及ばない。
【全6通り】
訓練(前々頁の説明6)の有無 × 説明1-3のどれか
補足 • AsPredictedにて仮説の事前登録あり

More Related Content

What's hot

全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
機械学習で嘘をつく話
機械学習で嘘をつく話機械学習で嘘をつく話
機械学習で嘘をつく話Satoshi Hara
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...西岡 賢一郎
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性西岡 賢一郎
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理Taiji Suzuki
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題joisino
 
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)MLSE
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
 

What's hot (20)

全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
機械学習で嘘をつく話
機械学習で嘘をつく話機械学習で嘘をつく話
機械学習で嘘をつく話
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 

Similar to 【論文調査】XAI技術の効能を ユーザ実験で評価する研究

TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?KSK Analytics Inc.
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Miningcyberagent
 
科学的説明を持つ機械学習システム
科学的説明を持つ機械学習システム科学的説明を持つ機械学習システム
科学的説明を持つ機械学習システムgree_tech
 
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...y-uti
 
機械学習デザインパターン Machine Learning Design Patterns
機械学習デザインパターン Machine Learning Design Patterns機械学習デザインパターン Machine Learning Design Patterns
機械学習デザインパターン Machine Learning Design PatternsHironori Washizaki
 
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善Hironori Washizaki
 
How to use in R model-agnostic data explanation with DALEX & iml
How to use in R model-agnostic data explanation with DALEX & imlHow to use in R model-agnostic data explanation with DALEX & iml
How to use in R model-agnostic data explanation with DALEX & imlSatoshi Kato
 
Hadoop conference Japan 2011
Hadoop conference Japan 2011Hadoop conference Japan 2011
Hadoop conference Japan 2011Takahiko Ito
 
20171015 mosa machine learning
20171015 mosa machine learning20171015 mosa machine learning
20171015 mosa machine learningMuneyoshi Benzaki
 
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けてHironori Washizaki
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
広島画像情報学セミナ 2011.9.16
広島画像情報学セミナ 2011.9.16広島画像情報学セミナ 2011.9.16
広島画像情報学セミナ 2011.9.16Akisato Kimura
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Preferred Networks
 
サイトサーチアナリティクスとは
サイトサーチアナリティクスとはサイトサーチアナリティクスとは
サイトサーチアナリティクスとはMakoto Shimizu
 
データ可視化の研究って何をしているの?何の役に立つ?
データ可視化の研究って何をしているの?何の役に立つ?データ可視化の研究って何をしているの?何の役に立つ?
データ可視化の研究って何をしているの?何の役に立つ?Kazuyo Mizuno
 
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)Sho Nakamura
 
ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -Daiyu Hatakeyama
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Preferred Networks
 

Similar to 【論文調査】XAI技術の効能を ユーザ実験で評価する研究 (20)

TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
 
科学的説明を持つ機械学習システム
科学的説明を持つ機械学習システム科学的説明を持つ機械学習システム
科学的説明を持つ機械学習システム
 
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
 
機械学習デザインパターン Machine Learning Design Patterns
機械学習デザインパターン Machine Learning Design Patterns機械学習デザインパターン Machine Learning Design Patterns
機械学習デザインパターン Machine Learning Design Patterns
 
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
 
How to use in R model-agnostic data explanation with DALEX & iml
How to use in R model-agnostic data explanation with DALEX & imlHow to use in R model-agnostic data explanation with DALEX & iml
How to use in R model-agnostic data explanation with DALEX & iml
 
Hadoop conference Japan 2011
Hadoop conference Japan 2011Hadoop conference Japan 2011
Hadoop conference Japan 2011
 
20171015 mosa machine learning
20171015 mosa machine learning20171015 mosa machine learning
20171015 mosa machine learning
 
分散表現を用いたリアルタイム学習型セッションベース推薦システム
分散表現を用いたリアルタイム学習型セッションベース推薦システム分散表現を用いたリアルタイム学習型セッションベース推薦システム
分散表現を用いたリアルタイム学習型セッションベース推薦システム
 
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
広島画像情報学セミナ 2011.9.16
広島画像情報学セミナ 2011.9.16広島画像情報学セミナ 2011.9.16
広島画像情報学セミナ 2011.9.16
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
 
サイトサーチアナリティクスとは
サイトサーチアナリティクスとはサイトサーチアナリティクスとは
サイトサーチアナリティクスとは
 
データ可視化の研究って何をしているの?何の役に立つ?
データ可視化の研究って何をしているの?何の役に立つ?データ可視化の研究って何をしているの?何の役に立つ?
データ可視化の研究って何をしているの?何の役に立つ?
 
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
 
Point net
Point netPoint net
Point net
 
ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 

More from Satoshi Hara

Explanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its ReliabilityExplanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its ReliabilitySatoshi Hara
 
異常の定義と推定
異常の定義と推定異常の定義と推定
異常の定義と推定Satoshi Hara
 
Convex Hull Approximation of Nearly Optimal Lasso Solutions
Convex Hull Approximation of Nearly Optimal Lasso SolutionsConvex Hull Approximation of Nearly Optimal Lasso Solutions
Convex Hull Approximation of Nearly Optimal Lasso SolutionsSatoshi Hara
 
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...Satoshi Hara
 
Maximally Invariant Data Perturbation as Explanation
Maximally Invariant Data Perturbation as ExplanationMaximally Invariant Data Perturbation as Explanation
Maximally Invariant Data Perturbation as ExplanationSatoshi Hara
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法Satoshi Hara
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙Satoshi Hara
 
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep AutoencodersKDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep AutoencodersSatoshi Hara
 
特徴選択のためのLasso解列挙
特徴選択のためのLasso解列挙特徴選択のためのLasso解列挙
特徴選択のためのLasso解列挙Satoshi Hara
 

More from Satoshi Hara (9)

Explanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its ReliabilityExplanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its Reliability
 
異常の定義と推定
異常の定義と推定異常の定義と推定
異常の定義と推定
 
Convex Hull Approximation of Nearly Optimal Lasso Solutions
Convex Hull Approximation of Nearly Optimal Lasso SolutionsConvex Hull Approximation of Nearly Optimal Lasso Solutions
Convex Hull Approximation of Nearly Optimal Lasso Solutions
 
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
 
Maximally Invariant Data Perturbation as Explanation
Maximally Invariant Data Perturbation as ExplanationMaximally Invariant Data Perturbation as Explanation
Maximally Invariant Data Perturbation as Explanation
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙
 
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep AutoencodersKDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
 
特徴選択のためのLasso解列挙
特徴選択のためのLasso解列挙特徴選択のためのLasso解列挙
特徴選択のためのLasso解列挙
 

Recently uploaded

「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-LoopへTetsuya Nihonmatsu
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)ssuser539845
 
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfMatsushita Laboratory
 
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦Sadao Tokuyama
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~arts yokohama
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見Shumpei Kishi
 
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdfAyachika Kitazaki
 
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor arts yokohama
 
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法ssuser370dd7
 

Recently uploaded (12)

「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
 
What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
 
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
 
2024 03 CTEA
2024 03 CTEA2024 03 CTEA
2024 03 CTEA
 
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
 
2024 04 minnanoito
2024 04 minnanoito2024 04 minnanoito
2024 04 minnanoito
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
 
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf
 
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor
 
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
 

【論文調査】XAI技術の効能を ユーザ実験で評価する研究

  • 1. 原聡@第12回最先端NLP勉強会 XAI技術の効能を ユーザ実験で評価する研究 原 聡 大阪大学 産業科学研究所 1 第12回最先端NLP勉強会 2020/9/25-26@オンライン 担当論文 → 論文調査へ Evaluating Explainable AI: Which Algorithmic Explanations Help Users Predict Model Behavior? (ACL2020) 【論文調査】
  • 2. 原聡@第12回最先端NLP勉強会 Peeking inside the black-box: A survey on Explainable Artificial Intelligence (XAI) https://ieeexplore.ieee.org/document/8466590/ “XAIが大事”と言われはじめてから5年くらい n 発表されるXAI関係の論文の数が爆発的に増えた。 • 機械学習関連の国際会議ではワークショップも開催。 • 【参考】 日本語まとめ資料 - 機械学習における解釈性(私のブックマーク), 人工知能, Vol.33, No.3, 2018. - 説明可能AI(私のブックマーク), 人工知能, Vol.34, No.4, 2019. - 機械学習モデルの判断根拠の説明 - 機械学習モデルの判断根拠の説明 (Ver.2) 2
  • 4. 原聡@第12回最先端NLP勉強会 XAI技術がユーザの役に立つか調べた研究(一部) n arXivの論文 [1] Manipulating and Measuring Model Interpretability, arXiv’18. [2] Does the Whole Exceed its Parts? The Effect of AI Explanations on Complementary Term Performance, arXiv’20. n NLP系の会議論文 [3] Comparing Automatic and Human Evaluation of_Local Explanations for Text Classification, NAACL-HLT’18. [4] Evaluating Explainable AI: Which Algorithmic Explanations Help Users Predict Model Behavior?, ACL’20. n CV系の会議論文 ???(調査不足) n FAT系の会議論文 [5] On Human Predictions with Explanations and Predictions of Machine Learning Models: A Case Study on Deception Detection, FAT*’19. [6] Effect of Confidence and Explanation on Accuracy and Trust Calibration in AI-Assisted Decision Making, FAT*’20. n HCI系の会議論文 [7] The Effects of Example-Based Explanations in a Machine Learning Interface, IUI’19. [8] What can AI do for me? Evaluating Machine Learning Interpretations in Cooperative Play, IUI’19. [9] Effects of Influence on User Trust in Predictive Decision Making, CHI’19. [10] The Principles and Limits of Algorithm-in-the-Loop Decision Making, CSCW’19. [11] “Why is ‘Chicago’ deceptive?” Towards Building Model-Driven Tutorial for Humans, CHI’20. 4
  • 5. 原聡@第12回最先端NLP勉強会 XAI技術が “ユーザの役に立つ” とは? n XAIに期待される効能(代表的な項目の一部) • モデルの挙動理解 ユーザが「モデルの予測」を予測できるようになる。 • モデルへの信頼醸成 ユーザが「モデルの予測」を信頼して採用するようになる。 • ユーザの予測精度向上 モデルの補助を受けて、ユーザが高精度な予測ができるよう になる。 n XAI(説明)が“ユーザの役に立つ”ならば、説明の有無 でユーザの行動に変化が生じるはず。 → ユーザの行動の(良い方向への)変化が見られれば、 XAI(説明)が“ユーザの役に立つ”と言えそう。 5
  • 6. 原聡@第12回最先端NLP勉強会 【注意】 n 本資料は、論文[1] - [11]を主に「評価項目」と「結果」を 中心にまとめたもの。 • 実験の詳細や結果の分析方法などは各論文へ。 • 論文ごとにデータやモデル、評価した説明法などが異なるた め、厳密には論文間の結果の比較はできないことに注意。 n 論文[1] - [11]の“ユーザ”は主にエンドユーザ • 機械学習の知識はないが、モデルを予測(意思決定)に使う ユーザ。 • 機械学習に詳しいユーザ(研究者/エンジニアなど)向けの XAIの有効性の検証ではない。 6
  • 7. 原聡@第12回最先端NLP勉強会 XAIの効能まとめ n 現状の評価 • モデルの挙動理解 ユーザが「モデルの予測」を予測できるようになる。 → 効果はあるかもしれないが、限定的。 • モデルへの信頼醸成 ユーザが「モデルの予測」を信頼して採用するようになる。 → 「予測クラスのクラス確率の提示」は効果ありそう。 • ユーザの予測精度向上 モデルの補助を受けて、ユーザが高精度な予測ができるよう になる。 → 効果はある が、ユーザがモデル単体の精度を超えるの は困難。 7
  • 8. 原聡@第12回最先端NLP勉強会 現状の研究結果 n 効能 「モデルの挙動理解」 ユーザが「モデルの予測」を予測できるようになる。 n 現状の評価 効果はあるかもしれないが、限定的。 n 評価研究:[1], [3], [4] • [1] 効果あり(限定的) - 説明が十分に単純な場合のみ • [3] 効果あり • [4] 効果あり(限定的) - 一部のデータおよび一部の説明法でのみ 8
  • 9. 原聡@第12回最先端NLP勉強会 現状の研究結果 n 効能 「モデルの挙動理解」 ユーザが「モデルの予測」を予測できるようになる。 n 現状の評価 効果はあるかもしれないが、限定的。 n 評価研究:[1], [3], [4] • [1] 効果あり(限定的) - 説明が十分に単純な場合のみ • [3] 効果あり • [4] 効果あり(限定的) - 一部のデータおよび一部の説明法でのみ 9
  • 10. 原聡@第12回最先端NLP勉強会 [4] Evaluating Explainable AI: Which Algorithmic Explanations Help Users Predict Model Behavior?, ACL’20. 10 評価項目 説明から、ユーザは「モデルの予測」を予測できるか? データ Movie reviews / Adult モデル DNN 説明 1. 重要単語・特徴(LIME) 2. 重要単語・特徴(Anchors) 3. 予測に関連する訓練データ(ProtoPNet) 4. 反実仮想データ(入力データの一部を改変して分類結果を反転させたデータ) 5. 1-4の組み合わせ ユーザ 32人(CSまたは統計の学生)を(データ2種類 × 説明5種類)にランダム割当 タスク 実験に使うデータのTP/TN/FP/FNの比率を揃える。 • [訓練1] 16個の検証データとモデルの予測を見る。 • [本番1] 16個のテストデータについて、ユーザが「モデルの予測」を予測をする。 • [訓練2] 訓練1と同じデータについてモデルの予測と説明を見る。 • [本番2] 本番1と同じデータについて、ユーザが「モデルの予測」を予測をする。 動機付け $15.00/時間 結果 • 予測できた。ただし、Adult + LIMEでのみ([本番1]に比べて[本番2]でユーザの予 測精度の有意に向上)。 示唆 • 説明から、ユーザが「モデルの予測」を予測できるようには(それほど)ならない。
  • 11. 原聡@第12回最先端NLP勉強会 現状の研究結果 n 効能 「モデルへの信頼醸成」 ユーザが「モデルの予測」を信頼して採用するようにな る。 n 現状の評価 「予測クラスのクラス確率の提示」は効果ありそう。 n 評価研究:[1], [6] • [1] 効果は観測されず • [6] 効果あり(限定的) - 説明として予測クラスのクラス確率を提示した場合は効果あり - 説明として重要特徴を提示した場合は効果は観測されず 11
  • 12. 原聡@第12回最先端NLP勉強会 現状の研究結果 n 効能 「モデルへの信頼醸成」 ユーザが「モデルの予測」を信頼して採用するようにな る。 n 現状の評価 「予測クラスのクラス確率の提示」は効果ありそう。 n 評価研究:[1], [6] • [1] 効果は観測されず • [6] 効果あり(限定的) - 説明として予測クラスのクラス確率を提示した場合は効果あり - 説明として重要特徴を提示した場合は効果は観測されず 12
  • 13. 原聡@第12回最先端NLP勉強会 [6] Effect of Confidence and Explanation on Accuracy and Trust Calibration in AI-Assisted Decision Making, FAT*’20. 13 評価項目 説明により、ユーザは「モデルの予測」に従うようになるか? データ Adult モデル GBDT 説明 1. 予測ラベル 2. クラス確率 ユーザ 全4通りの設定にそれぞれ9人@Amazon MTurkをランダム割当 タスク • [訓練] 20個のデータでクラスを予測 → 真のクラス、モデルの予測、説明を見る。 • [本番] 40個のデータでクラスを予測 → 説明を見て自身の予測とモデルの予測の どちらを採用するかを決定。 動機付け 参加$3.00 + $0.05/正解 - $0.02/不正解 結果 • 従うようになった。予測ラベル提示の有無に関わらず、クラス確率の提示により ユーザは「モデルの予測」に従う傾向が強まった。 • ただし、ユーザの予測精度が有意に向上したわけではない。 示唆 • クラス確率の提示には、ユーザのモデルへの信頼を醸成して「モデルの予測」を採 用するように促す効果がある。 【全4通り】 説明1の有無 × 説明2の有無
  • 14. 原聡@第12回最先端NLP勉強会 現状の研究結果 n 効能 「ユーザの予測精度向上」 モデルの補助を受けて、ユーザが高精度な予測ができ るようになる。 n 現状の評価 効果はあるが、ユーザがモデル単体の精度を超えるの は困難。 n 評価研究:[2], [5], [8], [10], [11] • [2] 効果あり • [5] 効果あり • [8] 効果あり • [10] 効果あり • [11] 効果あり 14 ただし、モデル単体の予測精度を ユーザが上回ることはできなかった 精度: モデル単体 > ユーザ(モデル補助あり) > ユーザ単体
  • 15. 原聡@第12回最先端NLP勉強会 現状の研究結果 n 効能 「ユーザの予測精度向上」 モデルの補助を受けて、ユーザが高精度な予測ができ るようになる。 n 現状の評価 効果はあるが、ユーザがモデル単体の精度を超えるの は困難。 n 評価研究:[2], [5], [8], [10], [11] • [2] 効果あり • [5] 効果あり • [8] 効果あり • [10] 効果あり • [11] 効果あり 15 ただし、モデル単体の予測精度を ユーザが上回ることはできなかった 精度: モデル単体 > ユーザ(モデル補助あり) > ユーザ単体
  • 16. 原聡@第12回最先端NLP勉強会 [5] On Human Predictions with Explanations and Predictions of Machine Learning Models: A Case Study on Deception Detection, FAT*’19. 16 評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか? データ 嘘レビューの検知(嘘 or not の分類) モデル 線形SVM(bag-of-words特徴) - 精度 0.87 説明 1. 説明なし 2. 予測ラベル 3. 予測ラベル + モデルの分類精度 4. 重要単語(回帰係数) 5. 関連データ(最近傍データ) 6. 1と3の組み合わせ ユーザ 説明1-6にそれぞれ80人@Amazon MTurkをランダム割当 タスク • [訓練] 3個のレビュー文と説明を見てクラスを予測する。 • [本番] 20個のレビュー文と説明を見てクラスを予測する。 動機付け $0.05/回答 + $0.02/正解 結果 • 高精度な予測ができた。説明1-4では、説明なしよりもユーザの予測精度が向上し た(精度0.54 – 0.75)。特に説明2が顕著(精度 0.75)。 • ただし、モデル単体での予測が最大精度。 示唆 • 予測ラベルとモデルの精度を提示するのがユーザの精度向上に一番効果的。
  • 17. 原聡@第12回最先端NLP勉強会 [2] Does the Whole Exceed its Parts? The Effect of AI Explanations on Complementary Term Performance, arXiv’20. 17 評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか? データ レビュー文の分類データ(beer reviewsとbook reviews) モデル RoBERTaを使った分類器をfine-tune 分類器のクラス確率(confidence score)はvalidation dataでcalibration 説明 1. モデルの予測クラスとそのクラス確率 2. 1 + 分類対象クラスの重要単語(LIME) 3. 2 + 確率が二番目に大きいクラスの重要単語(LIME) 4. 2と3をクラス確率に応じて適応的に使い分ける方法 5. 人手でannotateした重要フレーズ ユーザ データそれぞれについて566人, 552人@Amazon MTurkを説明1-5にランダム割当。 Screeningにより、最終的には500人程度に。 タスク 50個のレビュー文を説明をもとに分類。レビュー文はユーザ単体とモデル単体とで同 等の分類精度になるように選択。 動機付け 参加$0.50 + 最終サーベイ回答$0.25 + $0.05/正解 + $0.50/$1.00(正解率90%/95%超) 結果 • 高精度な予測ができた。全ての説明で、ユーザ単体での予測精度を上回った。 • 説明の間で明確な優劣はなかった。 • 説明があると、ユーザはモデルの予測に引っ張られる傾向があった。 示唆 • ユーザが良い予測をするにはクラス確率の提示だけで十分かも。重要単語の提 示は精度向上に寄与せずにユーザのモデルへの盲信を促す可能性がある。
  • 18. 原聡@第12回最先端NLP勉強会 まとめ n Q. XAI技術は “ユーザの役に立つ” のか? n A. いくつかの効能はあるが、今のところ期待されていた ほどの効果は見られていない。 n 課題: XAI技術の研究開発 • ユーザへの効能を考えて手法を開発する必要があるかもし れない。 - 現状は出力したい説明Xが先にあって、「Xが出力できる手法を考え る」という研究のアプローチが主流。 • ユーザへの効能を高めるために、ユーザの認知をハックする のは許されるか? - 嘘も方便? - ユーザが幸せなら、ユーザに嘘の説明を提供しても良い? 18
  • 19. 原聡@第12回最先端NLP勉強会 まとめ n Q. XAI技術は “ユーザの役に立つ” のか? n A. いくつかの効能はあるが、今のところ期待されていた ほどの効果は見られていない。 n 課題: 効能の評価方法 • 研究ごとにデータやモデル、評価した説明法などが異なるの で、結果を公正に比較するのが困難。 - 評価研究がある程度増えてきたら、メタアナリシスが必要かも。 • 評価の質に大きなばらつきがある。 - アンケートレベルの簡素なものから、きちんと実験計画を立てて倫理 審査を経たものまで様々。 • 標準的なプロトコルが必要。 - ユーザ実験に習熟した研究者の知見が必要。 - CHIや社会統計学、心理学、経済学など。 19
  • 21. 原聡@第12回最先端NLP勉強会 [1] Manipulating and Measuring Model Interpretability, arXiv’18. 21 評価項目 説明から、ユーザは「モデルの予測」を予測できるか? データ New Yorkの物件価格の予測データ モデル 線形回帰モデル モデル1: 特徴2つ(浴室の個数, 面積) モデル2: 特徴8つ 説明 ユーザ 1250人@Amazon MTurkを5通りの設定にランダム割当 タスク • [訓練1] (説明なしのユーザ以外)予測に使われる特徴(および回帰係数)の説明 • [訓練2] 10件の物件/モデル予測を見て、自分で予測する → 正解を見る。 • [本番1] 12件の物件について、「モデルの予測」を予測 → 「予測の自信」を回答。 動機付け $2.50固定 結果 • 予測できた。ただし、「モデル1×係数見せる」の場合のみ。 • 「予測の自信」と予測の誤差には明確な関連性は見られなかった。 示唆 • 特徴の数が増えると、線形モデルでもユーザの予測は不正確になる。 補足 • AsPredictedにて仮説の事前登録あり • IRB-Approved(組織内の倫理委員会の承認済み) 【全5通り】 説明なし + {モデル1, モデル2} × {回帰係数を見せる, 見せない}
  • 22. 原聡@第12回最先端NLP勉強会 [1] Manipulating and Measuring Model Interpretability, arXiv’18. 22 評価項目 説明により、ユーザは「モデルの予測」に従うようになるか? ユーザ 1250人@Amazon MTurkを5通りの設定にランダム割当 タスク 前頁の[本番1]の後に • [本番2] 12件の物件について、自身で価格を予測 → 「予測の自信」を回答。 動機付け $2.50固定 結果 • 従うようにならなかった。説明の種類と、ユーザ自信の予測の精度との間に明確 な関係は見られなかった。 示唆 • 説明によってモデルの挙動が理解できても、ユーザがモデルの予測に従うかは別 問題。 データ、モデル、説明は前頁と同じ 補足 • AsPredictedにて仮説の事前登録あり • IRB-Approved(組織内の倫理委員会の承認済み)
  • 23. 原聡@第12回最先端NLP勉強会 [1] Manipulating and Measuring Model Interpretability, arXiv’18. 23 評価項目 説明から、ユーザは「モデルの予測」の間違いを見つけられるか? ユーザ 1250人@Amazon MTurkを5通りの設定にランダム割当 タスク 前々頁の[訓練1][訓練2][本番1]と同じ • [本番1]の12件の物件のうち2件はモデルの予測が上振れする外れ値(「寝室1つ、 浴室2つ」「寝室1つ、浴室3つ」)。 動機付け $2.50固定 結果 • 見つけられなかった。「説明なし」のユーザに比べて、4つの説明全てにおいて、 ユーザの予測価格は大きく上振れした(モデルの予測値/説明に引っ張られた)。 • 特に「回帰係数を見せる」に割り当てられたユーザは予測を大きく外した。 示唆 • 説明からユーザはモデルの間違いを検知できない。むしろ説明はユーザのモデル への盲信を助長する可能性がある。 データ、モデル、説明は前頁と同じ 補足 • AsPredictedにて仮説の事前登録あり • IRB-Approved(組織内の倫理委員会の承認済み)
  • 24. 原聡@第12回最先端NLP勉強会 [2] Does the Whole Exceed its Parts? The Effect of AI Explanations on Complementary Term Performance, arXiv’20. 24 評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか? データ レビュー文の分類データ(beer reviewsとbook reviews) モデル RoBERTaを使った分類器をfine-tune 分類器のクラス確率(confidence score)はvalidation dataでcalibration 説明 1. モデルの予測クラスとそのクラス確率 2. 1 + 分類対象クラスの重要単語(LIME) 3. 2 + 確率が二番目に大きいクラスの重要単語(LIME) 4. 2と3をクラス確率に応じて適応的に使い分ける方法 5. 人手でannotateした重要フレーズ ユーザ データそれぞれについて566人, 552人@Amazon MTurkを説明1-5にランダム割当。 Screeningにより、最終的には500人程度に。 タスク 50個のレビュー文を説明をもとに分類。レビュー文はユーザ単体とモデル単体とで同 等の分類精度になるように選択。 動機付け 参加$0.50 + 最終サーベイ回答$0.25 + $0.05/正解 + $0.50/$1.00(正解率90%/95%超) 結果 • 高精度な予測ができた。全ての説明で、ユーザ単体での予測精度を上回った。 • 説明の間で明確な優劣はなかった。 • 説明があると、ユーザはモデルの予測に引っ張られる傾向があった。 示唆 • ユーザが良い予測をするにはクラス確率の提示だけで十分かも。重要単語の提 示は精度向上に寄与せずにユーザのモデルへの盲信を促す可能性がある。
  • 25. 原聡@第12回最先端NLP勉強会 [3] Comparing Automatic and Human Evaluation of_Local Explanations for Text Classification, NAACL-HLT’18. 25 評価項目 説明から、ユーザは「モデルの予測」を予測できるか? データ 20News / Movie reviews モデル 1. ロジスティック回帰(tf-idf特徴、L2正則化) - 精度 0.921 / 0.797 2. 多層パーセプトロン(512中間ユニット, ReLU) - 精度 0.939 / 0.832 説明 重要単語(10個または20個) 1. ランダム 2. LIME 3. 貪欲選択(クラス確率が減る単語を貪欲法で選択) 4. 入力勾配 ユーザ データそれぞれについて406人, 445人@CrowdFlowerを説明1-4にランダム割当。 タスク 200個の文書のうち、10~20文書程度を説明をもとに分類。200個の文書の内訳はモデ ルの予測のTP/TN/FP/FNがそれぞれ50文書ずつ。 動機付け $0.03/回答 結果 • 予測できた。ランダムに比べて他の説明では、ユーザの「モデルの予測」の予測精 度が向上した。 • ランダム以外の説明間で明確な優劣は見られなかった。 示唆 • 説明により、ユーザは「モデルの予測」を予測できるようになる。
  • 26. 原聡@第12回最先端NLP勉強会 [3] Comparing Automatic and Human Evaluation of_Local Explanations for Text Classification, NAACL-HLT’18. 26 評価項目 説明の定量評価指標と、説明に基づくユーザの「モデルの予測」の予測精度の間に 関係はあるか? 結果 • 関係はあった。説明の定量評価指標SP(switching point; モデルの予測を反転さ せるのに削除する単語の割合)、AOPC(area over the perturbation curve; 削除単 語数とクラス確率をとのトレードオフの度合い)ともに、説明に基づくユーザの「モ デルの予測」の予測精度との間に緩い相関が見られた。 示唆 • 定量評価指標SPおよびAOPCは、説明に基づくユーザの「モデルの予測」の予測 精度の代替評価指標として使えるかもしれない。 データ、モデル、説明、ユーザ、タスク、動機付けは前頁と同じ
  • 27. 原聡@第12回最先端NLP勉強会 [4] Evaluating Explainable AI: Which Algorithmic Explanations Help Users Predict Model Behavior?, ACL’20. 27 評価項目 説明から、ユーザは「モデルの予測」を予測できるか? データ Movie reviews / Adult モデル DNN 説明 1. 重要単語・特徴(LIME) 2. 重要単語・特徴(Anchors) 3. 予測に関連する訓練データ(ProtoPNet) 4. 反実仮想データ(入力データの一部を改変して分類結果を反転させたデータ) 5. 1-4の組み合わせ ユーザ 32人(CSまたは統計の学生)を(データ2種類 × 説明5種類)にランダム割当 タスク 実験に使うデータのTP/TN/FP/FNの比率を揃える。 • [訓練1] 16個の検証データとモデルの予測を見る。 • [本番1] 16個のテストデータについて、ユーザが「モデルの予測」を予測をする。 • [訓練2] 訓練1と同じデータについてモデルの予測と説明を見る。 • [本番2] 本番1と同じデータについて、ユーザが「モデルの予測」を予測をする。 動機付け $15.00/時間 結果 • 予測できた。ただし、Adult + LIMEでのみ([本番1]に比べて[本番2]でユーザの予 測精度の有意に向上)。 示唆 • 説明から、ユーザが「モデルの予測」を予測できるようには(それほど)ならない。
  • 28. 原聡@第12回最先端NLP勉強会 [4] Evaluating Explainable AI: Which Algorithmic Explanations Help Users Predict Model Behavior?, ACL’20. 28 評価項目 説明から、ユーザはデータの小さな変化によって「モデルの予測」が変化するか否か を予測できるか? ユーザ 32人(CSまたは統計の学生)を(データ2種類 × 説明5種類)にランダム割当 タスク 実験に使うデータのTP/TN/FP/FNの比率を揃える。 • [本番1] 32個のテストデータについて、(データ、真のクラス、モデルの予測、“少し 異なるデータ”)を見て、“少し異なるデータ”に対する「モデルの予測」を予測をする。 • [本番2] 本番1と同じデータ + モデルの説明を見て、“少し異なるデータ”に対する 「モデルの予測」を予測をする。 動機付け $15.00/時間 結果 • 予測できなかった。どの説明においても、[本番1]と比べて[本番2]でユーザの予測 精度に有意な向上は見られなかった。 示唆 • 説明から、ユーザが「モデルの予測」を予測できるようにはならない。 データ、モデル、説明は前頁と同じ
  • 29. 原聡@第12回最先端NLP勉強会 [5] On Human Predictions with Explanations and Predictions of Machine Learning Models: A Case Study on Deception Detection, FAT*’19. 29 評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか? データ 嘘レビューの検知(嘘 or not の分類) モデル 線形SVM(bag-of-words特徴) - 精度 0.87 説明 1. 説明なし 2. 予測ラベル 3. 予測ラベル + モデルの分類精度 4. 重要単語(回帰係数) 5. 関連データ(最近傍データ) 6. 1と3の組み合わせ ユーザ 説明1-6にそれぞれ80人@Amazon MTurkをランダム割当 タスク • [訓練] 3個のレビュー文と説明を見てクラスを予測する。 • [本番] 20個のレビュー文と説明を見てクラスを予測する。 動機付け $0.05/回答 + $0.02/正解 結果 • 高精度な予測ができた。説明1-4では、説明なしよりもユーザの予測精度が向上し た(精度0.54 – 0.75)。特に説明2が顕著(精度 0.75)。 • ただし、モデル単体での予測が最大精度。 示唆 • 予測ラベルとモデルの精度を提示するのがユーザの精度向上に一番効果的。
  • 30. 原聡@第12回最先端NLP勉強会 [6] Effect of Confidence and Explanation on Accuracy and Trust Calibration in AI-Assisted Decision Making, FAT*’20. 30 評価項目 説明により、ユーザは「モデルの予測」に従うようになるか? データ Adult モデル GBDT 説明 1. 予測ラベル 2. クラス確率 ユーザ 全4通りの設定にそれぞれ9人@Amazon MTurkをランダム割当 タスク • [訓練] 20個のデータでクラスを予測 → 真のクラス、モデルの予測、説明を見る。 • [本番] 40個のデータでクラスを予測 → 説明を見て自身の予測とモデルの予測の どちらを採用するかを決定。 動機付け 参加$3.00 + $0.05/正解 - $0.02/不正解 結果 • 従うようになった。予測ラベル提示の有無に関わらず、クラス確率の提示により ユーザは「モデルの予測」に従う傾向が強まった。 • ただし、ユーザの予測精度が有意に向上したわけではない。 示唆 • クラス確率の提示には、ユーザのモデルへの信頼を醸成して「モデルの予測」を採 用するように促す効果がある。 【全4通り】 説明1の有無 × 説明2の有無
  • 31. 原聡@第12回最先端NLP勉強会 [6] Effect of Confidence and Explanation on Accuracy and Trust Calibration in AI-Assisted Decision Making, FAT*’20. 31 評価項目 説明により、ユーザは「モデルの予測」に従うようになるか? データ Adult モデル GBDT 説明 1. 予測ラベル 2. 予測ラベル & クラス確率 3. 予測ラベル & 重要特徴(SHAP) ユーザ 9人(おそらく@Amazon MTurkを説明1-3に3人ずつランダム割当したと思われる) タスク • [訓練] 20個のデータでクラスを予測 → 真のクラス、モデルの予測、説明を見る。 • [本番] 40個のデータでクラスを予測 → 説明を見て自身の予測とモデルの予測の どちらを採用するかを決定。 動機付け (不明; おそらく前頁と同じ) 結果 • 従うようにならなかった。重要特徴を提示しても、ユーザが「モデルの予測」を採用 する傾向に変化は見られなかった。 • ただし、ユーザの予測精度が有意に向上したわけでもない。 示唆 • 重要特徴の提示には、ユーザのモデルへの信頼を醸成する効果はなさそう。
  • 32. 原聡@第12回最先端NLP勉強会 [7] The Effects of Example-Based Explanations in a Machine Learning Interface, IUI’19. 32 評価項目 説明をもとに、ユーザは「モデルの挙動」を理解できるか? データ QuickDrawの手書きイラスト分類データ モデル RNN 説明 1. 説明なし 2. 予測クラスと同じ訓練画像をランダムに30個 3. 上位3つの予測クラスについて最も類似した訓練画像を1つ 4. 2 + 3 ユーザ 1150人(募集方法は不明) → スクリーニング後 1070人 タスク • QuickDrawで指示されたオブジェクトのイラスト(モデルで当該クラスと分類される イラスト)を描く。 • 「モデルの挙動」の理解度を7段階のスコアで回答する。 動機付け (不明) 結果 • 理解できた。ただし、イラストがモデルに適切に分類されなかった場合のみ。このと き、説明2を提示されたユーザの理解度スコアは有意に高かった。 • イラストがモデルに適切に分類された場合には、説明間でユーザの理解度スコア に有意な差はなかった。 示唆 • 類似データの提示は、ユーザが「モデルの挙動」を理解した、と思わせる。 • 提示するデータの選び方で効果は変わる。
  • 33. 原聡@第12回最先端NLP勉強会 [8] What can AI do for me? Evaluating Machine Learning Interpretations in Cooperative Play, IUI’19. 33 評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか? データ Quizbowlのクイズデータ(正解の選択肢を選ぶ分類データ) モデル 線形モデル(QANTAのguesser) 説明 1. 予測上位5クラスとクラス確率 2. 類似クイズとその重要単語 3. クイズの重要単語 ユーザ Quizbowlが強い人 40人(ネット掲示板で募集) / 素人 40人(Amazon MTurk)を8通り の説明に一様ランダムに割当 → 回答数少のユーザをスクリーニング後 30人/30人 タスク 新しく用意された160問に好きなだけ回答する → 1983回答/600回答を収集 動機付け 全問回答で報奨金(金額は不明) / (不明) 結果 • 高精度な予測ができた。強いユーザには説明3が正解率向上に一番効果的だった。 • 高精度な予測ができた。素人ユーザには説明2が正解率向上に一番効果的だった。 示唆 • 複数の説明の提示には相乗効果がある。しかし、複数の説明を見るのは認知負 荷が高いので、ユーザは一部の説明だけを主に確認して必要に応じて他の説明 を見る。 【全8通り】 説明1の有無 × 説明2の有無 × 説明3の有無
  • 34. 原聡@第12回最先端NLP勉強会 [9] Effects of Influence on User Trust in Predictive Decision Making, CHI’19. 34 評価項目 説明により、ユーザはモデルを信用するようになるか? データ 水道管の破損予測データ(破損 or not の分類) モデル CNN(5特徴) :モデル1 - 精度 0.90 / モデル2 – 精度 0.50 説明 1. 関連(影響関数)Top10の訓練データ 2. 関連(影響関数)Bottom10の訓練データ ユーザ 22人(募集方法は不明) タスク データと説明から破損を予測 → モデルの予測への信頼度を9段階で回答 (回答データ数は不明) 動機付け (不明) 結果 • 信用するようになった。モデル1では、説明1によりユーザのモデル予測への信頼 度が向上することが確認された。 • モデル2では、ユーザのモデル予測への信頼度向上は確認されなかった。 示唆 • モデルの精度が十分に高い場合には、関連データの提示によりユーザのモデル への信頼度が向上する。モデルの精度が低いと説明に信頼醸成の効果はない。 【全4通り】 説明1の有無 × 説明2の有無
  • 35. 原聡@第12回最先端NLP勉強会 説明 1. 説明なし 2. 予測クラス [10] The Principles and Limits of Algorithm-in-the-Loop Decision Making, CSCW’19. 35 評価項目 説明をもとに、ユーザはモデルと協調して高精度な予測ができるか? データ 1. 公判前拘留データ(保釈した被疑者が公判に戻ってくるか否かの分類) 2. ローン返済データ(完済されるか否かの分類) モデル GBDT – AUC 0.66 / AUC 0.71 ユーザ スクリーニング後 1156人 / 732人(Amazon MTurk) を説明1-6にランダム割当 タスク 300データのうちランダムな40データについて、説明に基づいて出力クラスの確率を 10%刻みの選択肢から選んで回答 動機付け 全回答$2.00 + 回答精度(Brier score)に応じて$0.00 ~ $2.00 結果 • 高精度な予測ができた。2-5は1よりユーザの回答精度(Brier score)が有意に高 かった。 • 4での2回目の予測の回答精度は1回目の予測に比べて有意に高かった。 • 全ての場合において、モデル単体の回答精度(Brier score)が有意に高かった。 示唆 • 提示される説明によってユーザの回答精度は変わる。 • ただし、モデル単体の回答精度の方が高い。 3. 予測クラスが標準回答 4. 1で予測 → 2で予測 5. 2 + 重要特徴 6. 2で予測 → 真値を見る 補足 • IRB-Approved(組織内の倫理委員会の承認済み)
  • 36. 原聡@第12回最先端NLP勉強会 [10] The Principles and Limits of Algorithm-in-the-Loop Decision Making, CSCW’19. 36 評価項目 説明をもとに、ユーザは自身の予測の正しさを適切に見積もれるようになるか? ユーザ スクリーニング後 1156人 / 732人(Amazon MTurk) を説明1-6にランダム割当 タスク 前頁のタスク後に、自身の予測の正しさを5段階評価で回答 動機付け 全回答$2.00 + 回答精度(Brier score)に応じて$0.00 ~ $2.00 結果 • 見積もれなかった。ユーザの回答精度と5段階評価との間に明確な関連性は見ら れなかった。 示唆 • ユーザは自身の予測の正しさを適切に見積もることはできない。 データ、モデル、説明は前頁と同じ 補足 • IRB-Approved(組織内の倫理委員会の承認済み)
  • 37. 原聡@第12回最先端NLP勉強会 [11] “Why is ‘Chicago’ deceptive?” Towards Building Model-Driven Tutorial for Humans, CHI’20. 37 評価項目 事前の説明をもとに、ユーザはモデルと協調して高精度な予測ができるか? データ 嘘レビューの検知(嘘 or not の分類) モデル 線形SVM(bag-of-words特徴) - 精度 0.863 説明 1. 説明なし 2. 人手で作った分類のガイドライン 3. ランダムに選んだデータ10個 4. SP-LIMEで選んだデータ10個とそれぞれの重要10単語 5. 同じ重要単語が出やすく選んだデータ10個とそれぞれの重要10単語 6. 2と5の組み合わせ ユーザ 説明1-6にそれぞれ80人@Amazon MTurkをランダム割当 タスク • [訓練] (1以外のユーザ)説明を見てレビューの分類の仕方を学ぶ。 • [本番] 20個のレビュー文(説明なし)を見てクラスを予測する。 動機付け 参加$2.50 + $0.05/正解 結果 • 高精度な予測ができた。説明2-6では、説明なしよりもユーザの予測精度が有意 に向上した(0.57 ~ 0.61)。ただし、説明2-6の間で明確な優劣は見られなかった。 • モデル単体の精度(0.863)には大きく劣る。 示唆 • 説明の種類によってユーザの予測精度向上の度合いに変化はない。 • 事前に説明を見て全て覚えておくのが大変なのかもしれない。 補足 • AsPredictedにて仮説の事前登録あり
  • 38. 原聡@第12回最先端NLP勉強会 [11] “Why is ‘Chicago’ deceptive?” Towards Building Model-Driven Tutorial for Humans, CHI’20. 38 評価項目 回答時の説明をもとに、ユーザはモデルと協調して高精度な予測ができるか? データ 嘘レビューの検知(嘘 or not の分類) モデル 線形SVM(bag-of-words特徴) - 精度 0.863 説明 1. 説明なし 2. 重要10単語(色の濃淡で重要度の絶対値を表示) 3. 重要10単語(色および濃淡で符号付き重要度を表示) 4. 3 + 予測ラベル 5. 4 + 人手で作ったガイドライン 6. 5 + モデルの精度 ユーザ 説明1-6にそれぞれ80人@Amazon MTurkをランダム割当 タスク • [訓練] 前頁の説明6を見てレビューの分類の仕方を学ぶ。 • [本番] 20個のレビュー文(説明あり)を見てクラスを予測する。 動機付け 参加$2.50 + $0.05/正解 結果 • 高精度な予測ができた。説明3-6では、説明なしよりもユーザの予測精度が有意 に向上した(0.70 ~ 0.74)。ただし、説明3-6の間で明確な優劣は見られなかった。 • モデル単体の精度(0.863)には大きく劣る。 示唆 • 説明の種類によってユーザの予測精度向上の度合いに変化は(ほぼ)ない。 • ユーザの精度が向上してもモデル単体の精度には及ばない。 補足 • AsPredictedにて仮説の事前登録あり
  • 39. 原聡@第12回最先端NLP勉強会 [11] “Why is ‘Chicago’ deceptive?” Towards Building Model-Driven Tutorial for Humans, CHI’20. 39 評価項目 ユーザは単純/複雑なモデルのどちらとと協調して高精度な予測ができるか? データ 嘘レビューの検知(嘘 or not の分類) モデル • 単純なモデル: 線形SVM(bag-of-words特徴) - 精度 0.863 • 複雑なモデル: BERT – 精度 0.90 説明 重要10単語(色および濃淡で符号付き重要度を表示) 1. SVMの回帰係数上位10個 2. BERTのattention上位10個 3. BERT + LIMEの上位10個 ユーザ 全6通りの設定にそれぞれ80人@Amazon MTurkをランダム割当 タスク • [訓練] (訓練有のユーザ)前々頁の説明6を見てレビューの分類の仕方を学ぶ。 • [本番] 20個のレビュー文(説明あり)を見てクラスを予測する。 動機付け 参加$2.50 + $0.05/正解 結果 • 高精度な予測ができた。訓練有りでは訓練無しよりも有意にユーザの予測精度が 向上した。説明1 >説明3 >説明2 の順でユーザの予測精度が有意に向上した。 • ただし、いずれの場合もモデル単体の精度には大きく劣る。 示唆 • 事前の訓練はユーザの精度向上に有効。 • 単純なモデルに基づく説明の方がユーザの精度向上に有効な可能性がある。 • ユーザの精度が向上してもモデル単体の精度には及ばない。 【全6通り】 訓練(前々頁の説明6)の有無 × 説明1-3のどれか 補足 • AsPredictedにて仮説の事前登録あり