Submit Search
Upload
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
•
Download as PPTX, PDF
•
2 likes
•
3,685 views
K
kt.mako
Follow
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
Read less
Read more
Technology
Report
Share
Report
Share
1 of 27
Download now
Recommended
情報検索における評価指標の最新動向と新たな提案
情報検索における評価指標の最新動向と新たな提案
Mitsuo Yamamoto
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
Singularityで分散深層学習
Singularityで分散深層学習
Hitoshi Sato
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
ARISE analytics
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)
cvpaper. challenge
エンジニアの個人ブランディングと技術組織
エンジニアの個人ブランディングと技術組織
Takafumi ONAKA
型安全性入門
型安全性入門
Akinori Abe
【論文紹介】ProtoMF: Prototype-based Matrix Factorization for Effective and Explain...
【論文紹介】ProtoMF: Prototype-based Matrix Factorization for Effective and Explain...
Kosetsu Tsukuda
Recommended
情報検索における評価指標の最新動向と新たな提案
情報検索における評価指標の最新動向と新たな提案
Mitsuo Yamamoto
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
Singularityで分散深層学習
Singularityで分散深層学習
Hitoshi Sato
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
ARISE analytics
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)
cvpaper. challenge
エンジニアの個人ブランディングと技術組織
エンジニアの個人ブランディングと技術組織
Takafumi ONAKA
型安全性入門
型安全性入門
Akinori Abe
【論文紹介】ProtoMF: Prototype-based Matrix Factorization for Effective and Explain...
【論文紹介】ProtoMF: Prototype-based Matrix Factorization for Effective and Explain...
Kosetsu Tsukuda
開発速度が速い #とは(LayerX社内資料)
開発速度が速い #とは(LayerX社内資料)
mosa siru
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
Ayako_Hasegawa
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
Deep Learning JP
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
ゼロから始める転移学習
ゼロから始める転移学習
Yahoo!デベロッパーネットワーク
深層学習の数理
深層学習の数理
Taiji Suzuki
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
nishio
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化
Yusuke Fujimoto
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
Takahiko Ito
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
Satoshi Hara
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争
Yosuke Shinya
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
Preferred Networks
エンジニアも知っておきたいAI倫理のはなし
エンジニアも知っておきたいAI倫理のはなし
Yasunori Nihei
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
Toshihiko Yamasaki
【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~
【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~
Toshihiko Yamasaki
More Related Content
What's hot
開発速度が速い #とは(LayerX社内資料)
開発速度が速い #とは(LayerX社内資料)
mosa siru
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
Ayako_Hasegawa
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
Deep Learning JP
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
ゼロから始める転移学習
ゼロから始める転移学習
Yahoo!デベロッパーネットワーク
深層学習の数理
深層学習の数理
Taiji Suzuki
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
nishio
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化
Yusuke Fujimoto
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
Takahiko Ito
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
Satoshi Hara
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争
Yosuke Shinya
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
Preferred Networks
エンジニアも知っておきたいAI倫理のはなし
エンジニアも知っておきたいAI倫理のはなし
Yasunori Nihei
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
What's hot
(20)
開発速度が速い #とは(LayerX社内資料)
開発速度が速い #とは(LayerX社内資料)
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
ゼロから始める転移学習
ゼロから始める転移学習
深層学習の数理
深層学習の数理
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
エンジニアも知っておきたいAI倫理のはなし
エンジニアも知っておきたいAI倫理のはなし
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Viewers also liked
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
Toshihiko Yamasaki
【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~
【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~
Toshihiko Yamasaki
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
Yota Ishida
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
Yuki Arase
Extreme Learning Machine
Extreme Learning Machine
Yoshiaki Sakakura
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
Yuya Unno
拡がるディープラーニングの活用
拡がるディープラーニングの活用
NVIDIA Japan
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
Ichigaku Takigawa
プログラミングコンテストでのデータ構造
プログラミングコンテストでのデータ構造
Takuya Akiba
Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~
nlab_utokyo
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
Recruit Technologies
Viewers also liked
(11)
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~
【FIT2016チュートリアル】ここから始める情報処理 ~機械学習編~
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
Extreme Learning Machine
Extreme Learning Machine
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
拡がるディープラーニングの活用
拡がるディープラーニングの活用
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
プログラミングコンテストでのデータ構造
プログラミングコンテストでのデータ構造
Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
Similar to 検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Seiya Tokui
Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...
Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...
Kotaro Yamazaki
ipsjifat201909
ipsjifat201909
Tetsuya Sakai
各言語の k-means 比較
各言語の k-means 比較
y-uti
オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介
オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介
Satoshi Kitajima
第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授)
gsis gsis
20170127 JAWS HPC-UG#8
20170127 JAWS HPC-UG#8
Kohei KaiGai
ソフトウェア自動チューニング研究紹介
ソフトウェア自動チューニング研究紹介
Takahiro Katagiri
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
Yosuke Mizutani
PFI Christmas seminar 2009
PFI Christmas seminar 2009
Preferred Networks
kagami_comput2016_14
kagami_comput2016_14
swkagami
第2回 R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜相関分析による需要予測編〜
第2回 R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜相関分析による需要予測編〜
Yasuyuki Sugai
Wssit slide
Wssit slide
Akihiro Koide
GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)
GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)
Ryuuta Tsunashima
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
Okamoto Laboratory, The University of Electro-Communications
pg_bigmを用いた全文検索のしくみ(前編)
pg_bigmを用いた全文検索のしくみ(前編)
NTT DATA OSS Professional Services
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
BotとWikiを使った試験的な並列プログラミング
BotとWikiを使った試験的な並列プログラミング
Takashi Yamanoue
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTURE Project
Salmon cycle
Salmon cycle
Shota Yasui
Similar to 検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
(20)
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...
Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...
ipsjifat201909
ipsjifat201909
各言語の k-means 比較
各言語の k-means 比較
オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介
オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介
第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授)
20170127 JAWS HPC-UG#8
20170127 JAWS HPC-UG#8
ソフトウェア自動チューニング研究紹介
ソフトウェア自動チューニング研究紹介
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
PFI Christmas seminar 2009
PFI Christmas seminar 2009
kagami_comput2016_14
kagami_comput2016_14
第2回 R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜相関分析による需要予測編〜
第2回 R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜相関分析による需要予測編〜
Wssit slide
Wssit slide
GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)
GPU-FPGA 協調計算を記述するためのプログラミング環境に関する研究(HPC169 No.10)
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
pg_bigmを用いた全文検索のしくみ(前編)
pg_bigmを用いた全文検索のしくみ(前編)
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
BotとWikiを使った試験的な並列プログラミング
BotとWikiを使った試験的な並列プログラミング
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
Salmon cycle
Salmon cycle
More from kt.mako
情報検索とゼロショット学習
情報検索とゼロショット学習
kt.mako
Context-guided Learning to Rank Entities
Context-guided Learning to Rank Entities
kt.mako
情報アクセス技術のためのテストコレクション作成
情報アクセス技術のためのテストコレクション作成
kt.mako
筑波大学 図書館情報メディア系 知識獲得システム 研究紹介
筑波大学 図書館情報メディア系 知識獲得システム 研究紹介
kt.mako
DEIM2017 私が愛したSIGIR Paper [京都大学 加藤誠]
DEIM2017 私が愛したSIGIR Paper [京都大学 加藤誠]
kt.mako
Two-layered Summaries for Mobile Search: Does the Evaluation Measure Reflect ...
Two-layered Summaries for Mobile Search: Does the Evaluation Measure Reflect ...
kt.mako
NTCIR-12 MobileClick-2 Overview
NTCIR-12 MobileClick-2 Overview
kt.mako
情報検索のためのユーザモデル
情報検索のためのユーザモデル
kt.mako
MobileClick-2 キックオフイベント
MobileClick-2 キックオフイベント
kt.mako
MobileClick-2 Kickoff Event
MobileClick-2 Kickoff Event
kt.mako
More from kt.mako
(10)
情報検索とゼロショット学習
情報検索とゼロショット学習
Context-guided Learning to Rank Entities
Context-guided Learning to Rank Entities
情報アクセス技術のためのテストコレクション作成
情報アクセス技術のためのテストコレクション作成
筑波大学 図書館情報メディア系 知識獲得システム 研究紹介
筑波大学 図書館情報メディア系 知識獲得システム 研究紹介
DEIM2017 私が愛したSIGIR Paper [京都大学 加藤誠]
DEIM2017 私が愛したSIGIR Paper [京都大学 加藤誠]
Two-layered Summaries for Mobile Search: Does the Evaluation Measure Reflect ...
Two-layered Summaries for Mobile Search: Does the Evaluation Measure Reflect ...
NTCIR-12 MobileClick-2 Overview
NTCIR-12 MobileClick-2 Overview
情報検索のためのユーザモデル
情報検索のためのユーザモデル
MobileClick-2 キックオフイベント
MobileClick-2 キックオフイベント
MobileClick-2 Kickoff Event
MobileClick-2 Kickoff Event
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
1.
検索評価ツールキットNTCIREVALを用いた 様々な情報アクセス技術の評価方法 京都大学大学院 情報学研究科 加藤 誠 http://www.mpkato.net/
2.
• 加藤 誠
(Makoto P. Kato) – 京都大学大学院 情報学研究科 特定助教(2012~) • 研究 –情報検索 Webマイニング 機械学習 • 現在の活動 – NTCIR-12, 13 PC Co-chair – NTCIR-13 タスク運営 (OpenLiveQ) 誰? 2
3.
NTCIR-13 (as a
PC co-chair) 3 NTCIR-13タスク参加募集 参加登録期限: 2016年12月15日 Registration is via NTCIR-13 website:http://research.nii.ac.jp/ntcir/ntcir-13/ NTCIR-12の様子 Lifelog-2 ライフログ 検索 MedWeb 患者マイニ ング OpenLive Q 知恵袋検索 QALab-3 大学入試 Q&A STC-2 短い会話実 現 AKG 行動マイニ ング ECA 感情推定 NAILS 脳波分析 WWW Web検索 NTCIR-13タスク タスク参加者 1. 好きなタスクを選ぶ 2. 必要なデータセットをダウンロードして そのタスクの要件にあったシステムを作る 3. タスク運営者に評価してもらう 4. 結果を他の参加者と比較する 1位! 情報アクセス技術に関わるタスクの提案・システム 評価をコミュニティ単位で行う取り組み
4.
1. トピックを用意する – 情報検索:
検索要求(京都の観光地を調べたい)+ クエリ(京都 観光) – 要約: 文書(クエリなしの要約の場合) – 質問応答: 質問(富士山の標高は?) 2. システム出力を得る – 情報検索: 文書集合や順序付き文書集合 – 要約: 要約文 – 質問応答: 答え 3. ある評価指標によりシステム出力を評価し全ト ピックでの平均値を得る – 評価指標の例: Precision, Recall, Accuracy, Average Precision, nDCG, ERR, BLEU, ROUGE, S-measure 情報アクセス技術の評価 4
5.
• 情報アクセス評価方法論(酒井哲也 先生) –
多くの評価指標を網羅 – ぜひ手元に置いておきたい1冊 – 講演者≠著者 • NTCIREVAL – 上記の本の著者によって開発された評価ツール http://research.nii.ac.jp/ntcir/tools/ntcireval-ja.html 本日の内容 5 テーマ: 適切な評価指標・ツールを用いて 簡単に正しく評価を!
6.
文書集合出力 検索結果集合 Precision Recall F-measure 順序付き検索結果 集合 Informational 二値適合性 Average Precision 多値適合性 nDCG Q-measure Rank
Biased Precision Navigational 二値適合性 Reciprocal Rank 多値適合性 ERR テキスト出力 機械翻訳 BLEU 要約 検索のためでない ROUGE 検索のため S-measure 質問応答 ナゲットPrecision, Recall, F-measure 代表的な評価指標 6
7.
情報検索のための評価指標 7 検索結果集合 Precision Recall F-measure 順序付き検索結 果集合 Informational 二値適合性 Average Precision 多値適合性 nDCG Q-measure Rank Biased Precision Navigational 二値適合性
Reciprocal Rank 多値適合性 ERR 情報検索を例として用いるが,他の問題でも同じように評価できる場合がある
8.
• あるトピックに対して適合な文書集合を𝐴、システムが 得た文書集合を𝐵とする(検索結果に順序がない場合) – 適合な:
トピックの検索要求を満たす • Precision(適合率・精度) – システムが得た文書のうち適合文書の割合 • Recall(再現率) – 適合文書のうちシステムが得た適合文書の割合 • F-measure 検索結果集合とPrecision・Recall・F-measure 8 これが適合 評価者 𝐴 𝐵 これが出力 システム 𝑃 = |𝐴 ∩ 𝐵| |𝐵| 𝑅 = |𝐴 ∩ 𝐵| |𝐴| 𝐹𝛽 = 𝛽2 + 1 𝑃𝑅 𝛽2 𝑃 + 𝑅 𝐹1 = 2𝑃𝑅 𝑃 + 𝑅 が良く使われる
9.
• システムの出力を𝐝 =
(𝑑1, 𝑑2, … , 𝑑 𝑛)とする • 𝑟番目の文書𝑑 𝑟の適合度を𝑔(𝑑 𝑟)とする – 二値適合性: 適合している/いない、の二値 • 𝑔: 𝐷 → {0,1} (𝐷は全文書集合) – 多値適合性: 適合していない/ややしている /している、などの多値 • 𝑔: 𝐷 → {0,1, 2, … , 𝑀} (𝑀は最大の適合度) 順序付き検索結果集合 9 𝑑1 𝑑2 𝑑3 これが出力 評価者 𝐝システム 𝑑4 𝑑5 𝑔(𝑑1) = 2 𝑔(𝑑2) = 0 𝑔(𝑑3) = 1 𝑔(𝑑4) = 1 𝑔(𝑑5) = 2 これが適合性 多値適合性の場合 二値か多値かによって使える評価指標が異なる
10.
• Broder (2002)のWebクエリ分類に基づく 検索意図の分類 –
Navigational • ある特定のサイトを訪れたいという意図 → 1つの適合文書を得たい場合(e.g. 時刻表の検索) – Informational • 1つ以上のWebサイトに書かれていると思われる情報を得た いという意図 → 1つ以上の適合文書を得たい場合(e.g. 温暖化の原因) – Transactional • Webを仲介した行動を実行したいという意図 検索意図の種類 10 想定する検索意図によって評価指標が異なる 情報検索を例として用いるが,他の問題でも同じように評価できる場合がある
11.
順序付き検索評価指標 11 Informational 二値適合性 Average Precision 多値適合性 nDCG Q-measure Rank Biased Precision Navigational 二値適合性 Reciprocal Rank 多値適合性
ERR
12.
• 検索評価指標 =
ユーザの利得の期待値 (nDCGを除く) • ユーザに関する仮定 – 線形横断: ユーザは検索結果を最上位から1件ずつ順番に調 べていく – 横断停止: ユーザは確率的または決定的に,ある検索結果 を調べた時点で満足し,横断を停止する – 利得獲得: ユーザはその検索意図に応じて,調べた検索結 果からその適合性に応じた利得を得る • 順序付き検索評価指標の一般形 𝑀 𝐝 = 𝑟=1 𝑛 𝑃 𝑟 𝐺 𝑟 順序付き検索評価指標のフレームワーク 12 𝑃 𝑟 : ユーザが𝑟位で停止する確率 𝐺 𝑟 : 𝑟位で得られる利得 まさに「ユーザの利得の期待値」になっている 各評価指標はPやGが異なる
13.
ユーザに関する仮定の図示 13 𝑑1 𝑑2
𝑑3 これが出力 𝐝システム 𝑑4 𝑑5 ユーザ ユーザ 線形横断 線形横断 Stop! Stop! 利得獲得 横断停止 横断停止 利得獲得 確率𝑃 2 で𝐺 2 の利得 確率𝑃 4 で𝐺 4 の利得
14.
AP 𝐝 = 𝑟=1 𝑛 𝑃
𝑟 𝐺 𝑟 = 𝑟=1 𝑛 𝐼(𝑟) 𝑅 Pre 𝑟 = 1 𝑅 𝑟=1 𝑛 𝐼(𝑟)Pre 𝑟 • APの仮定 – 横断停止: ユーザが停止する確率は,全適合文書上に一様に分布 (i.e. 𝑃 𝑟 = 1/𝑅( drが適合の場合)) – 利得獲得:ユーザは停止する際に,上位𝑟件の文書集合におけるPrecision と等しい利得を得る(i.e. 𝐺 𝑟 = Pre(𝑟) ) • Informationalな意図を仮定しているので適合文書が多い方が利得が大きい Average Precision (AP) [二値適合性・Informational] 14 𝐼 𝑟 : 𝑟位の文書が適合であれば1,そうでなければ0を返す指示関数 Pre(𝑟):上位𝑟件の文書集合におけるPrecision, 𝑅: 全適合文書数 𝑑1 𝑑2 𝑑3 これが出力 システム 𝑑4 𝑑5 ユーザ ユーザ 𝑅 = 2のとき,𝑃 1 = 𝑃 3 = 𝑃(5) = 0, 𝑃 2 = 𝑃 4 = 1/2 となり, AP 𝐝 = 1 2 1 2 + 1 2 2 4 = 0.5 適合 適合
15.
RBP 𝐝 = 𝑟=1 𝑛 𝑃
𝑟 𝐺 𝑟 = 𝑟=1 𝑛 1 − 𝑝 𝑝 𝑟−1 𝑔 𝑑 𝑟 𝑀 • RBPの仮定 – 横断停止: ユーザは𝑟位において確率𝑝で横断続行, 1 − 𝑝で横断停止 (i.e. 𝑃 𝑟 = 1 − 𝑝 𝑝 𝑟−1) – 利得獲得:ユーザは停止する際に,最大の適合度で正規化された適合度と 等しい利得を得る(i.e. 𝐺 𝑟 = 𝑔(𝑑 𝑟)/𝑀 ) Rank Biased Precision (RBP) [多値適合性・Informational] 15 𝑝: 各検索結果を見終わった後の横断続行確率 𝑔(𝑑 𝑟):文書𝑑 𝑟の多値適合度, 𝑀:最大の適合度 𝑑1 𝑑2 𝑑3 これが出力 システム 𝑑4 𝑑5 ユーザ ユーザ Stop! Stop! ここでの停止確率は 1 − 𝑝 𝑝 ここでの停止確率は 1 − 𝑝 𝑝2
16.
𝑄 𝐝 = 𝑟=1 𝑛 𝑃
𝑟 𝐺 𝑟 = 𝑟=1 𝑛 𝐼(𝑟) 𝑅 BR 𝑟 = 1 𝑅 𝑟=1 𝑛 𝐼 𝑟 BR 𝑟 • Q-measureの仮定 – 横断停止: APと同じ – 利得獲得: 𝑟位で検索を終えたときに得られる利得は, 𝑟位までの 適合文書(𝑔 𝑑 𝑟 > 0)数と適合度の総和(累積利得)で決定 • 𝑟位までの適合文書数: 𝐶 𝑟 = 𝑟′=1 𝑟 𝐼(𝑟′ ) • 累積利得: CG 𝑟 = 𝑟′=1 𝑟 𝑔(𝑑 𝑟′) BR 𝑟 = (𝐶 𝑟 + 𝛽CG(𝑟))/(𝑟 + 𝛽CG∗(𝑟)) Q-measure [多値適合性・Informational] 16 𝐼 𝑟 : 𝑟位の文書が適合(𝑔 𝑑 𝑟 > 0)であれば1,そうでなければ0を返す指示関数 BR(𝑟): 𝑟位でのブレンド比(適合文書数と累積利得の組み合わせ), 𝑅: 全適合文書数 適合文書数と累積利得の和 ( 𝛽 はパラメータ) CG∗ (𝑟)は適合度が大きい順に 並べて作った理想的な検索結 果𝐝∗におけるCG
17.
RR 𝐝 = 𝑟=1 𝑛 𝑃
𝑟 𝐺 𝑟 = 𝑟=1 𝑛 𝟏(𝑟 = 𝑟∗ )Pre 𝑟 = 1 𝑟∗ • RRの仮定 – 横断停止: ユーザは最上位の適合文書で停止 (i.e. 𝑃 𝑟 = 1( drが最上位の適合文書の場合)) • Navigationalな意図を仮定するため,適合文書を1つ見つけると横断停止 – 利得獲得:ユーザは停止する際に,上位𝑟件の文書集合における Precisionと等しい利得を得る(i.e. 𝐺 𝑟 = Pre(𝑟) ) • このとき必ず𝐺 𝑟 = Pre 𝑟 = 1/𝑟 = 1/𝑟∗ である Reciprocal Rank (RR) [二値適合性・Navigational] 17 𝟏 𝑥 : 𝑥が真であれば1,そうでなければ0を返す指示関数 𝑟∗:最上位の適合文書の順位,Pre(𝑟):上位𝑟件の文書集合におけるPrecision 𝑑1 𝑑2 𝑑3 これが出力 システム 𝑑4 𝑑5 ユーザ 適合 適合 Stop! RR 𝐝 = 1/2
18.
ERR 𝐝 = 𝑟=1 𝑛 𝑃
𝑟 𝐺 𝑟 = 𝑟=1 𝑛 𝑝 𝑟 𝑟′=1 𝑟−1 (1 − 𝑝(𝑟′)) 1 𝑟 • ERRの仮定 – 横断停止: ユーザはより高い適合度を持つ文書で停止しやすく, ユーザは𝑟位において確率 𝑟′=1 𝑟 (1 − 𝑝(𝑟′ ))で横断続行, 𝑃 𝑟 = 𝑝(𝑟) 𝑟′=1 𝑟−1 (1 − 𝑝(𝑟′ ))で横断停止 • Navigationalな意図を仮定するため,適合文書を見つけると横断停止する可能性 – 利得獲得:ユーザは停止する際に,1/𝑟の利得を得る • RRの利得と同じであるため, RRはERRで𝑃 𝑟 = 1( d 𝑟が適合)の場合と見なせる Expected Reciprocal Rank (ERR) [多値適合性・Navigational] 18 𝑝(𝑟): 𝑟位の文書を見終わった後の停止確率. 𝑝 𝑟 = (2 𝑔 𝑑 𝑟 − 1)/2 𝑀 𝑔(𝑑 𝑟):文書𝑑 𝑟の多値適合度, 𝑀:最大の適合度 𝑑1 𝑑2 𝑑3 これが出力 システム 𝑑4 𝑑5 ユーザ Stop! Stop! ここでの停止確率は𝑝(2)(1 − 𝑝(1)) ここでの停止確率は𝑝(3)(1 − 𝑝(1))(1 − 𝑝(2))
19.
DCG@𝑁 𝐝 = 𝑟=1 𝑁 𝑔(𝑑
𝑟) 1 log(𝑟 + 1) nDCG@𝑁 𝐝 = DCG@𝑁(𝐝)/DCG@𝑁(𝐝∗) • nDCGの仮定 – 利得獲得:ユーザは調べた検索結果からその適合性に応じた利得を得て, その利得は累積する – 利得減損:利得はそれまでに調べられた文書数に応じて減損 Normalized Discounted Cumulative Gain (nDCG) [多値適合性・Informational] 19 𝐝∗ : 適合度が高い順に文書を並べて作った理想的な検索結果 𝑁: カットオフ(この順位までの結果を考慮) 𝑑1 𝑑2 𝑑3 これが出力 システム 𝑑4 𝑑5 ユーザ 適合度=1 適合度=2 減損利得 = 1 × 1/ log 2 減損利得 = 2 × 1/ log 4 ユーザ
20.
指標 AP RBP
Q nDCG RR ERR 検索意図 Informational Navigational 適合性 二値 多値 多値 多値 二値 多値 正規化 ○ × ○ ○ ○ △ (nERR) 収穫逓減 × × × × ○ ○ 判別能力 ○ × ○ ○ × × 利用率 ◎ △ △ ◎ ◎ ○ 順序付き検索評価指標 まとめ 20 • 正規化: 最大値が1に正規化されている • 収穫逓減: ある文書が適合である場合,それより下位の文書の価 値が低下する • 判別能力: 2つのシステムの優劣を判別できる能力 (実験ベース,統計的検定に基づく) • 利用率: 私の主観に基づく
21.
Webサイト: http://research.nii.ac.jp/ntcir/tools/ntcireval-ja.html DL: http://research.nii.ac.jp/ntcir/tools/NTCIREVAL.160507.tar.gz 本日のコード:
https://git.io/viGYs • Webサイトより説明を引用 – NTCIREVALは、様々な検索評価指標を計算するた めのツールキットです。NTCIRやTRECのad hoc文 書検索タスクの他、diversified search resultsの評価 やNTCIR-8コミュニティQAタスクの評価などにも 利用できます。 (Python版も作成途中: https://github.com/mpkato/pyNTCIREVAL) (pip install git+https://github.com/mpkato/pyNTCIREVAL.git でインストー ル可能.「pyNTCIREVAL」というコマンドが使えるようになります) NTCIREVAL 21
22.
文書ID 適合度 dummy01 3 dummy02
3 dummy03 3 dummy04 2 dummy05 2 … … dummy11 0 練習問題 22 適合性判定データ (sample.rel) 文書ID dummy11 dummy01 dummy12 dummy04 システム出力 (sample.res) NTCIREVAL 指標 AP RBP Q nDCG RR ERR スコア 0.100 0.0761 0.0967 0.276 0.500 0.406
23.
本日のコード: https://git.io/viGYs • Linux
or Macを前提 NTCIREVAL Install 23 # NTCIREVALのインストール # ダウンロード&展開 wget http://research.nii.ac.jp/ntcir/tools/NTCIREVAL.160507.tar.gz mkdir NTCIREVAL # (フォルダ単位でファイルがまとまっていないため,作成したフォルダ内に展開) tar fzxv NTCIREVAL.160507.tar.gz -C ./NTCIREVAL/ # インストール cd NTCIREVAL make
24.
本日のコード: https://git.io/viGYs • サンプルファイルを利用 NTCIREVAL
Files 24 # 評価用ファイルの用意 # 適合性判定ファイルの確認 (各行が「<文書ID> L<適合度>」) cat sample.rel # dummy01 L3 # dummy02 L3 # … # システム出力ファイルの確認(各行に<文書ID>をランキング順に含む) cat sample.res # dummy11 # dummy01 # …
25.
本日のコード: https://git.io/viGYs • システム出力に適合性を付与 NTCIREVAL
Label 25 # システム出力結果に適合度を付与 cat sample.res | ./ntcir_eval label -r sample.rel > labeled_sample.res # フォーマットは「<文書ID> L<適合度>」となる。適合性判定を行っていな い文書も許容する。 cat labeled_sample.res # dummy11 L0 # dummy01 L3 # dummy12 # dummy04 L2
26.
本日のコード: https://git.io/viGYs • 各検索評価指標を計算 NTCIREVAL
Compute 26 # 各検索評価指標を計算 cat labeled_sample.res | ./ntcir_eval compute -r sample.rel -g 1:2:3 # # syslen=4 jrel=10 jnonrel=1 # # r1=2 rp=2 # RR= 0.5000 … # AP= 0.1000 # Q-measure= 0.0967 … # RBP= 0.0761 # ERR= 0.4062 … # nDCG@1000= 0.3380 …
27.
• 評価指標はPrecision, Recall,
APだけではない – 目的・ユーザの仮定によって適した指標は異なる – nDCG,Q,ERRなどはもっと評価されるべき • 評価指標の多くは仮定するユーザの振るまいと獲 得する利得によって解釈可能 – これが分かれば評価指標の選択に意味を見いだせる • 評価指標の計算には既存のツール使用を推奨 – AP・nDCGの実装ミスの例 • 全適合文書数(R)や理想的な検索結果(d*)の求め方のミス • DCGにオリジナル版・Microsoft版などがある 評価に興味がある方,評価してもらいたい方は NTCIR-13へのご参加を検討ください! まとめ 27
Download now