第19回 Lucene/Solr勉強会資料 「NLP4Lを使ったランキング学習」3. NLP4Lとは
Apache Lucene のための自然言語処理ツール
• NLP(自然言語処理)
• 機械学習
• ランキング学習(Learning To Rank)
検索エクスペリエンスを向上させることが主な目的
• ユーザが見つけたいと思っている文書をより早く容易に見つけられるようにする
Luceneベースの検索エンジンが対象
• Apache Solr
• Elasticsearch
6. 標準提供のランキング学習モデル
PRank
• Pointwiseの手法
• PRank(Perceptron Ranking)アルゴリズムを利用したモデル
RankingSVM
• Pairwiseの手法
• SVM(support vector machine)を用いたモデル
• Pointwiseデータから疑似的にpairwiseデータに変換して処理を行う
(今後もっと増やしていきます)
NLP4Lでは特定のモデル理論や実装に依存せず利用可能
13. モデル評価
今後提供していきます
トレーニング・モデル生成 モデル配置 モデル評価
LTRで標準的評価指標
• DCG (DIscount Comulative Gain)
• NDCG (Normalized Discount Comulative Gain)
• MAP (Mean Average Precision)
14. Bloomberg 版 LTR との比較
• Bloomberg 版 LTR(SOLR-8542)はFeature表現にSolrのクエリ式が使える。
• NLP4L-LTR は LTR 論文などで一般的なFeatureが使える。SOLR-8542 は使
えない。
• NLP4L-LTR は LTR で必要なモジュールを一気通貫で提供。SOLR-8542 は
Feature抽出とモデルの利用のみ提供。
• SOLR-8542 は Solr の機能に depend している。NLP4L-LTR は Solr に
depend している部分は少ないので、ES 実装提供が容易。
• SOLR-8542 はリランキングを自前で書いている。NLP4L-LTR は
Lucene/Solr のリランクフレームワークを使用しているので非常にコンパク