SlideShare a Scribd company logo
1 of 9
Download to read offline
NEologdをどう使うと便利なのか
ー クエリ拡張における活用 ー
担当: @Quasi_quant2010
NEologd Casual Talks1
【NEologd Casual Talks】
概要
- 計算を補正する言語資源としての利用例 -
 Neologd使用用途
 クエリSuggestにおける前処理エラーを補正
 Suggestにおける複合語を補正
← 補正が必要な背景と対処法、応用例を示す
 文書indexingにおける、クエリ拡張の動機
← 出来るだけ固有表現を加味した分かち書きを軸に、
①Neologd②クエリ拡張③N-bestを用い、検索漏れを防ぐ
注) 時間の都合上割愛
 参考文献
NEologd Casual Talks2
Neologd使用用途①:前処理補正
- クエリSuggestにおける前処理エラーを補正 -
 事象
 クエリSuggestモデル構築時に、
ターサージール -> サージール(名詞)という前処理を実施
 ターサージールはスポーツシューズの商品名
 背景
 複合名詞を細かく分割したい方針があり、
前処理ではカタカナ二文字はトークンとして考えない
NEologd Casual Talks3
クエリSuggest
Neologdによる修正前 アシックス サージール
Neologdによる修正後 アシックス ターサージール
Neologd使用用途①:前処理補正
- 応用例:Suggestと拡張を組み合わせる -
 対処法
 前処理エラーの補正ソースとしてNeologdを使用
 応用例
 Suggestしたクエリを拡張する
 別途クエリ拡張用のモデルも作る([X.Wang, etc])
 最終出力はNeologdで補正をする
NEologd Casual Talks4
クエリSuggest 拡張元KW 拡張後KW
Neologdなし 拡張なし アシックス サージール サージール ランニング
Neologdなし 拡張あり アシックス ランニング サージール ランニング
Neologdあり 拡張なし アシックス ターサージール ターサージール ランニング
Neologdあり 拡張あり アシックス ランニング ターサージール ランニング
Neologd使用用途②:複合語補正
- 応用例:Suggestにおける複合語を補正 -
 事象
 クエリSuggestモデル構築時に、
サッカーシューズ -> サッカー/シューズ(名詞)という前処理を実施
 背景
 複合名詞を細かく分割するという方針があり、かつ、
前処理でカタカナ二文字をトークンとして考えない
 カタカナ二文字を除外する理由は、
複合名詞の修飾語を拡張するため
NEologd Casual Talks5
クエリSuggest
Neologdによる修正前 ナイキ ジュニア サッカー シューズ
Neologdによる修正後 ナイキ ジュニア サッカーシューズ
Neologd使用用途②:複合語補正
- 応用例:Suggestと拡張を組み合わせる -
 対処法
 複合語の補正ソースとしてNeologdを使用
 応用例
 Suggestしたクエリを拡張する
 別途クエリ拡張用のモデルも作る([X.Wang, etc])
 最終出力はNeologdで補正をする
NEologd Casual Talks6
クエリSuggest 拡張元KW 拡張後KW
Neologdなし 拡張なし ナイキ ジュニア サッカー シューズ サッカー ランニング
Neologdなし 拡張あり ナイキ ジュニア ランニング シューズ サッカー ランニング
Neologdあり 拡張なし ナイキ ジュニア サッカーシューズ サッカー ランニング
Neologdあり 拡張あり ナイキ ジュニア ランニングシューズ サッカー ランニング
文書indexingにおけるクエリ拡張の動機
- 検索漏れを防ぐ -
 Neologdを使って実現したいこと
 ユーザーの検索意図を保ちつつ、検索漏れを防ぐ
 検索意図を保存する為の一つの手段として、
固有表現を加味した分かち書きをする
 ただし、 1トークンの文字列の長さが長くなる程、
and演算で取得する文書数は減少
 なので、クエリ拡張とN-best([M.oosuka, etc])も併用
NEologd Casual Talks7
indexing
Neologdなし + 拡張なし ナイキ | ジュニア | サッカー | シューズ
Neologdあり + 拡張なし ナイキ | ジュニア | サッカー | サッカーシューズ |シューズ
Neologdなし + 拡張あり ナイキ | ジュニア | ランニング | シューズ
Neologdあり + 拡張あり ナイキ | ジュニア |ランニング| ランニングシューズ |シューズ
注) Neologdありの場合は、N-bestも併用
附録
NEologd Casual Talks8
参考文献
 Neologd
 [T.Sato] Neologism dictionary based on the language resources on the
Web for mecab-ipadic https://goo.gl/dTKn18 2015
 [T.Sato] Solr / Elasticsearch Synonym mapping file for Japanese web
documents using results of NEologd, https://goo.gl/Q1JNml 2015
 分かち書き
 [A.Takeshi, etc] クックパッド特売情報における自然言語処理~固有表現抽出を利用した
検索システム~ http://goo.gl/CcPjdI YANS, 2015
 [M.oosuka, etc] LuceneSolrでの形態素解析の課題とN-bestの提案
http://goo.gl/mwYQ9N 第17回Lucene/Solr勉強会, 2015
 クエリSuggest
 [X.Yan, etc] A Biterm Topic Model for Short Texts, WWW, 2013
 クエリ拡張
 [X.Wang, etc] Mining Term Association Patterns from Search Logs for
Effective Query Reformulation, CIKM, 2008
NEologd Casual Talks9

More Related Content

More from Takanori Nakai

Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationSentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationTakanori Nakai
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...Takanori Nakai
 
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaTakanori Nakai
 
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsTakanori Nakai
 
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Takanori Nakai
 
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例Takanori Nakai
 
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsTakanori Nakai
 
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferenceTakanori Nakai
 
高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差Takanori Nakai
 
Analysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataAnalysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataTakanori Nakai
 
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionPositive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionTakanori Nakai
 
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Takanori Nakai
 
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysisTakanori Nakai
 
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendationTakanori Nakai
 
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaTakanori Nakai
 
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Takanori Nakai
 
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチPUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチTakanori Nakai
 
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出Takanori Nakai
 
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTakanori Nakai
 

More from Takanori Nakai (19)

Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationSentence-State LSTM for Text Representation
Sentence-State LSTM for Text Representation
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
 
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
 
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methods
 
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...
 
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例
 
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional Representations
 
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and Inference
 
高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差
 
Analysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataAnalysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled Data
 
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionPositive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews Detection
 
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
 
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysis
 
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendation
 
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpedia
 
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
 
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチPUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
 
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出
 
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
 

NEologdをどう使うと便利なのかークエリ拡張における活用ー

  • 1. NEologdをどう使うと便利なのか ー クエリ拡張における活用 ー 担当: @Quasi_quant2010 NEologd Casual Talks1 【NEologd Casual Talks】
  • 2. 概要 - 計算を補正する言語資源としての利用例 -  Neologd使用用途  クエリSuggestにおける前処理エラーを補正  Suggestにおける複合語を補正 ← 補正が必要な背景と対処法、応用例を示す  文書indexingにおける、クエリ拡張の動機 ← 出来るだけ固有表現を加味した分かち書きを軸に、 ①Neologd②クエリ拡張③N-bestを用い、検索漏れを防ぐ 注) 時間の都合上割愛  参考文献 NEologd Casual Talks2
  • 3. Neologd使用用途①:前処理補正 - クエリSuggestにおける前処理エラーを補正 -  事象  クエリSuggestモデル構築時に、 ターサージール -> サージール(名詞)という前処理を実施  ターサージールはスポーツシューズの商品名  背景  複合名詞を細かく分割したい方針があり、 前処理ではカタカナ二文字はトークンとして考えない NEologd Casual Talks3 クエリSuggest Neologdによる修正前 アシックス サージール Neologdによる修正後 アシックス ターサージール
  • 4. Neologd使用用途①:前処理補正 - 応用例:Suggestと拡張を組み合わせる -  対処法  前処理エラーの補正ソースとしてNeologdを使用  応用例  Suggestしたクエリを拡張する  別途クエリ拡張用のモデルも作る([X.Wang, etc])  最終出力はNeologdで補正をする NEologd Casual Talks4 クエリSuggest 拡張元KW 拡張後KW Neologdなし 拡張なし アシックス サージール サージール ランニング Neologdなし 拡張あり アシックス ランニング サージール ランニング Neologdあり 拡張なし アシックス ターサージール ターサージール ランニング Neologdあり 拡張あり アシックス ランニング ターサージール ランニング
  • 5. Neologd使用用途②:複合語補正 - 応用例:Suggestにおける複合語を補正 -  事象  クエリSuggestモデル構築時に、 サッカーシューズ -> サッカー/シューズ(名詞)という前処理を実施  背景  複合名詞を細かく分割するという方針があり、かつ、 前処理でカタカナ二文字をトークンとして考えない  カタカナ二文字を除外する理由は、 複合名詞の修飾語を拡張するため NEologd Casual Talks5 クエリSuggest Neologdによる修正前 ナイキ ジュニア サッカー シューズ Neologdによる修正後 ナイキ ジュニア サッカーシューズ
  • 6. Neologd使用用途②:複合語補正 - 応用例:Suggestと拡張を組み合わせる -  対処法  複合語の補正ソースとしてNeologdを使用  応用例  Suggestしたクエリを拡張する  別途クエリ拡張用のモデルも作る([X.Wang, etc])  最終出力はNeologdで補正をする NEologd Casual Talks6 クエリSuggest 拡張元KW 拡張後KW Neologdなし 拡張なし ナイキ ジュニア サッカー シューズ サッカー ランニング Neologdなし 拡張あり ナイキ ジュニア ランニング シューズ サッカー ランニング Neologdあり 拡張なし ナイキ ジュニア サッカーシューズ サッカー ランニング Neologdあり 拡張あり ナイキ ジュニア ランニングシューズ サッカー ランニング
  • 7. 文書indexingにおけるクエリ拡張の動機 - 検索漏れを防ぐ -  Neologdを使って実現したいこと  ユーザーの検索意図を保ちつつ、検索漏れを防ぐ  検索意図を保存する為の一つの手段として、 固有表現を加味した分かち書きをする  ただし、 1トークンの文字列の長さが長くなる程、 and演算で取得する文書数は減少  なので、クエリ拡張とN-best([M.oosuka, etc])も併用 NEologd Casual Talks7 indexing Neologdなし + 拡張なし ナイキ | ジュニア | サッカー | シューズ Neologdあり + 拡張なし ナイキ | ジュニア | サッカー | サッカーシューズ |シューズ Neologdなし + 拡張あり ナイキ | ジュニア | ランニング | シューズ Neologdあり + 拡張あり ナイキ | ジュニア |ランニング| ランニングシューズ |シューズ 注) Neologdありの場合は、N-bestも併用
  • 9. 参考文献  Neologd  [T.Sato] Neologism dictionary based on the language resources on the Web for mecab-ipadic https://goo.gl/dTKn18 2015  [T.Sato] Solr / Elasticsearch Synonym mapping file for Japanese web documents using results of NEologd, https://goo.gl/Q1JNml 2015  分かち書き  [A.Takeshi, etc] クックパッド特売情報における自然言語処理~固有表現抽出を利用した 検索システム~ http://goo.gl/CcPjdI YANS, 2015  [M.oosuka, etc] LuceneSolrでの形態素解析の課題とN-bestの提案 http://goo.gl/mwYQ9N 第17回Lucene/Solr勉強会, 2015  クエリSuggest  [X.Yan, etc] A Biterm Topic Model for Short Texts, WWW, 2013  クエリ拡張  [X.Wang, etc] Mining Term Association Patterns from Search Logs for Effective Query Reformulation, CIKM, 2008 NEologd Casual Talks9