SlideShare a Scribd company logo
1 of 27
関口宏司@ロンウイット
# 類義語知識
                  見出し語1, 類義語11, 類義語12
                  見出し語2, 類義語21, 類義語22, 類義語23
                  :


Copyright (c) 2012 RONDHUIT Co.,Ltd.           2
Copyright (c) 2012 RONDHUIT Co.,Ltd.   3
自動車損害賠償責任保険, 自賠責保険




  すべての運転者は、自賠責保険への加入が義務づけられています。




  すべての運転者は、自動車損害賠償責任保険への加入が義務づけられています。



               Copyright (c) 2012 RONDHUIT Co.,Ltd.   4
Copyright (c) 2012 RONDHUIT Co.,Ltd.   5
見出し語(=原型語)                                類義語(=略語、日本語版頭字語)
入国管理局                                     入管
文房具                                       文具
社員食堂                                      社食
国際連盟                                      国連
リポビタンD                                    リポD
ベルサイユのばら                                  ベルばら
木村拓哉                                      キムタク
Universal Serial Bus                      USB
                                                              (日本語における頭字語の例)




                       Copyright (c) 2012 RONDHUIT Co.,Ltd.                6
辞書型コーパス

         (見出し語,説明)× M 項目                               設定ファイル




                                                    <類義語知識の獲得>
                                                すべての見出し語に関し以下を
                                                ループ処理
 Lucene/Solr
               インデックス                           1. 類義語候補tBの同定
インデックス作成
                                                2. 見出し語tAと類義語候補tBの
                                                   類似度S(tA, tB)の計算
                                                3. 類似ならば出力
                •
                •
                •



                 説見見
                 明出出
                  しし
                  語語
                  の
                  読                                    CSVファイル
                  み




                Copyright (c) 2012 RONDHUIT Co.,Ltd.                 7
Copyright (c) 2012 RONDHUIT Co.,Ltd.   8
(*1)本テキスト執筆時においては、諸事情により実装を省略
            Copyright (c) 2012 RONDHUIT Co.,Ltd.   9
Copyright (c) 2012 RONDHUIT Co.,Ltd.   10
wX(t)は記事AX中のタームtの重みで、tfX(t)とidf(t)を用いて以下のように算出される。

                                                  fX(t)は記事AX中にタームtが
                                                  出現する回数。
                                                  numDocsは記事のエントリ数(=M)。
                                                  docFreq(t)はタームtを含む記事数。



               Copyright (c) 2012 RONDHUIT Co.,Ltd.                  11
CN            なし                         あり                         あり
     類似度計算             あり                         あり                         あり
      min.score              0.004                              0.004             0.002
      抽出件数                  14,065                              11,219            11,282
      誤りの例        国道250号, 国道2号        古代エジプト文学, コプト                      ビアホール, ビール

(       精度                    0.40                                0.58              0.79
*
2      再現率                    0.80                                1.00              1.00
)       F値                    0.53                                0.73              0.88
     (参考*1)
     処理時間(sec)          (未計測)                                   11,018            8,783

    (*1)プログラム実行中に他の処理を並行して行っていたため、あくまでも参考値である。
    (*2)こちらも、サンプル数が非常に少ないので、あくまでも参考値である。

     (注)類似度計算ありの場合、特徴ベクトル算出のための各種パラメータは:
     dicword.acronyms.vector.min.tf=2
     dicword.acronyms.origin.vector.size=40
     dicword.acronyms.user.docs.size=10
     dicword.acronyms.user.vector.size=10   Wikipedia項目総数(=M):848,970
                         Copyright (c) 2012 RONDHUIT Co.,Ltd.                          12
Copyright (c) 2012 RONDHUIT Co.,Ltd.   13
Copyright (c) 2012 RONDHUIT Co.,Ltd.   14
ジャンル   見出し語                          類義語
生活     ファミリーマート                      ファミマ
       ファミリーレストラン                    ファミレス
       ミスタードーナツ                      ミスド
       簡易保険                          簡保
       京浜急行電鉄                        京急
       セロハンテープ                       セロテープ
       油揚げ                           アブラゲ
       エビのチリソース                      エビチリ
       ビーフステーキ                       ビフテキ, ビステキ
       アメヤ横丁                         アメ横



               Copyright (c) 2012 RONDHUIT Co.,Ltd.   15
ジャンル    見出し語                                   類義語
文化/芸能   サンデージャポン                               サンジャポ
        ナインティナイン                               ナイナイ
        エレファントカシマシ                             エレカシ
        オリエンタルラジオ                              オリラジ
        テツandトモ                                テツトモ
        モーニング娘。                                モー娘, モー娘。
        ロンドンハーツ                                ロンハー
        プリンセス・プリンセス                            プリプリ
        外国人タレント                                外タレ
        週刊少年チャンピオン                             週チャン
        週刊少年マガジン                               週マガ
        東京スポーツ                                 東スポ
        ゴーマニズム宣言                               ゴー宣
               Copyright (c) 2012 RONDHUIT Co.,Ltd.        16
ジャンル   見出し語                                   類義語
人名     藤岡琢也                                   フジタク
       柴田錬三郎                                  シバレン
       ケンドーコバヤシ                               ケンコバ
       木村拓哉                                   キムタク
       浜田省吾                                   浜省
       松本潤                                    松潤
       堀内健                                    ホリケン
       豊川悦司                                   トヨエツ
       松山ケンイチ                                 松ケン
       松平健                                    マツケン
       ブラッド・ピット                               ブラピ
       ジョニー・デップ                               ジョニデ

       Copyright (c) 2012 RONDHUIT Co.,Ltd.          17
ジャンル   見出し語                                                  類義語
IT     File Transfer Protocol                                FTP
       World Wide Web                                        WWW
       Document Object Model                                 DOM
       Read Only Memory                                      ROM
       Cascading Style Sheets                                CSS
       Domain Name System                                    DNS
       Local Area Newtowk                                    LAN
       ワードプロセッサ                                              ワープロ
       フリーソフトウェア                                             フリーウェア
       OSI参照モデル                                              OSIモデル
       コピー・アンド・ペースト                                          コピペ
       ブックマーク                                                ブクマ
       スラッシュドット                                              スラド

                      Copyright (c) 2012 RONDHUIT Co.,Ltd.            18
ジャンル 見出し語                                             類義語
組織名   経済産業省                                           経産省
      農林水産省                                           農林省, 農水省
      テレビ東京                                           テレ東
      マツモトキヨシ                                         マツキヨ
      生活協同組合                                          生協
      長期信用銀行                                          長信銀, 長銀
      近畿日本ツーリスト                                       近ツリ, 近ツー
      東京電力                                            東電
      関西電力                                            関電
      日本弁護士連合会                                        日弁連
      日本体育大学                                          日体, 日体大
      日本ペイント                                          ニッペ
               Copyright (c) 2012 RONDHUIT Co.,Ltd.              19
ジャンル      見出し語                                      類義語
サイエンス/エ   線型部分空間                                    線型空間
ンジニアリング
          ハミルトン閉路問題                                 ハミルトン路問題
          エネルギー保存の法則                                エネルギー保存則
          エンジニアリングプラスチック                            エンプラ
          電気分解                                      電解
          有機化合物                                     有機物
          塩化カルシウム                                   塩カル
          水素爆弾                                      水爆




             Copyright (c) 2012 RONDHUIT Co.,Ltd.              20
ジャンル    見出し語                             類義語
建築/施設   丸の内ビルディング                        丸ビル
        新丸の内ビルディング                       新丸ビル
        大阪シティドーム                         大阪ドーム
        ナゴヤドーム                           ナゴド
ゲーム     ドラゴンクエスト                         ドラクエ
        オンラインゲーム                         オンゲー
        スーパーマリオブラザーズ                     スーマリ
        スーパーファミコン                        スーファミ
        NINTENDO64                       N64
        ウイニングイレブン                        ウイイレ
        一気通貫                             一通

             Copyright (c) 2012 RONDHUIT Co.,Ltd.   21
ジャンル   見出し語                                      類義語
ビジネス   約束手形                                      約手
       為替手形                                      為手
       外国為替                                      外為
       社会保険労務士                                   社労士
       投資信託                                      投信
スポーツ   セントラル・リーグ                                 セ・リーグ
       パシフィック・リーグ                                パリーグ, パ・リーグ
       セレッソ大阪                                    セ大阪
       グランドチャンピオン決定戦競走                           グラチャン
       日本テレビ盃                                    日本テレ盃


          Copyright (c) 2012 RONDHUIT Co.,Ltd.                 22
ジャンル   見出し語                                   類義語
表記揺れ   スパゲッティ                                 スパゲティ
       葉巻きタバコ                                 葉巻タバコ
       接ぎ木                                    接木
       インディペンデント                              インデペンデント
       釣り竿                                    釣竿
       踊り子                                    踊子




       Copyright (c) 2012 RONDHUIT Co.,Ltd.              23
見出し語          獲得できない類義語                              誤り抽出
スマートフォン       スマホ(抽出できない)
              「スマフォ」は抽出でき
              た
マンチェスター・ユナイ   マンU
テッドFC
酒井法子          のりピー
Mr.Children   ミスチル
国際通貨基金        IMF
こちら葛飾区亀有公園前   こち亀
派出所
十六進法                                                 十進法
キリン一番搾り生ビール                                          キリンビール
準々決勝                                                 準決勝

              Copyright (c) 2012 RONDHUIT Co.,Ltd.            24
クラス名                    用途
MappingCharFilter       形態素解析器
JapaneseTokenizer       見出し語の読み変換
(GosenTokenizer)
IndexReader             見出し語や類義語候補の探索
Terms                   記事中のタームの出現回数のカウント
TermsEnum
BytesRef
IndexSearcher           類義語候補を含む記事の検索
Query
TopDocs
Bits                    Luceneドキュメントの死活確認
PriorityQueue           記事特徴ベクトルの抽出



                    Copyright (c) 2012 RONDHUIT Co.,Ltd.   25
Copyright (c) 2012 RONDHUIT Co.,Ltd.   26
Copyright (c) 2012 RONDHUIT Co.,Ltd.   27

More Related Content

What's hot

協調フィルタリング入門
協調フィルタリング入門協調フィルタリング入門
協調フィルタリング入門hoxo_m
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
“機械学習の説明”の信頼性
“機械学習の説明”の信頼性“機械学習の説明”の信頼性
“機械学習の説明”の信頼性Satoshi Hara
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森Masashi Komori
 
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜Takahiko Ito
 
初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!Tetsutaro Watanabe
 
AWSではじめるMLOps
AWSではじめるMLOpsAWSではじめるMLOps
AWSではじめるMLOpsMariOhbuchi
 
DockerコンテナでGitを使う
DockerコンテナでGitを使うDockerコンテナでGitを使う
DockerコンテナでGitを使うKazuhiro Suga
 
オントロジー研究20年の歩みと今後の展望
オントロジー研究20年の歩みと今後の展望オントロジー研究20年の歩みと今後の展望
オントロジー研究20年の歩みと今後の展望Kouji Kozaki
 
テスト文字列に「うんこ」と入れるな
テスト文字列に「うんこ」と入れるなテスト文字列に「うんこ」と入れるな
テスト文字列に「うんこ」と入れるなKentaro Matsui
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
ナレッジグラフ入門
ナレッジグラフ入門ナレッジグラフ入門
ナレッジグラフ入門KnowledgeGraph
 
SAT/SMTソルバの仕組み
SAT/SMTソルバの仕組みSAT/SMTソルバの仕組み
SAT/SMTソルバの仕組みMasahiro Sakai
 
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
Surveyから始まる研究者への道 - Stand on the shoulders of giants -Surveyから始まる研究者への道 - Stand on the shoulders of giants -
Surveyから始まる研究者への道 - Stand on the shoulders of giants -諒介 荒木
 
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのかTechon Organization
 
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!mosa siru
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 

What's hot (20)

協調フィルタリング入門
協調フィルタリング入門協調フィルタリング入門
協調フィルタリング入門
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
“機械学習の説明”の信頼性
“機械学習の説明”の信頼性“機械学習の説明”の信頼性
“機械学習の説明”の信頼性
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
 
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
 
初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!
 
AWSではじめるMLOps
AWSではじめるMLOpsAWSではじめるMLOps
AWSではじめるMLOps
 
DockerコンテナでGitを使う
DockerコンテナでGitを使うDockerコンテナでGitを使う
DockerコンテナでGitを使う
 
セマンティックWebとオントロジー:現状と将来展望
セマンティックWebとオントロジー:現状と将来展望 セマンティックWebとオントロジー:現状と将来展望
セマンティックWebとオントロジー:現状と将来展望
 
オントロジー研究20年の歩みと今後の展望
オントロジー研究20年の歩みと今後の展望オントロジー研究20年の歩みと今後の展望
オントロジー研究20年の歩みと今後の展望
 
テスト文字列に「うんこ」と入れるな
テスト文字列に「うんこ」と入れるなテスト文字列に「うんこ」と入れるな
テスト文字列に「うんこ」と入れるな
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
Marp Tutorial
Marp TutorialMarp Tutorial
Marp Tutorial
 
ナレッジグラフ入門
ナレッジグラフ入門ナレッジグラフ入門
ナレッジグラフ入門
 
SAT/SMTソルバの仕組み
SAT/SMTソルバの仕組みSAT/SMTソルバの仕組み
SAT/SMTソルバの仕組み
 
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
Surveyから始まる研究者への道 - Stand on the shoulders of giants -Surveyから始まる研究者への道 - Stand on the shoulders of giants -
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
 
ゼロから始める転移学習
ゼロから始める転移学習ゼロから始める転移学習
ゼロから始める転移学習
 
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
 
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 

Viewers also liked

類義語検索と類義語ハイライト
類義語検索と類義語ハイライト類義語検索と類義語ハイライト
類義語検索と類義語ハイライトShinichiro Abe
 
自然言語処理における機械学習による曖昧性解消入門
自然言語処理における機械学習による曖昧性解消入門自然言語処理における機械学習による曖昧性解消入門
自然言語処理における機械学習による曖昧性解消入門Koji Sekiguchi
 
n-gramコーパスを用いた類義語自動獲得手法について
n-gramコーパスを用いた類義語自動獲得手法についてn-gramコーパスを用いた類義語自動獲得手法について
n-gramコーパスを用いた類義語自動獲得手法についてmoai kids
 
Lucene terms extraction
Lucene terms extractionLucene terms extraction
Lucene terms extractionKoji Sekiguchi
 
【JSLGG】お手軽watsonアプリ開発セミナー
【JSLGG】お手軽watsonアプリ開発セミナー【JSLGG】お手軽watsonアプリ開発セミナー
【JSLGG】お手軽watsonアプリ開発セミナーsoftlayerjp
 
Getting Started Japanese Search and Calculate Similarity with Apache Lucene
Getting Started Japanese Search and Calculate Similarity with Apache LuceneGetting Started Japanese Search and Calculate Similarity with Apache Lucene
Getting Started Japanese Search and Calculate Similarity with Apache LuceneEiji Shinohara
 
コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用Koji Sekiguchi
 
ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術JustSystems Corporation
 
自然言語処理 Word2vec
自然言語処理 Word2vec自然言語処理 Word2vec
自然言語処理 Word2vecnaoto moriyama
 
R による文書分類入門
R による文書分類入門R による文書分類入門
R による文書分類入門Takeshi Arabiki
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual TalksYuya Unno
 

Viewers also liked (14)

類義語検索と類義語ハイライト
類義語検索と類義語ハイライト類義語検索と類義語ハイライト
類義語検索と類義語ハイライト
 
自然言語処理における機械学習による曖昧性解消入門
自然言語処理における機械学習による曖昧性解消入門自然言語処理における機械学習による曖昧性解消入門
自然言語処理における機械学習による曖昧性解消入門
 
n-gramコーパスを用いた類義語自動獲得手法について
n-gramコーパスを用いた類義語自動獲得手法についてn-gramコーパスを用いた類義語自動獲得手法について
n-gramコーパスを用いた類義語自動獲得手法について
 
Lucene terms extraction
Lucene terms extractionLucene terms extraction
Lucene terms extraction
 
JMAT Groonga Tokenizer Talks
JMAT Groonga  Tokenizer TalksJMAT Groonga  Tokenizer Talks
JMAT Groonga Tokenizer Talks
 
【JSLGG】お手軽watsonアプリ開発セミナー
【JSLGG】お手軽watsonアプリ開発セミナー【JSLGG】お手軽watsonアプリ開発セミナー
【JSLGG】お手軽watsonアプリ開発セミナー
 
Getting Started Japanese Search and Calculate Similarity with Apache Lucene
Getting Started Japanese Search and Calculate Similarity with Apache LuceneGetting Started Japanese Search and Calculate Similarity with Apache Lucene
Getting Started Japanese Search and Calculate Similarity with Apache Lucene
 
コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用
 
HMM viterbi
HMM viterbiHMM viterbi
HMM viterbi
 
ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術
 
自然言語処理 Word2vec
自然言語処理 Word2vec自然言語処理 Word2vec
自然言語処理 Word2vec
 
R による文書分類入門
R による文書分類入門R による文書分類入門
R による文書分類入門
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
 

More from Koji Sekiguchi

20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdfKoji Sekiguchi
 
Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出Koji Sekiguchi
 
Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1Koji Sekiguchi
 
Lucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boostLucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boostKoji Sekiguchi
 
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習Koji Sekiguchi
 
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)Koji Sekiguchi
 
An Introduction to NLP4L
An Introduction to NLP4LAn Introduction to NLP4L
An Introduction to NLP4LKoji Sekiguchi
 
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用までKoji Sekiguchi
 
LUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizerLUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizerKoji Sekiguchi
 
情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介Koji Sekiguchi
 
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出Koji Sekiguchi
 
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョンLuceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョンKoji Sekiguchi
 
Visualize terms network in Lucene index
Visualize terms network in Lucene indexVisualize terms network in Lucene index
Visualize terms network in Lucene indexKoji Sekiguchi
 
OpenNLP - MEM and Perceptron
OpenNLP - MEM and PerceptronOpenNLP - MEM and Perceptron
OpenNLP - MEM and PerceptronKoji Sekiguchi
 
Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0Koji Sekiguchi
 
Pre rondhuit-naming-story
Pre rondhuit-naming-storyPre rondhuit-naming-story
Pre rondhuit-naming-storyKoji Sekiguchi
 

More from Koji Sekiguchi (20)

20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
 
Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出
 
Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1
 
Lucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boostLucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boost
 
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
 
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
 
An Introduction to NLP4L
An Introduction to NLP4LAn Introduction to NLP4L
An Introduction to NLP4L
 
Nlp4 l intro-20150513
Nlp4 l intro-20150513Nlp4 l intro-20150513
Nlp4 l intro-20150513
 
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで
 
LUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizerLUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizer
 
情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介
 
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
 
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョンLuceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
 
Html noise reduction
Html noise reductionHtml noise reduction
Html noise reduction
 
Visualize terms network in Lucene index
Visualize terms network in Lucene indexVisualize terms network in Lucene index
Visualize terms network in Lucene index
 
NLP x Lucene/Solr
NLP x Lucene/SolrNLP x Lucene/Solr
NLP x Lucene/Solr
 
OpenNLP - MEM and Perceptron
OpenNLP - MEM and PerceptronOpenNLP - MEM and Perceptron
OpenNLP - MEM and Perceptron
 
Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0
 
Pre rondhuit-naming-story
Pre rondhuit-naming-storyPre rondhuit-naming-story
Pre rondhuit-naming-story
 
Lu solr32 34-20110912
Lu solr32 34-20110912Lu solr32 34-20110912
Lu solr32 34-20110912
 

WikipediaからのSolr用類義語辞書の自動生成

  • 2. # 類義語知識 見出し語1, 類義語11, 類義語12 見出し語2, 類義語21, 類義語22, 類義語23 : Copyright (c) 2012 RONDHUIT Co.,Ltd. 2
  • 3. Copyright (c) 2012 RONDHUIT Co.,Ltd. 3
  • 4. 自動車損害賠償責任保険, 自賠責保険 すべての運転者は、自賠責保険への加入が義務づけられています。 すべての運転者は、自動車損害賠償責任保険への加入が義務づけられています。 Copyright (c) 2012 RONDHUIT Co.,Ltd. 4
  • 5. Copyright (c) 2012 RONDHUIT Co.,Ltd. 5
  • 6. 見出し語(=原型語) 類義語(=略語、日本語版頭字語) 入国管理局 入管 文房具 文具 社員食堂 社食 国際連盟 国連 リポビタンD リポD ベルサイユのばら ベルばら 木村拓哉 キムタク Universal Serial Bus USB (日本語における頭字語の例) Copyright (c) 2012 RONDHUIT Co.,Ltd. 6
  • 7. 辞書型コーパス (見出し語,説明)× M 項目 設定ファイル <類義語知識の獲得> すべての見出し語に関し以下を ループ処理 Lucene/Solr インデックス 1. 類義語候補tBの同定 インデックス作成 2. 見出し語tAと類義語候補tBの 類似度S(tA, tB)の計算 3. 類似ならば出力 • • • 説見見 明出出 しし 語語 の 読 CSVファイル み Copyright (c) 2012 RONDHUIT Co.,Ltd. 7
  • 8. Copyright (c) 2012 RONDHUIT Co.,Ltd. 8
  • 10. Copyright (c) 2012 RONDHUIT Co.,Ltd. 10
  • 11. wX(t)は記事AX中のタームtの重みで、tfX(t)とidf(t)を用いて以下のように算出される。 fX(t)は記事AX中にタームtが 出現する回数。 numDocsは記事のエントリ数(=M)。 docFreq(t)はタームtを含む記事数。 Copyright (c) 2012 RONDHUIT Co.,Ltd. 11
  • 12. CN なし あり あり 類似度計算 あり あり あり min.score 0.004 0.004 0.002 抽出件数 14,065 11,219 11,282 誤りの例 国道250号, 国道2号 古代エジプト文学, コプト ビアホール, ビール ( 精度 0.40 0.58 0.79 * 2 再現率 0.80 1.00 1.00 ) F値 0.53 0.73 0.88 (参考*1) 処理時間(sec) (未計測) 11,018 8,783 (*1)プログラム実行中に他の処理を並行して行っていたため、あくまでも参考値である。 (*2)こちらも、サンプル数が非常に少ないので、あくまでも参考値である。 (注)類似度計算ありの場合、特徴ベクトル算出のための各種パラメータは: dicword.acronyms.vector.min.tf=2 dicword.acronyms.origin.vector.size=40 dicword.acronyms.user.docs.size=10 dicword.acronyms.user.vector.size=10 Wikipedia項目総数(=M):848,970 Copyright (c) 2012 RONDHUIT Co.,Ltd. 12
  • 13. Copyright (c) 2012 RONDHUIT Co.,Ltd. 13
  • 14. Copyright (c) 2012 RONDHUIT Co.,Ltd. 14
  • 15. ジャンル 見出し語 類義語 生活 ファミリーマート ファミマ ファミリーレストラン ファミレス ミスタードーナツ ミスド 簡易保険 簡保 京浜急行電鉄 京急 セロハンテープ セロテープ 油揚げ アブラゲ エビのチリソース エビチリ ビーフステーキ ビフテキ, ビステキ アメヤ横丁 アメ横 Copyright (c) 2012 RONDHUIT Co.,Ltd. 15
  • 16. ジャンル 見出し語 類義語 文化/芸能 サンデージャポン サンジャポ ナインティナイン ナイナイ エレファントカシマシ エレカシ オリエンタルラジオ オリラジ テツandトモ テツトモ モーニング娘。 モー娘, モー娘。 ロンドンハーツ ロンハー プリンセス・プリンセス プリプリ 外国人タレント 外タレ 週刊少年チャンピオン 週チャン 週刊少年マガジン 週マガ 東京スポーツ 東スポ ゴーマニズム宣言 ゴー宣 Copyright (c) 2012 RONDHUIT Co.,Ltd. 16
  • 17. ジャンル 見出し語 類義語 人名 藤岡琢也 フジタク 柴田錬三郎 シバレン ケンドーコバヤシ ケンコバ 木村拓哉 キムタク 浜田省吾 浜省 松本潤 松潤 堀内健 ホリケン 豊川悦司 トヨエツ 松山ケンイチ 松ケン 松平健 マツケン ブラッド・ピット ブラピ ジョニー・デップ ジョニデ Copyright (c) 2012 RONDHUIT Co.,Ltd. 17
  • 18. ジャンル 見出し語 類義語 IT File Transfer Protocol FTP World Wide Web WWW Document Object Model DOM Read Only Memory ROM Cascading Style Sheets CSS Domain Name System DNS Local Area Newtowk LAN ワードプロセッサ ワープロ フリーソフトウェア フリーウェア OSI参照モデル OSIモデル コピー・アンド・ペースト コピペ ブックマーク ブクマ スラッシュドット スラド Copyright (c) 2012 RONDHUIT Co.,Ltd. 18
  • 19. ジャンル 見出し語 類義語 組織名 経済産業省 経産省 農林水産省 農林省, 農水省 テレビ東京 テレ東 マツモトキヨシ マツキヨ 生活協同組合 生協 長期信用銀行 長信銀, 長銀 近畿日本ツーリスト 近ツリ, 近ツー 東京電力 東電 関西電力 関電 日本弁護士連合会 日弁連 日本体育大学 日体, 日体大 日本ペイント ニッペ Copyright (c) 2012 RONDHUIT Co.,Ltd. 19
  • 20. ジャンル 見出し語 類義語 サイエンス/エ 線型部分空間 線型空間 ンジニアリング ハミルトン閉路問題 ハミルトン路問題 エネルギー保存の法則 エネルギー保存則 エンジニアリングプラスチック エンプラ 電気分解 電解 有機化合物 有機物 塩化カルシウム 塩カル 水素爆弾 水爆 Copyright (c) 2012 RONDHUIT Co.,Ltd. 20
  • 21. ジャンル 見出し語 類義語 建築/施設 丸の内ビルディング 丸ビル 新丸の内ビルディング 新丸ビル 大阪シティドーム 大阪ドーム ナゴヤドーム ナゴド ゲーム ドラゴンクエスト ドラクエ オンラインゲーム オンゲー スーパーマリオブラザーズ スーマリ スーパーファミコン スーファミ NINTENDO64 N64 ウイニングイレブン ウイイレ 一気通貫 一通 Copyright (c) 2012 RONDHUIT Co.,Ltd. 21
  • 22. ジャンル 見出し語 類義語 ビジネス 約束手形 約手 為替手形 為手 外国為替 外為 社会保険労務士 社労士 投資信託 投信 スポーツ セントラル・リーグ セ・リーグ パシフィック・リーグ パリーグ, パ・リーグ セレッソ大阪 セ大阪 グランドチャンピオン決定戦競走 グラチャン 日本テレビ盃 日本テレ盃 Copyright (c) 2012 RONDHUIT Co.,Ltd. 22
  • 23. ジャンル 見出し語 類義語 表記揺れ スパゲッティ スパゲティ 葉巻きタバコ 葉巻タバコ 接ぎ木 接木 インディペンデント インデペンデント 釣り竿 釣竿 踊り子 踊子 Copyright (c) 2012 RONDHUIT Co.,Ltd. 23
  • 24. 見出し語 獲得できない類義語 誤り抽出 スマートフォン スマホ(抽出できない) 「スマフォ」は抽出でき た マンチェスター・ユナイ マンU テッドFC 酒井法子 のりピー Mr.Children ミスチル 国際通貨基金 IMF こちら葛飾区亀有公園前 こち亀 派出所 十六進法 十進法 キリン一番搾り生ビール キリンビール 準々決勝 準決勝 Copyright (c) 2012 RONDHUIT Co.,Ltd. 24
  • 25. クラス名 用途 MappingCharFilter 形態素解析器 JapaneseTokenizer 見出し語の読み変換 (GosenTokenizer) IndexReader 見出し語や類義語候補の探索 Terms 記事中のタームの出現回数のカウント TermsEnum BytesRef IndexSearcher 類義語候補を含む記事の検索 Query TopDocs Bits Luceneドキュメントの死活確認 PriorityQueue 記事特徴ベクトルの抽出 Copyright (c) 2012 RONDHUIT Co.,Ltd. 25
  • 26. Copyright (c) 2012 RONDHUIT Co.,Ltd. 26
  • 27. Copyright (c) 2012 RONDHUIT Co.,Ltd. 27