More Related Content Similar to Solr 4.0 の主な機能 Similar to Solr 4.0 の主な機能 (20) Solr 4.0 の主な機能2. 自己紹介
㈱ロンウイットの社員です。
5月のLucene Revolutionに参加しました。
Apache ManifoldCFのコミッタです。
Yonik氏と弊社社員
3. 本日のテーマ
Solr 4.0 の主要機能の概要
Apache ManifoldCFの状況
4. Solr 4.0 の主要機能
プラガブルなシミラリティクラス
FST対応
Codecプラグイン
NRT
PivotFacet
pseudo-join
SolrCloud
・3.6は3.x系の最後
・4.0は年内、alphaは7/3リリース
5. Similarity
いろんなランキングアルゴリズムに差し替え可能
参考 Lucene 4.0のスコア計算
http://www.slideshare.net/KojiSekiguchi/similarity-functions-in-lucene-
40-12652624
・Okapi BM25 Model
・Language Models
・Divergence from Randomness Models
・Information-based Models
6. Finite State Automata/Transducer
・FSAおよびFSTによる実装 参考URL:
文脈を判断する状態遷移アルゴリズム http://blog.mikemccandless.com/20
Lucene実装でfast、Low メモリを実現 10/12/using-finite-state-
TokenstreamはFSAで実装 transducers-in.html
http://blog.mikemccandless.com/20
・実装しているところ 12/04/lucenes-tokenstreams-are-
FuzzyQuery actually.html
WildcardQuery
RegexpQuery
DirectSolrSpellchecker
SynonymFilter
JapaneseTokenizer(辞書、複合語トークナイズ)
・作業中
MappingCharFilter
7. Codec
Codecが差し替え可能
・Standard: Lucene4.0 index format
・“Appending” works with append-only filesystems (such as Hadoop DFS)
・“Memory” writes the entire terms+postings as an FST read into RAM
・“Pulsing” inlines the postings for low-frequency terms into the term
dictionary
・“SimpleText” writes all files in plain-text for easy debugging/transparency
8. NRT
Near Real Time search
・softCommit ⇔ (hard)Commit
softCommitは、インデックスをリフレッシュして、
更新ドキュメントをすぐに検索可能にします。
JVMクラッシュなどがある場合は、最終ハードコミッ
ト時点に戻ります。
それまでの更新は失われます。
11. Join
製品を探して、製品詳細を絞り込む
fq={!join from=product to=product_item}product:T-shirts
製品詳細を探して、製品を絞り込む
fq={!join from=product_item
to=product}product_item:item2
12. SolrCloud
・要件
・インデックスを複数台で分散配置させたい。
→従来は複数台へのインデクシングを実装する必要があった
・インデックスを持つSolrサーバがダウンしていた
り接続できない場合に、自動フェイルオーバーした
い。
→従来はロードバランサを構成しないと分散検索は失敗した
・Master/Slave環境で設定を一元管理したい。
→従来は設定ファイルの管理が煩雑だった
・リアルタイムインデクシングとリアルタイム検
索。
→従来はレプリケーションにタイムラグがあった
14. SolrCloud
Leader
java -Dbootstrap_conf=true -DnumShards=2 ¥
-DzkHost=ZKServer:port -jar start.jar
各ノードの追加:
java -DzkHost=ZKServer:port -jar start.jar
15. SolrCloud
・検索時、通常の検索リクエストで、各シャードにリクエストされ
る。
(SolrJならCloudSolrServer)
・インデクシング時、
登録リクエストがReplicaに投げられたら、Leaderに投げる。
リクエストがLeaderに投げられたら、ハッシュを計算して
どこのシャードに渡すか決める。そのシャードのLeaderに転送す
る。
その後Replicaに転送。インデクシングを行う。
17. ManifoldCFの状況
Solrに統合できるwebクローラ・ファイルサーバク
ローラ
5月にincubator→TLP
http://manifoldcf.apache.org/
0.5.1 0.6は7月の模様
MySQL, i18n
Alfresco Connector, ElasticSearch Connector
SolrPlugin forEnterprise Search
18. ManifoldCFのSolrPlugin
MCF Security SearchComponent
http://../solr/select?q=*:*&AuthenticatedUserName=u
sername@domain
20. ロンウイット の紹介
Solrサブスクリプション
日本語処理プラグイン(各種CharFilterやTokenizerなど)
javadochttp://www.rondhuit-dev.com/RCSS/api/
検索語サジェスチョン、パーソナライズ検索、固有表現抽出、リアルタイム在庫検索
http://www.rondhuit.com/日本語「もしかして」検索について.html
http://www.rondhuit.com/リアルタイムクラスタリングについて.html
Soleami Solrクエリログ解析サービス
http://soleami.com/ja
Solr、ManifoldCFは熱いです!技術者を募集しています!
http://www.rondhuit.com/
sales@rondhuit.com