はじめてのElasticsearchクラスタ

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 1
JJUG ナイトセミナー「Elasticsearch特集」
はじめてのElasticsearchクラスタ
2018-07-25
Acroquest Technology
束野仁政(つかのさとゆき)

自己紹介
• 束野仁政(つかのさとゆき)
• 仕事
1. Elasticsearch関連(コンサル, 設計, 構築, 運用)
800億件、100TBのクラスタ運用経験あり
Elastic{ON} 2018 San Franciscoに参加
2. 分散処理・ビッグデータ関連(Hadoop, Spark等)
3. データ分析・機械学習関連
https://qiita.com/snuffkin
http://qiita.com/snuffkin/items/19b33797b8b5f828b1b6
Elasticsearch勉強会の
発表資料まとめ
@snuffkin

Acroquest Technology
• Elastic社のパートナー
http://www.acroquest.co.jp/elastic/
• Elasticテクニカルワークショップ
https://info.elastic.co/japan-technical-workshop.html
• GPTW「働きがいのある会社」ランキング1位
• Java本格入門
～モダンスタイルによる基礎から
オブジェクト指向・実用ライブラリまで
技術評論社
 現場で使える実践的な内容が詰まっています

このセッションの内容
背景
1. Elasticsearchは分散型のデータストアで、
クラスタ化することにより大量のデータを高速に処理できる
2. Elasticsearchはカジュアルに動かせるが、
設計すべきことをやらずに本番運用に入るのはトラブルの元
前半
 分散システムの視点から見たElasticsearchクラスタの仕組み
後半
 安全なクラスタにするために本番運用前にやっておくべきこと
この資料はElasticsearch6.3をベースに作成してます

目次
前半: Elasticsearchクラスタの仕組み
1. ノードの種類
2. シャードとレプリカ
3. インデクシングの流れ
4. 検索の流れ
5. Data nodeの障害検出
後半: 本番運用前にやっておくべきこと
1. シャード設計
2. レプリカ設計
3. マッピング設計
4. ディスクサイズ設計
5. スプリットブレイン対策

Elasticsearchクラスタの仕組み

ノードの種類
4. 検索の流れ

ノードの種類
1. ノード=Elasticsearchのプロセス
2. その他にも何種類かありますが、今回は説明を省きます
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 2
Primary
Data node 2
Shard 1
Replica
Data node 3
Shard 0
Replica
Shard 1
Primary
Data node 4
Coordinating node Master-eligible node
Master

ノードの種類
No. ノードの種類役割
1 Master-eligible
node
クラスタ全体の処理(※)を行うノードをMaster nodeと
呼ぶ。
Master nodeの候補となるノードをMaster-eligible
nodeと呼び、この中から1ノードがMaster nodeに選出
される。
※クラスタの状態管理、シャードの割り当てなど
2 Data node Elasticsearchのデータを保持するノード。データを保持
し、クエリに対応した結果を返す。
3 Coordinating node 検索リクエストやインデクシングリクエストなどを受け
付けるノード。
すべてのノードはCoordinating nodeとしての機能を持
つ。
4 Coordinating only
node(Client node)
Coordinating nodeの役割のみのノード。
1ノードが複数の種類を兼任できます

シャードとレプリカ
4. 検索の流れ

シャード、レプリカとは？
Elasticsearchのデータ階層
 インデックス(RDBのテーブルに近い概念)
 シャード(RDBのパーティションに近い概念)
1インデックスを複数シャードで構成することにより、
次の効果がある。
1. 処理のスケール
2. 冗長化による耐障害性の確保

シャード、レプリカとは？～処理のスケール
インデックスのデータをシャードに分散して保持して
いるため、並列処理を行うことができる
この例では3並列で検索が可能
Coordinating node
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3

シャード、レプリカとは？
～冗長化による耐障害性の確保
Data Node 3が故障しても、コピーがあるため、
別ノードのシャードを利用して処理を継続
Coordinating node
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3

シャード、レプリカに関連する主な機能
1. インデックス単位でシャード数、レプリカ数を
設定可能
 シャード数はインデックス作成後に変更できない
2. レプリケーショングループ
 同じシャード番号同士でレプリケーション
3. シャード単位で処理することの注意点
 Aggregation等の処理はシャード単位で実行した結果をマ
ージする

インデックス単位でシャード数、レプリカ数を設
定可能
• シャード数はインデックス作成後に変更できない
(再インデックスが必要)
• レプリカ数はインデックス作成後でも変更可能
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3
• デフォルトではシャード数=5, レプリカ数=1
• REST APIで変更可能
インデックスA (シャード数=3, レプリカ数=1)
Shard 0
Primary
Shard 0
Replica
Shard 0
Replica
インデックスB (シャード数=1, レプリカ数=2)

レプリケーショングループ
Shard 0のレプリケーショングループ
(同一シャード番号)
Coordinating node
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3
• 同一レプリケーショングループのデータは別ノードに配置される
• 「レプリカ数 ≧ ノード数」に設定しても、ディスクアクセスを並列化できなければ
性能を向上できない

シャード単位で処理することの注意点
• Aggregation等は、まずシャード単位で実行し、各シャード
の実行結果をマージし、クライアントに返す
• そのため、処理によっては正確な結果にならない場合がある
Coordinating node
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3
各シャードの実行結果をマージ
シャード単位の実行結果

インデクシングの流れ
4. 検索の流れ

インデクシングの流れ～概要
Elasticseachクラスタ内でのインデクシング処理の流れ
1. クライアントからのリクエストを受けたCoordinating
nodeはインデクシング先のシャード番号を決める
2. Coordinating nodeはPrimaryシャードにインデクシン
グをリクエストする
3. Primaryシャードは、インデクシングを行う
4. Replicaシャードは、並列でインデクシングを行う
5. Replicaシャードは、Primaryシャードにレスポンスを返
す
6. Primaryシャードに全Replicaシャードからレスポンスが
返ってきたら、Coordinating nodeにレスポンスを返す
7. Coordinating nodeはクライアントにレスポンスを返す

インデクシングの流れ(1/8)
• クライアントからのリクエストを受けたCoordinating
nodeはインデクシング先のシャード番号を決める。
• シャード番号 = hash(document_id) % シャード数
この場合はシャード数=3
Coordinating node
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3
①シャード番号を決定

• Coordinating nodeはPrimaryシャードにインデク
シングをリクエストする
Coordinating node
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3
①シャード番号を決定②Primaryシャードにリクエスト

• Primaryシャードはインデクシングを行う
Coordinating node
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3
③インデクシング

• Replicaシャードにインデクシングをリクエストする
• 全Replicaシャードに並列でリクエストする
(この場合は、Replica数=1なので、1並列)
Coordinating node
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3
④Replicaシャードにリクエスト
③インデクシング

• Replicaシャードにインデクシングを行う
Coordinating node
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3
③インデクシング ⑤インデクシング

• Primaryシャードにレスポンスを返す
Coordinating node
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3
⑥レスポンス

• 全Replicaシャードからレスポンスが返ってきたら、
Coordinating nodeにレスポンスを返す
Coordinating node
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3
⑥レスポンス
⑦レスポンス

• Coordinating nodeはクライアントにレスポンスを
返す
Coordinating node
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3
⑥レスポンス
⑦レスポンス

検索の流れ
4. 検索の流れ

検索の流れ～概要
Elasticseachクラスタ内での検索処理の流れ
Query Phase
1. Coordinating nodeは各シャードにリクエスト
2. 各シャード内で検索を行う
Fetch Phase
3. 各シャードの検索結果をCoordinating nodeに返す
4. Coordinating nodeが各シャードからの検索結果を
マージし、クライアントにレスポンスを返す

検索の流れ(1/4)
• Coordinating nodeは全レプリケーショングループ
から1シャードずつ選び、リクエストする
Coordinating node
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3
①各シャードにリクエスト
①
①
Shard 0の
Shard 1の
Shard 2の

• 各シャード内で検索を行う
Coordinating node
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3
①
①
②シャード内で検索 ②シャード内で検索 ②シャード内で検索

• 各シャードの検索結果をCoordinating nodeに返す
Coordinating node
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3
③検索結果 ③ ③①
①

• Coordinating nodeが各シャードからの検索結果を
マージし、クライアントにレスポンスを返す
Coordinating node
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3
④各シャードの検索結果をマージ
③ ③①
①
③検索結果

検索にかかる時間
検索にかかる時間
• Query Phaseの時間 + Fetch Phaseの時間
= 検索が一番遅いシャードの処理時間 + マージ時間
Coordinating node
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3
④各シャードの検索結果をマージ
③ ③①
①
③検索結果

DATA NODEの障害検出
4. 検索の流れ

クラスタ状態
1. インデックス単位の状態には、次の種類がある
2. クラスタ全体の状態は、
インデックス単位の状態の最悪値になる
3. 具体的な状態(status)はREST APIで確認可能
状態内容
green 正常な状態
yellow 割り当てられていないレプリカシャードあり
red 割り当てられていないシャードあり
GET _cluster/health/インデックス名
GET _cluster/health
インデックス
単位
クラスタ
全体

Data Nodeの障害検出の流れ(1/5)
• Master nodeは各ノードにヘルスチェックを行う
• ヘルスチェック間隔は1s
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 2
Primary
Data node 2
Shard 0
Replica
Shard 1
Primary
Data node 4
Master
Shard 1
Replica
Data node 3

• Data nodeに障害が発生する
• タイムアウト30s×3回連続でヘルスチェックに失敗すると、
Master nodeは「Data nodeに障害が発生した」と認識する
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 2
Primary
Data node 2
Shard 0
Replica
Shard 1
Primary
Data node 4
Master
①障害検知
Shard 1
Replica
Data node 3

• 障害検出したノードが保持するデータを復旧させたい
• ただ、Data nodeがすぐに復旧するケースに備え、
Master nodeは1分間待機する
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 2
Primary
Data node 2
Shard 0
Replica
Shard 1
Primary
Data node 4
Master
①障害検知
②1分間待機
Shard 1
Replica
Data node 3

Shard 1
R→P
Data node 3
• 障害により失われたプライマリシャード(ここではShard 1)を復旧させる
• レプリカシャードの1つをプライマリシャードに変更する
• これは状態更新のみのため、即完了する
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 2
Primary
Data node 2
Shard 0
Replica
Shard 1
Primary
Data node 4
Master
①障害検知
②1分間待機
③プライマリシャードの復旧

Shard 1
Primary
Data node 3
• 障害により失われたレプリカシャード(ここではShard 0, 1)を復旧させる
• プライマリシャードを別ノードにコピーし、レプリカシャードとする
• コピーに時間がかかる可能性あり
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 2
Primary
Data node 2
Shard 0
Replica
Shard 1
Primary
Data node 4
Master
①障害検知
②1分間待機
Shard 0
Replica
④レプリカシャードの復旧
③プライマリシャードの復旧Shard 1
Replica

本番運用前にやっておくべきこと

シャード設計

問題
何ヶ月か本番運用していたら、不安定になってきた。
• レスポンスが遅くなることが増えた
• FullGCが頻発するようになった
• 毎朝9時頃に不安定になる
シャード数が多すぎませんか？

よくある原因と解決策
1. Elasticsearchはある程度シャード数に依存してメモリを使用する
2. シャード設計には経験則がある
多すぎる場合はシャード数を減らすこと
ヒープサイズが30GBの場合の最大シャード数の目安
 1ノードあたりの600-750個
How many shards should I have in my Elasticsearch cluster?
https://www.elastic.co/blog/how-many-shards-should-i-have-in-my-elasticsearch-cluster
例)
シャード数=5、レプリカ数=1で、5種類のインデックスを日毎に分けて
30日間運用した場合
 5(シャード数)×2(プライマリとレプリカ)×5(種類)×30(日数)=1500

レプリカ設計

問題
1台のサーバで運用しているのですが、
クラスタ状態がいつもyellowになっています
レプリカ数がデフォルト設定？

1. プライマリシャードとレプリカシャードは別ノード
に配置される
 同一ノードに配置できない
2. Elasticsearchのレプリカ数はデフォルト1
 デフォルト設定だと、レプリカを作ろうとする
Shard 0
Primary
Data node 1
Shard 0
Replica
Data node 2
プライマリシャードとレプリカシャードの配置

2. 1ノードで運用しているとレプリカを作成できない
 クラスタ状態がいつもyellowになる
3. 1ノードで運用する場合、レプリカ数=0にする
 インデックス毎の設定 index.number_of_replicas
Shard 0
Primary
Data node 1
Shard 0
Replica
プライマリシャードとレプリカシャードの配置
Shard 0
Primary
Data node 1

マッピング設計

問題
インデクシング時にパースエラーとなる
• 文字列型のはずのフィールドでパースエラー
マッピング定義していない？

1. マッピング定義(RDBのスキーマ定義)を行わない場合、
最初にインデクシングするデータから、型を自動判定する
(インデックス毎に行われる)
例)
マッピング定義がないフィールドに「1230」というデータを
インデクシングする
 数値型と判定される
その後、「123a」というデータ(16進数表記の文字列)をイ
ンデクシングしようとしてパースエラーが発生
2. このような事故を防ぐには、
マッピング定義をしておいた方が良い

ディスクサイズ設計

問題
ディスクは余っているが、
Elasticsearchに書き込みできなくなった
ディスクのサイジングは大丈夫？

ディスク使用率には、3段階のwatermark設定がある
1. low デフォルト値は85％
この値を超えると、そのノードには新規シャードを作成しない。
(既に存在するシャードには書き込みできる)
2. high デフォルト値は90％
この値を超えると、別ノードにシャードを再配置する。
(「再配置する速度 < 書き込み速度」の場合、ディスク使用率は上昇する)
3. flood_stage デフォルト値は95%
この値を超えると、read-onlyインデックスになる。
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3
ディスク使用率を考慮し、ディスクフルを防ぐ仕組みがある
82% 87% 92%
新規シャードを割り当て可能新規シャードを割り当てない別ノードにシャードを再配置

1. レプリカを考慮に入れる
2. 1ノード停止しても、他のノードでデータを持てる
3. Elasticsearchの内部処理を行うための余裕が必要
① シャード再配置
② Elasticsearchのデータファイルは追記型のため、マー
ジする領域が必要(≒データファイルのデフラグ)
Shard 0
Primary
Shard 2
Replica
Data node 1
Shard 0
Replica
Shard 1
Replica
Data node 2
Shard 1
Primary
Shard 2
Primary
Data node 3
ディスクのサイジングを行うときの注意点
82% 87% 92%
新規シャードを割り当て可能新規シャードを割り当てない別ノードにシャードを再配置

スプリットブレイン対策

問題
一部のデータが消えた？
ログを見たら、シャードが重複しているメッセージが出
ている
スプリットブレイン対策していない？

次のケースでは、Master nodeが2台になってしまい、
矛盾した処理を行う危険性がある
Master
Master
Master Master
Master nodeにヘルスチェック
Master nodeは正常だが、ネッ
トワーク障害により、ヘルスチェック
が失敗
Master nodeに障害が発生し
たと思い込み、別のノードが
Master nodeになる
このような現象を「スプリットブレイン」と言う
Node 1 Node 2
Node 1 Node 2
Node 1 Node 2
①
②
③

過半数以上のMaster-eligible nodeを確認可能なとき
だけ、Master nodeになれるようにする
Master
過半数(この場合は2ノード)確認できず、
Node 2はMasterになれない
Node 1はMasterのまま
Master
過半数確認できず、
Masterになれない
過半数確認し、
Masterになる
Master
過半数確認できず、
Masterをやめる
Node 1 Node 2
Node 1 Node 2
Node 3
Node 3
過半数(この場合は2ノード)確認し、
Node 2(or Node 3)は
Masterになる
Node 1はMasterをやめる

1. Master-eligible nodeは3以上の奇数台用意する
2. 最低限必要なMaster-eligible nodeの台数を
elasticsearch.ymlの
discovery.zen.minimum_master_nodesに設定
する
3. 次の値を設定すること(小数点は切り捨て)
(Master-eligible nodeの台数 / 2) + 1

Q & A

ご清聴ありがとうございました。
Infrastructures Evolution

はじめてのElasticsearchクラスタ

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to はじめてのElasticsearchクラスタ

Similar to はじめてのElasticsearchクラスタ (20)

More from Satoyuki Tsukano

More from Satoyuki Tsukano (10)

はじめてのElasticsearchクラスタ