SLOのすすめ
- 2. 自己紹介
名前 澤田 武男
Twitter @SawadaTakeo
2013 - 2014 Ads Backend SRE @Google HQ
Display Ads Backend など
2014 - 2017 Source SRE @ Google NY
Piper (Google のプロプライエタリなソースコン
トロールシステム)
Git (Android, Chrome, code.google.com,
Cloud Source Repositories)
ローンチ調整エンジニア (LCE, SRE 本 27 章)
SLO の策定、モニタリング、障害対応、
PRR(SRE 本 32 章) など
2017 - Build SRE @ Dropbox
Changes (内製の CI ツール)
Bazel クラスタ
- 4. 今日の話題
SRE 本第 II 部 原則 から
4 章: 「サービスレベル目標」
外部に直接面していないような
サービスでもサービスレベル目
標を有効に使ってほしい
5 章: 「トイルの撲滅」
- 6. サービスレベル目標とは何か
用語: SLI vs SLO vs SLA
SLI - Service Level Indicator: 指標
例: リクエストの成功率
SLO - Service Level Objective: 目標
例: 各四半期中の全リクエストの成功率は 99.9%以上です。
SLA - Service Level Agreement: 合意
例: SLO が満たされなかった場合、利用料の 50%を返金します。
サービスレベル目標: あるサービスの信頼性についての数値目標
- 11. SLO の定義の色々
例えば “99.9%の Uptime” と言っても...
ある期間中の全てのリクエストとエラーを集計したエラー率
が 0.1%以下
ある期間を数分のウィンドウ単位に分割し、99.9%以上の
ウィンドウでエラー率が x% 以下
ある期間を数分のウィンドウ単位に分割し、各ウィンドウの
エラー率を平均したものが 0.1% 以下
Amazon S3, Google Cloud Storage などがこの形式
サービスの特性、ユーザの期待などに合わせて適切な定義を選ぶ
- 18. トイルの削減: オンコール対応の例
行っている作業を見直し、地道に自動化、改善していくしかない
週に数十以上のページ (アラート) が発生して多大なオンコー
ル対応負荷が生じていた (SRE 本 11 章 11.3 バランスの取れ
たオンコール)
対応
毎週プロダクションミーティングを開催 (SRE 本 31 章 31.1)
その週におきた全てのアラートとその対応をレビュー
重大な障害にはポストモーテムを書き、その後ポストモーテ
ムレビューを実施 (SRE 本 15 章)
場当たり的な修正に変えて
根本的な原因の修正。時間のかかるものはプロジェクト化
他チームのバグの積極的な修正依頼
プレイブック (手順書) の強化
不要なアラートの見直し
数ヶ月の取り組みでページ頻度が 1/5 程度に