Submit Search
Upload
Mackerelのロール内異常検知の設計と運用
•
0 likes
•
726 views
S
syou6162
Follow
MACHINE LEARNING Meetup KANSAI #5での登壇資料です。 https://mlm-kansai.connpass.com/event/131845/
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 41
Download now
Download to read offline
Recommended
第一回SIL勉強会 自然言語処理編での発表資料です。 https://sansan.connpass.com/event/116853/
機械学習を活用したサービスにおける工夫紹介
機械学習を活用したサービスにおける工夫紹介
syou6162
Machine Learning Casual Talks #10での登壇資料です https://mlct.connpass.com/event/125316/
教師なし学習によるMackerelの異常検知機能について〜設計/運用/評価の観点から〜
教師なし学習によるMackerelの異常検知機能について〜設計/運用/評価の観点から〜
syou6162
Mackerel Drink Up #9 Tokyoでの登壇資料です。 https://mackerelio.connpass.com/event/144889/
Mackerel Drink Up #9 ロール内異常検知の正式化
Mackerel Drink Up #9 ロール内異常検知の正式化
syou6162
現在開発中の異常検知機能はこれまでの監視ルールと何が異なるのか、何ができて何はできないのか、はてな社内の実例を元にMackerel Meetup #12でお話した資料です。 https://mackerelio.connpass.com/event/94553/
機械学習を用いたMackerelの異常検知機能について
機械学習を用いたMackerelの異常検知機能について
syou6162
https://mlm-kansai.connpass.com/event/100525/ でのLT登壇資料です。
機械学習を使った趣味サービスにおける工夫紹介
機械学習を使った趣味サービスにおける工夫紹介
syou6162
Black Hat ASIA 2016 Arsenalで展示した診断AI「SAIVS」の概要。 https://www.blackhat.com/asia-16/arsenal.html#saivs-spider-artificial-intelligence-vulnerability-scanner
AISECjp SAIVS(Spider Artificial Intelligence Vulnerability Scanner)
AISECjp SAIVS(Spider Artificial Intelligence Vulnerability Scanner)
Isao Takaesu
2015/11/24 ssmjpで「AIにWebアプリ診断をやらせてみる」と題してLTした際のスライド。
Aiにwebアプリ診断をやらせてみる
Aiにwebアプリ診断をやらせてみる
Isao Takaesu
事例紹介「なうまぴおん」
事例紹介「なうまぴおん」
Eiji Iwazawa
Recommended
第一回SIL勉強会 自然言語処理編での発表資料です。 https://sansan.connpass.com/event/116853/
機械学習を活用したサービスにおける工夫紹介
機械学習を活用したサービスにおける工夫紹介
syou6162
Machine Learning Casual Talks #10での登壇資料です https://mlct.connpass.com/event/125316/
教師なし学習によるMackerelの異常検知機能について〜設計/運用/評価の観点から〜
教師なし学習によるMackerelの異常検知機能について〜設計/運用/評価の観点から〜
syou6162
Mackerel Drink Up #9 Tokyoでの登壇資料です。 https://mackerelio.connpass.com/event/144889/
Mackerel Drink Up #9 ロール内異常検知の正式化
Mackerel Drink Up #9 ロール内異常検知の正式化
syou6162
現在開発中の異常検知機能はこれまでの監視ルールと何が異なるのか、何ができて何はできないのか、はてな社内の実例を元にMackerel Meetup #12でお話した資料です。 https://mackerelio.connpass.com/event/94553/
機械学習を用いたMackerelの異常検知機能について
機械学習を用いたMackerelの異常検知機能について
syou6162
https://mlm-kansai.connpass.com/event/100525/ でのLT登壇資料です。
機械学習を使った趣味サービスにおける工夫紹介
機械学習を使った趣味サービスにおける工夫紹介
syou6162
Black Hat ASIA 2016 Arsenalで展示した診断AI「SAIVS」の概要。 https://www.blackhat.com/asia-16/arsenal.html#saivs-spider-artificial-intelligence-vulnerability-scanner
AISECjp SAIVS(Spider Artificial Intelligence Vulnerability Scanner)
AISECjp SAIVS(Spider Artificial Intelligence Vulnerability Scanner)
Isao Takaesu
2015/11/24 ssmjpで「AIにWebアプリ診断をやらせてみる」と題してLTした際のスライド。
Aiにwebアプリ診断をやらせてみる
Aiにwebアプリ診断をやらせてみる
Isao Takaesu
事例紹介「なうまぴおん」
事例紹介「なうまぴおん」
Eiji Iwazawa
Machine Learning Meetup Kansaiでの発表スライドです。
はてなにおける機械学習の取り組み
はてなにおける機械学習の取り組み
syou6162
人工知能ブームに伴ない機械学習関係のニュースを聞かない日はないほど機械学習は普及しつつありますが、自分でやってみる/自社で導入するにはまだハードルが高いと感じる方も多いかと思います。このセッションでは、いわゆるデータサイエンティストではなくアプリケーションエンジニアが機械学習を使った機能開発を行なうメリットやその楽しさについて、はてなでの事例を交えながらお話ししたいと思います。 https://event.shoeisha.jp/devsumi/20180928/session/1802/
今日から始める機械学習〜はてなの事例〜
今日から始める機械学習〜はてなの事例〜
syou6162
HACKER TACKLE2018での登壇資料です。
はてなにおける機械学習の取り組み
はてなにおける機械学習の取り組み
syou6162
MA5 Mashup Caravan in GINZA/2 2009年10月26日
Mashup Awards は新しい技術を試す絶好の機会です
Mashup Awards は新しい技術を試す絶好の機会です
Nobuhiro Nakajima
2016/05/31 Apache Kafka Meetup Japan #1 での発表資料
Kafkaを活用するためのストリーム処理の基本
Kafkaを活用するためのストリーム処理の基本
Sotaro Kimura
How Mercari achieves machine learning engineering and operation.
Mercari ML Meetup
Mercari ML Meetup
yusuke shibui
量子コンピュータ(実機)を使ったアプリを公開した話
a story about an application that uses a real quantum computer
a story about an application that uses a real quantum computer
Satoyuki Tsukano
2019年4月3日(水)、「DevRel Meetup in Tokyo #40 〜オウンドメディア成功の秘訣〜」での発表資料です。
さくらのナレッジの運営から見えるもの
さくらのナレッジの運営から見えるもの
法林浩之
CTO Night&Day 2016 Winter モーニングセッションでの発表資料です
AI & Deep Learning on AWS at CTO Night&Day 2016 Winter
AI & Deep Learning on AWS at CTO Night&Day 2016 Winter
Yasuhiro Matsuo
Ims@sparqlではじめるr markdownとgitbookによるレポート生成 2017.9.2 あいますえんじにあ Meetup in 京都
Ims@sparqlではじめるr markdownとgitbookによるレポート生成
Ims@sparqlではじめるr markdownとgitbookによるレポート生成
Takeshi Mikami
2016-04-21 関西スタートアップAWS勉強会 において、当社片山が講演した資料です。
MonotaROが向かうクラウド活用の今後 2016-04-21 関西スタートアップAWS勉強会
MonotaROが向かうクラウド活用の今後 2016-04-21 関西スタートアップAWS勉強会
株式会社MonotaRO Tech Team
鷲崎弘宜, 機械学習応用アーキテクチャ・デザインパターン概観, スマートエスイーセミナー: IoT・機械学習応用ソフトウェアの設計とパターン, 2020/07/13
機械学習応用アーキテクチャ・デザインパターン概観
機械学習応用アーキテクチャ・デザインパターン概観
Hironori Washizaki
Niigata.rbの会場になれなかったお詫びと、勉強会に使える会場ができたお話。
Niigata.rb#03
Niigata.rb#03
Yukiya Nakagawa
2018/09/25に北九州で開催された「Code for Kitakyushu例会」の発表資料です。Azure Logic Apps、QnA Maker、LINE Messaging APIを利用してノンコーディングでLINE BOTを作成する方法を紹介しています。
ノンコーディングでここまでできる!LINE BOT を作ってみよう!
ノンコーディングでここまでできる!LINE BOT を作ってみよう!
典子 松本
ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
LINE Corp.
Introduce Application Insights Preview.
Application insights で行ってみよう
Application insights で行ってみよう
Kazushi Kamegawa
2016/2/8に開催されたOpenCloudHPC #1 でのLT資料です。HPCといいながらGPU成分が多めです。
AWSでGPUも安く大量に使い倒せ
AWSでGPUも安く大量に使い倒せ
Yasuhiro Matsuo
2019/8/27 メルペイMachineLearning meetupの発表資料です。 https://mercari.connpass.com/event/142853/
メルペイあと払いを実現するData Pipeline
メルペイあと払いを実現するData Pipeline
SatoshiMatsuzaki1
Rubyと機械学習の現状
Rubyと機械学習の現状
Aki Ariga
7月13日のセミナー資料
スマートエスイーセミナー:機外学習応用システムパターンの例
スマートエスイーセミナー:機外学習応用システムパターンの例
HironoriTAKEUCHI1
統計学勉強会でのsyou6162の発表資料です。 - https://connpass.com/event/204931/
自分の目的に合った統計量と そのバラ付きを計算しよう ~NPSを例に~(統計学勉強会)
自分の目的に合った統計量と そのバラ付きを計算しよう ~NPSを例に~(統計学勉強会)
syou6162
オープンセミナー岡山でのsyou6162の登壇資料です。 https://oso.connpass.com/event/200031/
オープンセミナー岡山 これから始めるデータ活用
オープンセミナー岡山 これから始めるデータ活用
syou6162
More Related Content
Similar to Mackerelのロール内異常検知の設計と運用
Machine Learning Meetup Kansaiでの発表スライドです。
はてなにおける機械学習の取り組み
はてなにおける機械学習の取り組み
syou6162
人工知能ブームに伴ない機械学習関係のニュースを聞かない日はないほど機械学習は普及しつつありますが、自分でやってみる/自社で導入するにはまだハードルが高いと感じる方も多いかと思います。このセッションでは、いわゆるデータサイエンティストではなくアプリケーションエンジニアが機械学習を使った機能開発を行なうメリットやその楽しさについて、はてなでの事例を交えながらお話ししたいと思います。 https://event.shoeisha.jp/devsumi/20180928/session/1802/
今日から始める機械学習〜はてなの事例〜
今日から始める機械学習〜はてなの事例〜
syou6162
HACKER TACKLE2018での登壇資料です。
はてなにおける機械学習の取り組み
はてなにおける機械学習の取り組み
syou6162
MA5 Mashup Caravan in GINZA/2 2009年10月26日
Mashup Awards は新しい技術を試す絶好の機会です
Mashup Awards は新しい技術を試す絶好の機会です
Nobuhiro Nakajima
2016/05/31 Apache Kafka Meetup Japan #1 での発表資料
Kafkaを活用するためのストリーム処理の基本
Kafkaを活用するためのストリーム処理の基本
Sotaro Kimura
How Mercari achieves machine learning engineering and operation.
Mercari ML Meetup
Mercari ML Meetup
yusuke shibui
量子コンピュータ(実機)を使ったアプリを公開した話
a story about an application that uses a real quantum computer
a story about an application that uses a real quantum computer
Satoyuki Tsukano
2019年4月3日(水)、「DevRel Meetup in Tokyo #40 〜オウンドメディア成功の秘訣〜」での発表資料です。
さくらのナレッジの運営から見えるもの
さくらのナレッジの運営から見えるもの
法林浩之
CTO Night&Day 2016 Winter モーニングセッションでの発表資料です
AI & Deep Learning on AWS at CTO Night&Day 2016 Winter
AI & Deep Learning on AWS at CTO Night&Day 2016 Winter
Yasuhiro Matsuo
Ims@sparqlではじめるr markdownとgitbookによるレポート生成 2017.9.2 あいますえんじにあ Meetup in 京都
Ims@sparqlではじめるr markdownとgitbookによるレポート生成
Ims@sparqlではじめるr markdownとgitbookによるレポート生成
Takeshi Mikami
2016-04-21 関西スタートアップAWS勉強会 において、当社片山が講演した資料です。
MonotaROが向かうクラウド活用の今後 2016-04-21 関西スタートアップAWS勉強会
MonotaROが向かうクラウド活用の今後 2016-04-21 関西スタートアップAWS勉強会
株式会社MonotaRO Tech Team
鷲崎弘宜, 機械学習応用アーキテクチャ・デザインパターン概観, スマートエスイーセミナー: IoT・機械学習応用ソフトウェアの設計とパターン, 2020/07/13
機械学習応用アーキテクチャ・デザインパターン概観
機械学習応用アーキテクチャ・デザインパターン概観
Hironori Washizaki
Niigata.rbの会場になれなかったお詫びと、勉強会に使える会場ができたお話。
Niigata.rb#03
Niigata.rb#03
Yukiya Nakagawa
2018/09/25に北九州で開催された「Code for Kitakyushu例会」の発表資料です。Azure Logic Apps、QnA Maker、LINE Messaging APIを利用してノンコーディングでLINE BOTを作成する方法を紹介しています。
ノンコーディングでここまでできる!LINE BOT を作ってみよう!
ノンコーディングでここまでできる!LINE BOT を作ってみよう!
典子 松本
ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
LINE Corp.
Introduce Application Insights Preview.
Application insights で行ってみよう
Application insights で行ってみよう
Kazushi Kamegawa
2016/2/8に開催されたOpenCloudHPC #1 でのLT資料です。HPCといいながらGPU成分が多めです。
AWSでGPUも安く大量に使い倒せ
AWSでGPUも安く大量に使い倒せ
Yasuhiro Matsuo
2019/8/27 メルペイMachineLearning meetupの発表資料です。 https://mercari.connpass.com/event/142853/
メルペイあと払いを実現するData Pipeline
メルペイあと払いを実現するData Pipeline
SatoshiMatsuzaki1
Rubyと機械学習の現状
Rubyと機械学習の現状
Aki Ariga
7月13日のセミナー資料
スマートエスイーセミナー:機外学習応用システムパターンの例
スマートエスイーセミナー:機外学習応用システムパターンの例
HironoriTAKEUCHI1
Similar to Mackerelのロール内異常検知の設計と運用
(20)
はてなにおける機械学習の取り組み
はてなにおける機械学習の取り組み
今日から始める機械学習〜はてなの事例〜
今日から始める機械学習〜はてなの事例〜
はてなにおける機械学習の取り組み
はてなにおける機械学習の取り組み
Mashup Awards は新しい技術を試す絶好の機会です
Mashup Awards は新しい技術を試す絶好の機会です
Kafkaを活用するためのストリーム処理の基本
Kafkaを活用するためのストリーム処理の基本
Mercari ML Meetup
Mercari ML Meetup
a story about an application that uses a real quantum computer
a story about an application that uses a real quantum computer
さくらのナレッジの運営から見えるもの
さくらのナレッジの運営から見えるもの
AI & Deep Learning on AWS at CTO Night&Day 2016 Winter
AI & Deep Learning on AWS at CTO Night&Day 2016 Winter
Ims@sparqlではじめるr markdownとgitbookによるレポート生成
Ims@sparqlではじめるr markdownとgitbookによるレポート生成
MonotaROが向かうクラウド活用の今後 2016-04-21 関西スタートアップAWS勉強会
MonotaROが向かうクラウド活用の今後 2016-04-21 関西スタートアップAWS勉強会
機械学習応用アーキテクチャ・デザインパターン概観
機械学習応用アーキテクチャ・デザインパターン概観
Niigata.rb#03
Niigata.rb#03
ノンコーディングでここまでできる!LINE BOT を作ってみよう!
ノンコーディングでここまでできる!LINE BOT を作ってみよう!
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
Application insights で行ってみよう
Application insights で行ってみよう
AWSでGPUも安く大量に使い倒せ
AWSでGPUも安く大量に使い倒せ
メルペイあと払いを実現するData Pipeline
メルペイあと払いを実現するData Pipeline
Rubyと機械学習の現状
Rubyと機械学習の現状
スマートエスイーセミナー:機外学習応用システムパターンの例
スマートエスイーセミナー:機外学習応用システムパターンの例
More from syou6162
統計学勉強会でのsyou6162の発表資料です。 - https://connpass.com/event/204931/
自分の目的に合った統計量と そのバラ付きを計算しよう ~NPSを例に~(統計学勉強会)
自分の目的に合った統計量と そのバラ付きを計算しよう ~NPSを例に~(統計学勉強会)
syou6162
オープンセミナー岡山でのsyou6162の登壇資料です。 https://oso.connpass.com/event/200031/
オープンセミナー岡山 これから始めるデータ活用
オープンセミナー岡山 これから始めるデータ活用
syou6162
Data Engineering Study #4「データ分析基盤の障害対応事例LT祭り」 での登壇資料です
正確な意思決定を阻む 問題・障害との向き合い方
正確な意思決定を阻む 問題・障害との向き合い方
syou6162
https://analytics-and-intelligence.connpass.com/event/174369/ での発表資料です。
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録
syou6162
PyCon mini OsakaでのMackerelの異常検知に関する発表です
Mackerel Anomaly Detection at PyCon mini Osaka
Mackerel Anomaly Detection at PyCon mini Osaka
syou6162
異常検知ナイトのLT登壇資料です
異常検知ナイト LT登壇資料 はてな id:syou6162
異常検知ナイト LT登壇資料 はてな id:syou6162
syou6162
DuolingoがACLで発表した論文の簡単な紹介
Duolingo.pptx
Duolingo.pptx
syou6162
はてなの社内勉強会で話した構造学習についてのスライドです。
今日からできる構造学習(主に構造化パーセプトロンについて)
今日からできる構造学習(主に構造化パーセプトロンについて)
syou6162
Kernel20110619
Kernel20110619
syou6162
Optimization In R
Optimization In R
syou6162
Syou6162 Dbcls
Syou6162 Dbcls
syou6162
半教師あり学習
半教師あり学習
syou6162
R User Group 2009 Yoshida
R User Group 2009 Yoshida
syou6162
Tsukuba
Tsukuba
syou6162
Short Essay
Short Essay
syou6162
Prml
Prml
syou6162
Algorithm Design
Algorithm Design
syou6162
Tsukuba Memo Off
Tsukuba Memo Off
syou6162
1000speakers
1000speakers
syou6162
第一回卒研発表会
第一回卒研発表会
syou6162
More from syou6162
(20)
自分の目的に合った統計量と そのバラ付きを計算しよう ~NPSを例に~(統計学勉強会)
自分の目的に合った統計量と そのバラ付きを計算しよう ~NPSを例に~(統計学勉強会)
オープンセミナー岡山 これから始めるデータ活用
オープンセミナー岡山 これから始めるデータ活用
正確な意思決定を阻む 問題・障害との向き合い方
正確な意思決定を阻む 問題・障害との向き合い方
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録
Mackerel Anomaly Detection at PyCon mini Osaka
Mackerel Anomaly Detection at PyCon mini Osaka
異常検知ナイト LT登壇資料 はてな id:syou6162
異常検知ナイト LT登壇資料 はてな id:syou6162
Duolingo.pptx
Duolingo.pptx
今日からできる構造学習(主に構造化パーセプトロンについて)
今日からできる構造学習(主に構造化パーセプトロンについて)
Kernel20110619
Kernel20110619
Optimization In R
Optimization In R
Syou6162 Dbcls
Syou6162 Dbcls
半教師あり学習
半教師あり学習
R User Group 2009 Yoshida
R User Group 2009 Yoshida
Tsukuba
Tsukuba
Short Essay
Short Essay
Prml
Prml
Algorithm Design
Algorithm Design
Tsukuba Memo Off
Tsukuba Memo Off
1000speakers
1000speakers
第一回卒研発表会
第一回卒研発表会
Mackerelのロール内異常検知の設計と運用
1.
Mackerelのロール内異常検知の 設計と運用 MACHINE LEARNING Meetup KANSAI #5 id:syou6162
2.
自己紹介 • id:syou6162(本名: 吉田康久) • 専門は自然言語処理や機械学習 •
3年前にはてなに転職 – Mackerel/はてなブックマーク – アプリケーションエンジニア 2
3.
MACHINE LEARNING Meetup KANSAIと私 • #1の会場がはてな & 登壇 – 「はてなにおける機械学習の取り組み」 •
#3でLT登壇 – 「趣味の機械学習サイトにおける工夫紹介」 • 超交流会@京都大学 – 「機械学習を組み込む時のアレコレ」 – with 染田さん@ハカルス 3
4.
#1での発表から一年… 4
5.
hKps://mackerel.io/ja/ Mackerel: SaaS型の サーバー監視/管理 サービス Agentがサーバーの メトリックを収集、 グラフで可視化 5
6.
6 サービス/ロール毎に監視ルール設定 静的な閾値によるアラートの発報 サービス/ロールでホストを 分かりやすくグルーピング はてな ブックマーク DB App Proxy DB_01 DB_02 App_01 App_02 Proxy_01 Proxy_02 はてなブログ DB App Proxy DB_01 DB_02 App_01 App_02 Proxy_01 Proxy_02 例: CPUの使用率が90% 越えたらCriZcalアラート
7.
サーバー監視の困り事 • サーバー監視初心者の場合 • サーバー監視玄人の場合 7
8.
サーバー監視初心者の場合 • 例: アプリケーションエンジニア • クラウドを使うようになって、サーバーも自分 で立てるようになった – しかし、サーバー監視はよく分からない •
本質的にはアプリケーションコードの開発に 集中したい 8
9.
サーバー監視玄人の場合 • インフラ周りの知識が豊富、何を監視すれば いいか経験的に知っている • 見なければいけないサービスも多く、多忙な ことも •
監視ルールを一度設定すれば終わり、では なく定期的にメンテナンスする必要がある 9
10.
機械学習による監視のサポート • 以下を実現したい – インフラの知識があまりなくても、低コストで監視ルー ルが作れる –
人間が列挙するには困難な複数の条件を考慮した 監視ができる • 機械学習による異常検知機能でユーザーをサ ポートしたい! • 3/1にロール内異常検知としてβリリース 10
11.
代表的な問題設定1: 外れ値検知 11 仲間から外れている 以降のスライドの図は hKps://qiita.com/kenmatsu4/items/68e48a00aaebf338bedc より生成 時刻 メモリ 使用量
12.
代表的な問題設定2: 時系列的な外れ値検知 12 横軸でシャッフルすると 検知できない 時刻
13.
代表的な問題設定3: 変化検知 13 値のずれというより観測値の振舞いが 変化。周期が短かくなっている 時刻
14.
代表的な問題設定4:異常部位検出 14 心電図データ。外れ値と変化点が 同時に起きている 時刻
15.
アラートの具体例 16
16.
アラートの具体例 17 • ユーザーは細かい設定をする必要がない • ロール内のどのサーバーが異常か分かる •
サーバーのどのメトリックが異常か分かる が特徴
17.
アラートの具体例 18 • このような教師データを事前に集めるのは困難 • ユーザーによって障害の基準が異なる •
障害事例は極めて少ない • 以降では教師なし学習を前提に話します
18.
前提: どの単位でモデルを学習するか 19 はてな ブックマーク DB App Proxy DB_01 DB_02 App_01 App_02 Proxy_01 Proxy_02 はてなブログ DB App Proxy DB_01 DB_02 App_01 App_02 Proxy_01 Proxy_02
19.
全てのサーバー? 20 はてな ブックマーク DB App Proxy DB_01 DB_02 App_01 App_02 Proxy_01 Proxy_02 はてなブログ DB App Proxy DB_01 DB_02 App_01 App_02 Proxy_01 Proxy_02 Model 様々な役割のサーバが 混在しているため 学習が難しい。誤検知も 多い
20.
単一のホスト? 21 はてな ブックマーク DB App Proxy DB_01 DB_02 App_01 App_02 Proxy_01 Proxy_02 はてなブログ DB App Proxy DB_01 DB_02 App_01 App_02 Proxy_01 Proxy_02 学習は容易に。 同じようなデータ集合が あるならば、データが増 えたほうが精度が出る Model 1 Model 2 Model 3 Model 4 Model 5 Model 6 Model 7 Model 8 Model 9 Model 10 Model 11 Model 12
21.
ロール毎にモデルを作る 22 はてな ブックマーク DB App Proxy DB_01 DB_02 App_01 App_02 Proxy_01 Proxy_02 はてなブログ DB App Proxy DB_01 DB_02 App_01 App_02 Proxy_01 Proxy_02 同じような動きをするホ ストがまとまっているた め、学習が容易。 単一ホストで学習するよ りも多くの学習データが 使えるため精度向上も 望める Model 1 Model 2 Model 3 Model 4 Model 5 Model 6
22.
ロール内異常検知の要件 • モデルが軽量(メモリ面、速度面) •
検知の根拠が分かる • 検知漏れより誤検知を減らすことを重視 23 • システム運用がしやすいアルゴリズム選定 • 教師なし学習をどうやって手懐けるか • システム評価をどうやっているか の観点からお話します
23.
ロール内異常検知の要件 • モデルが軽量(メモリ面、速度面) •
検知の根拠が分かる • 検知漏れより誤検知を減らすことを重視 24
24.
一般的な機械学習 例: カテゴリ判定の場合 25 判定用APIサーバー URL 1 URL 2 URL 3
URL 4 • 全体でモデルが一個〜 数個しか存在しない • それらを頑張って チューニングする • モデルはメモリ上に事 前に展開しておく Model
25.
ロール内異常検知の場合 26 判定用APIサーバー Host 1: Role A Host 2: Role B Host 3: Role A Host 4: Role C Model A Model B Model C •
大量のモデルの学習が低 コストにできる必要がある • メモリ上にモデル持ってお くのは困難 – ロール毎にモデルが存在 • リクエストがある度にモデ ルをロード – 判定はリアルタイム – 低latencyが必須
26.
どういったモデルを選ぶか • GAN/AEを使った異常検知手法もあるが… – 多くの計算リソースが必要 – 定期的にロール毎に再学習をする必要があるた め、低コストで学習できることは重要 • 近傍法に基づいた手法(LOFなど) – 学習コストは低いが、予測時にモデルをロード(= 学習データをロード)するため、latencyが大きい 27
27.
メモリ面、速度面、コスト面の心配が 少ない混合ガウス分布を選択 • 混合ガウス分布の学習は必要な計算リソースが比 較的少なくて済む – ちなみに学習はAWS Batchでやっています •
ロールによらずモデルサイズの上限が分かる – 見積りにくい/ロール毎にlatencyが大きく異なると困る – 混合数で上限が簡単に見積れる • 根拠を出す際にも混合ガウス分布を選択したことが 生きた(後述) 28
28.
ロール内異常検知の要件 • モデルが軽量(メモリ面、速度面) •
検知の根拠が分かる • 検知漏れより誤検知を減らすことを重視 29
29.
検知の根拠が分かる • 障害時には携帯などから何がおかしくなって いそうかぱっと分かると便利 30 サーバーの「何が」異常 かも気になる!
30.
解釈可能な機械学習 31 ref: hKps://github.com/marcotcr/lime hKps://www.slideshare.net/SatoshiHara3/ss-126157179 • LIMEやSHAPが主流 – 元のモデルを近似した解 釈可能なモデルを学習 •
ロール内異常検知は混 合ガウス分布がベース なのでシンプルにできる
31.
条件付き確率から根拠を提示 • どのメトリックが特に異常かを条件付き確率 から算出できる – ガウス分布の条件付き分布もガウス分布 • 混合ガウス分布のモデル一つで異常判定も 根拠提示もできる – モデルの管理コスト、ロード時間を削減できる
32
32.
ロール内異常検知の要件 • モデルが軽量(メモリ面、速度面) •
検知の根拠が分かる • 検知漏れより誤検知を減らすことを重視 33
33.
検知漏れより誤検知を削減を重視 • 検知漏れと誤検知は基本的にトレードオフ – ロール内異常検知では誤検知削減を重視 – 機械学習以外の監視ルールでカバーできるため • 教師あり学習と比較すると、人間が挙動を制御 するのは難しい – ロール内異常検知は教師なし学習 – ちょっとした変化ではアラートが鳴らないで欲しい、と いった制御はしたい 34
34.
誤検知の例 35
35.
誤検知の例 36 メモリ使用量の変化がほとんど ない(=分散がゼロに近い状態)
36.
誤検知の例 37 使用メモリ量が数十Mb増加。 人間にとっては何でもない変化だが、 異常検知は反応してしまっていた…
37.
事前分布で人間の直感と合うように • 「このメトリックはこれくらいは変動し得る」とい う人間の知識を、分散の事前分布として導入 – 誤検知が起こりにくいように大きめの値に設定 38 データから決まる尤度 分散パラメータの事前分布。 これを通じて、人間の知識 をモデルに取り入れる
38.
システムの評価(自動) • 以下の数値をダッシュボードにまとめて評価 – 監視されているサーバー数 – muteされている監視ルール数 – 発報されたアラート数 – ロール内異常検知と同時刻に起きた他の監視 (例: ログ監視)によるアラート数 – latency、使用しているcpu/memoryなどなど 39
39.
システムの評価(手動) • 実際に起きたアラートを人手でアノテーション – アラート自体と根拠のそれぞれ •
誤報率を時系列でトラッキング • アノテーションを元に誤報の原因を探る、効果の 大きい施策を次のバージョンで導入 – 導入後は再度アノテーションして評価 • 割とどろ臭く頑張ってる 40
40.
人手でアノテーション 41
41.
まとめ • 3月にβリリースしたMackerelのロール内異常 検知について紹介 • 運用/評価/設計の観点での工夫を紹介 – モデルが軽量(メモリ面、速度面) – 検知の根拠が分かる – 検知漏れより誤検知を減らすことを重視 42
Download now