ハニーポッター技術交流会

2017.11.25
ハニーポッター技術交流会 #2
Presented by Isao Takaesu
機械学習によるログ分析入門の入門
- キャプチャしたパケットから攻撃の兆候を探る -

About the speaker
• 職業 : セキュリティエンジニア
• 所属 : 三井物産セキュアディレクション
• 趣味 : 脆弱性スキャナ作り、機械学習
• ブログ: http://www.mbsd.jp/blog/
• Black Hat Asia Arsenal, CODE BLUE
情報セキュリティEXPO, PYCON JP …
• 勉強会「AISECjp」を主催
高江洲勲
Takaesu Isao
ハニーポッター技術交流会
Twitter: @bbr_bbq
1

概要
2
攻撃の痕跡を含む大量のパケットを
k-means（k平均法）でクラスタリングし、
通信（正常/攻撃）の種類を推定する。

ログ分析の手順
3
1. ログの取得と前処理
2. k-meansのパラメータ決定
3. クラスタリングの実行
4. 攻撃の種類を推定

4

5
1.1. データセットの取得
1.2. 特徴選択
1.3. 正規化

6
1.2. 特徴選択
1.3. 正規化

1.1. データセットの取得（1/5）
7
・使用するデータセット
http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html

8
・特徴量（1/3）
http://kdd.ics.uci.edu/databases/kddcup99/task.html

9
・特徴量（2/3）

10
・特徴量（3/3）

11
・kddcup.data_10_percent.gz
特徴数：41
データ数：約50万件 ⇒ 計算時間の都合上「150件」に低減

12
1.2. 特徴選択
1.3. 正規化

1.2. 特徴選択（Feature Selection）
13
分析に貢献すると推測される特徴量を選択。
次元削減の効果（精度向上、計算量の低減など）
・選択した特徴量

14
1.2. 特徴選択
1.3. 正規化

1.3. 正規化（Normalization）
15
異なる種類のデータを単一の尺度に纏める。
学習速度の向上や精度向上などが見込める。

16

17
2.1. k-meansとは？
2.2. エルボー法
2.3. シルエット分析

18

2.1. k-meansとは？（1/6）
19
予め決めたクラスタ数（K）に従い、近い属性のデータをグループ化。
1. 初期値となる重心点を（K個）ランダムに決定
2. 各データから最近傍の重心点を求めてクラスタを構成
3. クラスタ毎に重心点を求めて[2]を再度実行
※ [2]～[3]の処理を終了条件まで繰り返す

20
重心点
重心点
重心点

21

22
3. クラスタ毎に重心点を更新して[2]を再度実行

23

24
クラスタ1
クラスタ2
クラスタ3

25

2.2. エルボー法（Elbow method）
26
最適なクラスタ数（K）の目安を付ける方法。
・クラスタ毎のSSE（クラスタ内誤差平方和）値をプロットした図を基に、
・SSE値が「肘」のように曲がった点を最適なクラスタ数とする。
※特徴が似通ったクラスタの場合は曲線が緩やかになるため、目安が付け難い。

27

2.3. シルエット分析（Silhouette analysis）（1/3）
28
最適なクラスタ数（K）の目安を付ける方法。
・クラスタ内のサンプル密度（凝集度）を可視化し、
・クラスタ間の距離が離れている場合に最適なクラスタ数とする。
※silhouette coefficientが1に近いほど、他のクラスタと離れていることを示す。

29
K=2 K=3
K=4 K=6K=5

30
K=2 K=3
K=4 K=6K=5

31

3. クラスタリングの実行（1/2）
32
https://github.com/13o-bbr-bbq/machine_learning_security/tree/master/Analytics

3. クラスタリングの実行（2/2）
33
・クラスタリング結果の可視化（matplotlib）

34

4. 攻撃の種類を推定（1/6）
35
root_shell
duration
“root_shell”, ”duration”が高い。
cluster1はバッファオーバーフロー？

36
serror_rate
same_src_port_rate
“serror_rate”, ”same_src_port_rate”が高い。
cluster2はNmap, SYN flood？

37
rerror_rate
num_failed_logins
“rerror_rate”, ”num_failed_logins”が高い。
cluster3はパスワード推測？

38
wrong_fragment
“wrong_fragment”が高い。
cluster4はTeardrop？

39
特に特徴に偏りがない。
cluster0は正常通信？

40
・cluster0: 正常通信
・cluster1: バッファオーバーフロー
・cluster2: Nmap, SYN Flood
・cluster3: パスワード推測
・cluster4: Teardrop
攻撃の当たりをつけ、他ログを含め更に詳細に分析。
対策の参考情報として活用。

結論
41
K平均法を使用することで、攻撃の種類を推定可能。
・大量のログを短時間で分析可能（実装も容易）。
・クラスタ数の目安が重要。
* エルボー法、シルエット分析を活用。
・最後に攻撃の種類を推定するのは人間。
* 推定にはドメインの知識が必須。

余談
42
・tcpdump2gureKDDCup99
pcapファイルをKDD Cup 1999フォーマットに変換。
Bro IDSのプラグイン。
・Scapy
Pythonパッケージ。
パケット解析を行うことが可能。

Download “.PDF” version of this document:
≫ https://www.slideshare.net/babaroa

ハニーポッター技術交流会

Recommended

Recommended

More Related Content

What's hot

What's hot (11)

More from Isao Takaesu

More from Isao Takaesu (17)

ハニーポッター技術交流会