SlideShare a Scribd company logo
1 of 35
1
九州大学大学院システム情報科学研究院
データサイエンス実践特別講座
データサイエンス概論第一
第2回 2データ間の距離とクラスタリング:
2-2 クラスタリング
システム情報科学研究院情報知能工学部門
内田誠一
2
データサイエンス概論第一の内容
 データとは
 データのベクトル表現と集合
 平均と分散
 データ間の距離
 データ間の類似度
 データのクラスタリング
(グルーピング)
 線形代数に基づくデータ解析の基礎
 主成分分析と因子分析
 回帰分析
 相関・頻度・ヒストグラム
 確率と確率分布
 信頼区間と統計的検定
 時系列データの解析
 異常検出
3
データのクラスタリング
データ分類の基本
4
データのクラスタリング①
クラスタリングの基本的考え方
クラスタリング=“clustering”
55
データ集合をグルーピングする
 我々は「距離」や「類似度」を手に入れた
 その結果,「与えられたデータ集合」を「それぞれ似たデータからなる
幾つかのグループに分ける」ことが可能に!
66
グルーピング(クラスタリング)すると
何がわかるか!?
いくつのクラスタに分かれたか?
• グループの分布の把握
各クラスタのメンバ数はどうなっているか?
• 各グループのメンバの多寡
• 微小クラスタ(マイノリティ)や,巨大クラスタ(マジョリティ)
各クラスタの代表パターンは?
• 主要例を理解
• 膨大なデータを高々数個で概観
各クラスタの広がりは?
• 各グループの変動傾向理解
77
クラスタ(cluster)とは?
 「房(ふさ)」,「集団」,「群」
http://www.ims.cs.uec.ac.jp/~naoki
PCクラスタ
プラズマクラスタ(Sharp社)
クラスタ水
www.nariwa.jp
星団(star cluster)
88
クラスタリング(clustering)=
データの集合をいくつかの部分集合に分割する(グルーピング)
 各部分集合=「クラスタ」と呼ばれる
9
各クラスタから代表的なデータを選ぶと...
9
これらの代表データを見
るだけで,データ集合
全体の概略が見える
1010
どういう分割がよいのか?
 𝑁個のデータを𝐾個に分割する方法はおよそ𝐾 𝑁通り
 100個のデータを10分割→およそ10100
通り
 近くにあるデータが,なるべく同じ部分集合になるように
11
データのクラスタリング②
k-means法
Mean = 平均
12
いきなりですがk-meansの挙動(1/5)
初期代表データを与える
12
例えばランダム
に与える
13
いきなりですがk-meansの挙動(2/5)
各データを最も近い代表データに割当て=データ分割
13
代表データの
ファンクラブ
(支持者集合)
割り当ての結果
できる境界
14
いきなりですがk-meansの挙動(3/5)
代表データ更新
14
この中のデータの
平均に移動
15
いきなりですがk-meansの挙動(4/5)
各データを最も近い代表データに割当て=データ分割
15
16
いきなりですがk-meansの挙動(5/5)
代表データ更新
16
以後,代表データが
動かなくなるまで反復
17
K-means法実例:学習データセット
17
18
K-means法実例:結果(K=3)
18
初期代表
パターン
19
K-means法実例:結果(K=5)
19
そのまま残ってしまった!
2020
初期値の決め方
 学習パターンからランダムに選ぶ
 存在範囲に均等に置く
普通こんなところには
置かない
同じ𝐾であっても
初期値により結果は
変わります
2121
いずれにせよ初期値が違うと結果がちがうので
 「マルチスタート戦略」をやってみてもよい
 異なる初期値で𝑃回k-meansを実施
 𝑃個の結果のなかで,最もよかった結果を選ぶ
 「最もよかった」とする基準
 誤差総和が一番小さい
 メンバが極端に少ないクラスタが少ない
 「最も平均から遠いデータ」(=最悪)までの距離が小さい
(最悪が,そう最悪でもない)
2222
𝐾をどうやって決めるか?①
徐々に𝐾を増やすアルゴリズム
 LBG法とか,ISODATA法と呼ばれます
2323
𝐾をどうやって決めるか?②
とにかく𝐾を変えながら,誤差を評価
 あまり減らなくなったところで決める
𝐾
誤差
これぐらい?
2424
K-meansの目指すところ:
誤差総和が最小になるように
 「近くにあるデータが,なるべく同じ部分集合になるように」
 =みんなの近くに代表データが来るように
2
4
各部分集合の代表
代表データとの距離
全部の→の長さの総和が一番
小さくなるように,分割境界を
設定
データ 𝒙𝑖
25
𝐸 = 𝑘=1
𝐾
𝐸 𝑘を
分割𝑆 𝑘 (𝑘 = 1, … , 𝐾)
に関して最小化.
ただし 𝐸 𝑘 = 𝑥 𝑖∈𝑆 𝑘
𝑑 𝒎 𝑘 − 𝒙𝑖
参考:誤差総和基準をキチッと式で書くと...
25
矢印の長さの総和= 𝐸 𝑘
矢印の長さ
𝒎 𝑘
𝒙𝑖
𝑆 𝑘
26
参考:K-means法のアルゴリズム
26
0t
 000
1 ,,,,: Kk mmm 代表データ初期値
  を決定を用いて分割 t
K
t
k
tt
k SSSm ,,,,1 
   ?1
 t
k
t
k mm
  1
, 

  t
k
Sx
ik mmxmdE
t
ki
を最小化する
代表データ更新:
終了
yes
no
tt 1 現時点の分割で
誤差総和が最小になるように
現時点の代表データで
誤差総和が最小になるように
2727
参考:誤差総和基準はベストか?
 必ずしも,そうとは言えず
 例: the problem of splitting large cluster
誤差小 誤差大
28
データのクラスタリング③
その他のクラスタリング法
まだ色々あります
2929
K-means,もう一つの問題(?)
 代表データは「平均」なので,原データの一つではない
 原データにあるものを「代表」としたい場合には...!?
3030
K-medoid法
 Medoid = 「クラスタ内のデータの中で他のデータとの距離を最も小
さくできるもの」
 「平均」ではない.
𝒙𝑖
𝑆 𝑘
𝒎 𝑘
𝒙𝑖
𝑆 𝑘
ならば
31
K-medoid法とk-meansの違いは
一か所だけ!
31
この中のデータの
medoidに移動
3232
K-means vs k-medoids
 Wikipediaに載っていた例
 上段がk-means, 中下段がk-medoids
 まぁ「たまたま」ぐらいで,もちろん,k-meansのほうがよいケースもあり得ます
33
もう一つの代表的クラスタリング法:
階層的クラスタリング
wikipedia の図を一部引用
3434
超参考:もっと凝ったクラスタリング:
スペクトラル・クラスタリング
 グラフ表現されたパターン集合のクラスタリング
 近いパターン間をつないでグラフ構築
 その近接性を極力保存したまま低次元空間に写像
 低次元空間でk-means
http://d.hatena.ne.jp/mr_r_i_c_e/20121214/1355499195
「近さ」には
任意性あり
35
スペクトラル・クラスタリングK-means
超参考:もっと凝ったクラスタリング:
スペクトラル・クラスタリング
35
http://ogrisel.github.io/scikit-learn.org/sklearn-tutorial/modules/clustering.html

More Related Content

What's hot

はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
Motoya Wakiyama
 

What's hot (20)

データサイエンスことはじめ
データサイエンスことはじめデータサイエンスことはじめ
データサイエンスことはじめ
 
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
 
5 クラスタリングと異常検出
5 クラスタリングと異常検出5 クラスタリングと異常検出
5 クラスタリングと異常検出
 
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
 
データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
 
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラムデータサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
 
データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析
 
13 分類とパターン認識
13 分類とパターン認識13 分類とパターン認識
13 分類とパターン認識
 
統計分析
統計分析統計分析
統計分析
 
MICの解説
MICの解説MICの解説
MICの解説
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
 
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
 
機械学習 入門
機械学習 入門機械学習 入門
機械学習 入門
 
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとはデータサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがきデータサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 

Similar to データサイエンス概論第一=2-2 クラスタリング

Similar to データサイエンス概論第一=2-2 クラスタリング (7)

九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
 
ae-11. 実データの分析,意味の抽出,外れ値の判断
ae-11. 実データの分析,意味の抽出,外れ値の判断ae-11. 実データの分析,意味の抽出,外れ値の判断
ae-11. 実データの分析,意味の抽出,外れ値の判断
 
データ解析
データ解析データ解析
データ解析
 
マトリックス・データ解析法(主成分分析)
マトリックス・データ解析法(主成分分析)マトリックス・データ解析法(主成分分析)
マトリックス・データ解析法(主成分分析)
 
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
 
Paper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noselfPaper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noself
 
JPA2023_NetworkTutorial_Part1.pdf
JPA2023_NetworkTutorial_Part1.pdfJPA2023_NetworkTutorial_Part1.pdf
JPA2023_NetworkTutorial_Part1.pdf
 

More from Seiichi Uchida

More from Seiichi Uchida (17)

1 データとデータ分析
1 データとデータ分析1 データとデータ分析
1 データとデータ分析
 
9 可視化
9 可視化9 可視化
9 可視化
 
12 非構造化データ解析
12 非構造化データ解析12 非構造化データ解析
12 非構造化データ解析
 
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
 
15 人工知能入門
15 人工知能入門15 人工知能入門
15 人工知能入門
 
14 データ収集とバイアス
14 データ収集とバイアス14 データ収集とバイアス
14 データ収集とバイアス
 
10 確率と確率分布
10 確率と確率分布10 確率と確率分布
10 確率と確率分布
 
8 予測と回帰分析
8 予測と回帰分析8 予測と回帰分析
8 予測と回帰分析
 
7 主成分分析
7 主成分分析7 主成分分析
7 主成分分析
 
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度
 
3 平均・分散・相関
3 平均・分散・相関3 平均・分散・相関
3 平均・分散・相関
 
2 データのベクトル表現と集合
2 データのベクトル表現と集合2 データのベクトル表現と集合
2 データのベクトル表現と集合
 
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
 
Machine learning for document analysis and understanding
Machine learning for document analysis and understandingMachine learning for document analysis and understanding
Machine learning for document analysis and understanding
 
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
 
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
 

データサイエンス概論第一=2-2 クラスタリング