SlideShare a Scribd company logo
1 of 15
Download to read offline
クラスタリング 
@Wakamatz
ものまね鳥をまねる会 
「ものまね鳥をまねる」の読書会 
(原著:TO MOCK A MOCKINGBIRD) 
ラムダ計算と等価なSKIコンビネータ論理を学ぶ。 
次回11/16
クラスタリングとは 
クラスタリングは、データ解析手法の一種。 
教師なしデータ分類手法、つまり与えられたデータを外的基準 
なしに自動的に分類する手法。 
データの集合をある特徴(多くは類似性)で部分集合(クラスタ) 
に分割する。 
機械学習やデータマイニング、パターン認識、イメージ解析やバ 
イオインフォマティックスなど多くの分野で用いられる。
クラスタリングの分類 
分割最適化クラスタリング 
K-平均法など 
階層型クラスタリング 
凝集型クラスタリング 
単リンク法,完全リンク法など 
分枝型クラスタリング 
スペクトラルクラスタリングなど
分割最適化クラスタリング
K-平均法(K-MEANS) 
1. 各点をK個のクラスタをそれぞれランダムに割り振る。 


    

 
)
)
    
)
 
	%
  BSHNJO ]] Ã ] 
2. 各クラスタの重心を求める。 
3. 各点のクラスタを、一番近い重心のクラスタに変更する。 
Þ'Þ
 
4% )' ] 
4. 2.、3.を収束するまで繰り返す。
K-平均法の可視化 
てっく煮ブログ K-means 法を D3.js でビジュアライズしてみた
ソフトK-平均法(K-MEANS) 
距離の代わりに確率的にクラスタを決定する。 
混合ガウスモデルに対するEMアルゴリズムである。 
混合ガウスモデル 
 
,	]N 
 U 

 ' 4* がクラスタ' 
に属する確率 
,	*
 '
  !4,	Ã D]] Ã ]]
 クラスタの重心 
4* N' 
 
 !4,	Ã D]] Ã ]]
 % 
4* N% 
' 
N  ' 
,	*
'
 * 
4* 
,	*
'
 *
K-メドイド法(K-MEDOIDS) 
1. 各点をK個のクラスタをそれぞれランダムに割り振る。 


    

 
2. 各クラスタのメドイド(クラスタの各点からの距離の総和が最小 
となる点)を求める。 
%Ç  	 
 
 
' BSHNJO 
%À' 
 
À' 
4% 4 
3. 各点のクラスタを、一番近いメドイドのクラスタに変更する。 
	%
  BSHNJO	 
 
 
Þ'Þ
 
4% 4%Ç 
' 
4. 2.、3.を収束するまで繰り返す。
凝集型クラスタリング
凝集型クラスタリング 
1. 最初は各データがひとつのクラスタを成す。各データ間には非 
類似性をしめす尺度が与えられている。(たとえばユークリッド 
距離) 
2. もっとも近いクラスタと結合してひとつのクラスタにする。 
3. クラスタ数がK個に達したら終了する。
単リンク法(SINGLE LINKAGE) 
 	

  NJO  	 
 
 
4À
4À 
4 4
凝集型クラスタリング 
完全リンク法(Complete Linkage) 
 	

  NBY  	 
 
 
4À
4À 
- 群平均法(Group Average) 
4 4 
 
 	

   	 
 
 
]]]] À 
4  
À 
4  
4 4
凝集型クラスタリングの例 
Elements of Statistical Learning
THANK YOU.

More Related Content

What's hot

心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理するHiroshi Shimizu
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門shima o
 
強化学習その3
強化学習その3強化学習その3
強化学習その3nishio
 
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場Daisuke Yoneoka
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布についてhoxo_m
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性Ichigaku Takigawa
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知Yuya Takashina
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!takehikoihayashi
 
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Hiroshi Shimizu
 
セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント
セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイントセグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント
セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイントNaoto Tamiya
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム裕樹 奥田
 
MCMCでマルチレベルモデル
MCMCでマルチレベルモデルMCMCでマルチレベルモデル
MCMCでマルチレベルモデルHiroshi Shimizu
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心takehikoihayashi
 
MCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法についてMCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法について考司 小杉
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1matsuolab
 

What's hot (20)

MICの解説
MICの解説MICの解説
MICの解説
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
 
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説
 
セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント
セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイントセグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント
セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム
 
MCMCでマルチレベルモデル
MCMCでマルチレベルモデルMCMCでマルチレベルモデル
MCMCでマルチレベルモデル
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
 
MCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法についてMCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法について
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
Stan超初心者入門
Stan超初心者入門Stan超初心者入門
Stan超初心者入門
 

クラスタリング