SlideShare a Scribd company logo
1 of 35
Download to read offline












ユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリング










ユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリング






ユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリング
Weight Kernel k-Means
データのベクトル a j 番目のクラスタ πj
特徴空間への写像 φ(a) πj の重心 mi =
x∈πj
w(x)φ(x)
x∈πj
w(x)
データ a の重み w(a)
データ a とクラスタ πj の重心 mi との距離
(φ(a) − mi)
2
= φ(a) · φ(a) − 2
x∈πj
w(x)φ(a) · φ(x)
x∈πj
w(x)
+
x,y∈πj
w(x)w(y)φ(x) · φ(y)
x∈πj
w(x)
2
内積 φ(x) · φ(y) はカーネル関数 K(x, y) に置き換えられる(=カーネルトリック)
重心も重心との距離もカーネル関数のみで計算できるので、k-Means はできる
ユークリッド距離以外の距離で教師無しクラスタリング
元々の Spectral clustering
”On Spectral Clustering: Analysis and an algorithm”, A. Ng, M. Jordan, Y. Weiss, NIPS 2001
1. n × n の類似度行列 A がある
• Ai,j (i ̸= j) はデータ i とデータ j の類似度
• Ai,i = 0
2. Di,i が A の i 行の合計であるような対角行列 D を考える
3. L = D−1/2
AD−1/2
を計算する
4. L の固有値・固有ベクトルのうち、固有値が大きい k 個のベクトルから n × k 行列の X を作る
5. Yi,j = Xi,j/ j X
1/2
i,j
2
と、X を正規化した n × k 行列 Y を作る
6. Y を使って k-Means する
ユークリッド距離以外の距離で教師無しクラスタリング










ユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリング
”Multiclass Spectral Clustering”, S. Yu, J. Shi, IEEE Computer Vision 2003
V 頂点(データ)の集合
W 類似度行列(非負&対称行列)
Γk
V {V1, · · · , Vk}:データの k 個クラスタリング
V = ∪k
i=1Vi Vi ∩ Vj = ∅ (i ̸= j)
links(A, B) = i∈A,j∈B W(i, j) A から B への類似度和
degree(A) = links(A, V) A の類似度和(度数)
linkratio(A, B) = links(A,B)
degree(A) 正規化した links
knassoc(Γk
V ) = 1
k
k
i=1 linkratio(Vi, Vi) アソシエーション
kncuts(Γk
V ) = 1
k
k
i=1 linkratio(Vi, VVi) カット
knassoc(Γk
V ) + kncuts(Γk
V ) = 1 kncats の最小化 ⇒ knassoc の最大化
Xl = (X(1, l), · · · , X(n, l)) X(i, l) は、データ i がクラスタ l に含まれてたら 1、含まれてなかったら 0
X = [X1, · · · , Xk] n × k 分割行列
1d 全部の値が 1 である d 次元ベクトル
Diag(a) ベクトル a から対角行列を作る関数
D = Diag(W1n) 度数行列(対角成分は、各データへの類似度の和)
links(Vl, Vl) = XT
l WXl links を行列の計算に変換
degree(Vl) = XT
l DXl degree を行列の計算に変換
ってことは、この問題は以下になる(PNCX)。
maximize ε(X) =
1
k
k
l=1
XT
l WXl
XT
l DXl
subject to X ∈ {0, 1}
n×k
X1k = 1n
今、Z = f(X) = X(XT
DX)−1/2
という行列を考える。
この行列は以下の特徴を持つ。(D が対角行列なので)
ZT
DZ = (XT
DX)−1/2
XT
DX(XT
DX)−1/2
= Ik
すると、PNCX は以下の PNCZ に変形できる。
maximize ε(Z) =
1
k
tr(ZT
WZ)
subject to ZT
DZ = Ik
このトレースへの変換が非常に重要だと思うのだが、こ
れが載っていると思われる論文(P. Chan, D. Schlag, Y.
Zien. ”Spectral k-way ratio-cut partitioning and cluster-
ing”. IEEE Computer-aided Design of Integrated Circuits
and Systems, 1994)が有料で読めない。
グラフ理論の教科書とかには書いてあるのかなぁ。
P = D−1
W となる正規化重み行列 P を考える。P は正規
化された実対称行列(確率行列)なので、すべて正の実数で
ある固有値を持ち、その最大値は 1 である。
対角成分に P の固有値を置いた行列を S、固有ベクトルを並
べた行列を V とする。固有値固有ベクトルの定義 PV = V S
から、式を変形していくと、以下が得られる。( ¯V = D1/2
V )
D−1/2
WD−1/2
= ¯V S ¯V −T ¯V T ¯V = In
PNCX に V を代入した場合が、最も ε(V ) が大きくなるの
は明らか。ってことは、P の固有値の大きい順に k 個足した
ものが PNCX の最大値である。
となると、以下の手順で最適な分割 ˜X∗
が求められる。
Z∗
= [V1, · · · , Vk]
X = f−1
(Z) = Diag(diag−1/2
(ZZT
))Z
˜X∗
= f−1
(Z∗
)R
1. P = D−1
W を固有値分解して、固有値が大きい top k
個のベクトルで Z∗
(n × k 行列)を作る
2. X から Z を作った変換の逆変換 f−1
を考える(diag
は対角成分だけ強引に足し合わせる関数)
3. RT
R = Ik となる任意の行列 R をとって、Z∗
に f−1
かます
















ユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリング

More Related Content

What's hot

パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)Yukara Ikemiya
 
確率的主成分分析
確率的主成分分析確率的主成分分析
確率的主成分分析Mika Yoshimura
 
PRML§12-連続潜在変数
PRML§12-連続潜在変数PRML§12-連続潜在変数
PRML§12-連続潜在変数Keisuke OTAKI
 
線形識別モデル
線形識別モデル線形識別モデル
線形識別モデル貴之 八木
 
最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)
最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)
最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)Nguyen Tuan
 
Nonparametric Factor Analysis with Beta Process Priors の式解説
Nonparametric Factor Analysis with Beta Process Priors の式解説Nonparametric Factor Analysis with Beta Process Priors の式解説
Nonparametric Factor Analysis with Beta Process Priors の式解説Tomonari Masada
 
クラシックな機械学習の入門 3. 線形回帰および識別
クラシックな機械学習の入門 3. 線形回帰および識別クラシックな機械学習の入門 3. 線形回帰および識別
クラシックな機械学習の入門 3. 線形回帰および識別Hiroshi Nakagawa
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化Miyoshi Yuya
 
クラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシンクラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシンHiroshi Nakagawa
 
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
クラシックな機械学習の入門  6. 最適化と学習アルゴリズムクラシックな機械学習の入門  6. 最適化と学習アルゴリズム
クラシックな機械学習の入門 6. 最適化と学習アルゴリズムHiroshi Nakagawa
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰sleipnir002
 
Jokyonokai130531
Jokyonokai130531Jokyonokai130531
Jokyonokai130531nwpmq516
 
低ランク行列補完のためのマトロイド理論
低ランク行列補完のためのマトロイド理論低ランク行列補完のためのマトロイド理論
低ランク行列補完のためのマトロイド理論ryotat
 
Aishima140714
Aishima140714Aishima140714
Aishima140714nwpmq516
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)ryotat
 
第8回 配信講義 計算科学技術特論A(2021)
第8回 配信講義 計算科学技術特論A(2021)第8回 配信講義 計算科学技術特論A(2021)
第8回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第10回 配信講義 計算科学技術特論A(2021)
第10回 配信講義 計算科学技術特論A(2021)第10回 配信講義 計算科学技術特論A(2021)
第10回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
はじめてのKrylov部分空間法
はじめてのKrylov部分空間法はじめてのKrylov部分空間法
はじめてのKrylov部分空間法tmaehara
 

What's hot (20)

パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)
 
確率的主成分分析
確率的主成分分析確率的主成分分析
確率的主成分分析
 
PRML§12-連続潜在変数
PRML§12-連続潜在変数PRML§12-連続潜在変数
PRML§12-連続潜在変数
 
線形識別モデル
線形識別モデル線形識別モデル
線形識別モデル
 
最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)
最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)
最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)
 
Nonparametric Factor Analysis with Beta Process Priors の式解説
Nonparametric Factor Analysis with Beta Process Priors の式解説Nonparametric Factor Analysis with Beta Process Priors の式解説
Nonparametric Factor Analysis with Beta Process Priors の式解説
 
クラシックな機械学習の入門 3. 線形回帰および識別
クラシックな機械学習の入門 3. 線形回帰および識別クラシックな機械学習の入門 3. 線形回帰および識別
クラシックな機械学習の入門 3. 線形回帰および識別
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
 
クラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシンクラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシン
 
Jokyo20130218
Jokyo20130218Jokyo20130218
Jokyo20130218
 
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
クラシックな機械学習の入門  6. 最適化と学習アルゴリズムクラシックな機械学習の入門  6. 最適化と学習アルゴリズム
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
 
Ml ch7
Ml ch7Ml ch7
Ml ch7
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰
 
Jokyonokai130531
Jokyonokai130531Jokyonokai130531
Jokyonokai130531
 
低ランク行列補完のためのマトロイド理論
低ランク行列補完のためのマトロイド理論低ランク行列補完のためのマトロイド理論
低ランク行列補完のためのマトロイド理論
 
Aishima140714
Aishima140714Aishima140714
Aishima140714
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
 
第8回 配信講義 計算科学技術特論A(2021)
第8回 配信講義 計算科学技術特論A(2021)第8回 配信講義 計算科学技術特論A(2021)
第8回 配信講義 計算科学技術特論A(2021)
 
第10回 配信講義 計算科学技術特論A(2021)
第10回 配信講義 計算科学技術特論A(2021)第10回 配信講義 計算科学技術特論A(2021)
第10回 配信講義 計算科学技術特論A(2021)
 
はじめてのKrylov部分空間法
はじめてのKrylov部分空間法はじめてのKrylov部分空間法
はじめてのKrylov部分空間法
 

Viewers also liked

論文輪読会 - A Multi-level Trend-Renewal Process for Modeling Systems with Recurre...
論文輪読会 - A Multi-level Trend-Renewal Process for Modeling Systems with Recurre...論文輪読会 - A Multi-level Trend-Renewal Process for Modeling Systems with Recurre...
論文輪読会 - A Multi-level Trend-Renewal Process for Modeling Systems with Recurre...atsushi_hayakawa
 
機械学習向けプログラミング言語の使い分け - RCO の場合
機械学習向けプログラミング言語の使い分け - RCO の場合機械学習向けプログラミング言語の使い分け - RCO の場合
機械学習向けプログラミング言語の使い分け - RCO の場合Maruyama Tetsutaro
 
Fractality of Massive Graphs: Scalable Analysis with Sketch-Based Box-Coverin...
Fractality of Massive Graphs: Scalable Analysis with Sketch-Based Box-Coverin...Fractality of Massive Graphs: Scalable Analysis with Sketch-Based Box-Coverin...
Fractality of Massive Graphs: Scalable Analysis with Sketch-Based Box-Coverin...Kenko Nakamura
 
Kaggle boschコンペ振り返り
Kaggle boschコンペ振り返りKaggle boschコンペ振り返り
Kaggle boschコンペ振り返りKeisuke Hosaka
 
Mining of Massive Datasets Chapter5: Link Analysis
Mining of Massive Datasets Chapter5: Link AnalysisMining of Massive Datasets Chapter5: Link Analysis
Mining of Massive Datasets Chapter5: Link AnalysisKenji Hayashida
 
MongoDB as Search Engine Repository @ MongoTokyo2011
MongoDB as Search Engine Repository @ MongoTokyo2011MongoDB as Search Engine Repository @ MongoTokyo2011
MongoDB as Search Engine Repository @ MongoTokyo2011Preferred Networks
 
NIPS Paper Reading, Data Programing
NIPS Paper Reading, Data ProgramingNIPS Paper Reading, Data Programing
NIPS Paper Reading, Data ProgramingKotaro Tanahashi
 
Bayesian Nonparametric Motor-skill Representations for Efficient Learning of ...
Bayesian Nonparametric Motor-skill Representations for Efficient Learning of ...Bayesian Nonparametric Motor-skill Representations for Efficient Learning of ...
Bayesian Nonparametric Motor-skill Representations for Efficient Learning of ...Nishanth Koganti
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
Kaggle bosch presentation material for Kaggle Tokyo Meetup #2
Kaggle bosch presentation material for Kaggle Tokyo Meetup #2Kaggle bosch presentation material for Kaggle Tokyo Meetup #2
Kaggle bosch presentation material for Kaggle Tokyo Meetup #2Keisuke Hosaka
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
機械学習に取り組んでいる企業の紹介
機械学習に取り組んでいる企業の紹介機械学習に取り組んでいる企業の紹介
機械学習に取り組んでいる企業の紹介Kazuma Kadomae
 
Binarized Neural Networks
Binarized Neural NetworksBinarized Neural Networks
Binarized Neural NetworksShotaro Sano
 
On the benchmark of Chainer
On the benchmark of ChainerOn the benchmark of Chainer
On the benchmark of ChainerKenta Oono
 
深層学習ライブラリの環境問題Chainer Meetup2016 07-02
深層学習ライブラリの環境問題Chainer Meetup2016 07-02深層学習ライブラリの環境問題Chainer Meetup2016 07-02
深層学習ライブラリの環境問題Chainer Meetup2016 07-02Yuta Kashino
 

Viewers also liked (20)

論文輪読会 - A Multi-level Trend-Renewal Process for Modeling Systems with Recurre...
論文輪読会 - A Multi-level Trend-Renewal Process for Modeling Systems with Recurre...論文輪読会 - A Multi-level Trend-Renewal Process for Modeling Systems with Recurre...
論文輪読会 - A Multi-level Trend-Renewal Process for Modeling Systems with Recurre...
 
機械学習向けプログラミング言語の使い分け - RCO の場合
機械学習向けプログラミング言語の使い分け - RCO の場合機械学習向けプログラミング言語の使い分け - RCO の場合
機械学習向けプログラミング言語の使い分け - RCO の場合
 
Quantum Computing and D-Wave
Quantum Computing and D-WaveQuantum Computing and D-Wave
Quantum Computing and D-Wave
 
Fractality of Massive Graphs: Scalable Analysis with Sketch-Based Box-Coverin...
Fractality of Massive Graphs: Scalable Analysis with Sketch-Based Box-Coverin...Fractality of Massive Graphs: Scalable Analysis with Sketch-Based Box-Coverin...
Fractality of Massive Graphs: Scalable Analysis with Sketch-Based Box-Coverin...
 
Kaggle boschコンペ振り返り
Kaggle boschコンペ振り返りKaggle boschコンペ振り返り
Kaggle boschコンペ振り返り
 
Dynamic filter networks
Dynamic filter networksDynamic filter networks
Dynamic filter networks
 
Mining of Massive Datasets Chapter5: Link Analysis
Mining of Massive Datasets Chapter5: Link AnalysisMining of Massive Datasets Chapter5: Link Analysis
Mining of Massive Datasets Chapter5: Link Analysis
 
MongoDB as Search Engine Repository @ MongoTokyo2011
MongoDB as Search Engine Repository @ MongoTokyo2011MongoDB as Search Engine Repository @ MongoTokyo2011
MongoDB as Search Engine Repository @ MongoTokyo2011
 
Lambda and rundeck
Lambda and rundeckLambda and rundeck
Lambda and rundeck
 
NIPS Paper Reading, Data Programing
NIPS Paper Reading, Data ProgramingNIPS Paper Reading, Data Programing
NIPS Paper Reading, Data Programing
 
Bayesian Nonparametric Motor-skill Representations for Efficient Learning of ...
Bayesian Nonparametric Motor-skill Representations for Efficient Learning of ...Bayesian Nonparametric Motor-skill Representations for Efficient Learning of ...
Bayesian Nonparametric Motor-skill Representations for Efficient Learning of ...
 
NIPS2016 Supervised Word Mover's Distance
NIPS2016 Supervised Word Mover's DistanceNIPS2016 Supervised Word Mover's Distance
NIPS2016 Supervised Word Mover's Distance
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
Kaggle bosch presentation material for Kaggle Tokyo Meetup #2
Kaggle bosch presentation material for Kaggle Tokyo Meetup #2Kaggle bosch presentation material for Kaggle Tokyo Meetup #2
Kaggle bosch presentation material for Kaggle Tokyo Meetup #2
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
機械学習に取り組んでいる企業の紹介
機械学習に取り組んでいる企業の紹介機械学習に取り組んでいる企業の紹介
機械学習に取り組んでいる企業の紹介
 
Binarized Neural Networks
Binarized Neural NetworksBinarized Neural Networks
Binarized Neural Networks
 
On the benchmark of Chainer
On the benchmark of ChainerOn the benchmark of Chainer
On the benchmark of Chainer
 
Deep parking
Deep parkingDeep parking
Deep parking
 
深層学習ライブラリの環境問題Chainer Meetup2016 07-02
深層学習ライブラリの環境問題Chainer Meetup2016 07-02深層学習ライブラリの環境問題Chainer Meetup2016 07-02
深層学習ライブラリの環境問題Chainer Meetup2016 07-02
 

Similar to ユークリッド距離以外の距離で教師無しクラスタリング

8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論sleepy_yoshi
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011Preferred Networks
 
PRML 4.1 輪講スライド
PRML 4.1 輪講スライドPRML 4.1 輪講スライド
PRML 4.1 輪講スライドKawaAkimune
 
Integrating different data types by regularized unsupervised multiple kernel...
Integrating different data types by regularized  unsupervised multiple kernel...Integrating different data types by regularized  unsupervised multiple kernel...
Integrating different data types by regularized unsupervised multiple kernel...Y-h Taguchi
 
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1hirokazutanaka
 
東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 Clustering東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 ClusteringHiroshi Ono
 
カーネル法:正定値カーネルの理論
カーネル法:正定値カーネルの理論カーネル法:正定値カーネルの理論
カーネル法:正定値カーネルの理論Daiki Tanaka
 
機械学習と深層学習の数理
機械学習と深層学習の数理機械学習と深層学習の数理
機械学習と深層学習の数理Ryo Nakamura
 
210603 yamamoto
210603 yamamoto210603 yamamoto
210603 yamamotoRCCSRENKEI
 
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationDeep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationtakutori
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1hirokazutanaka
 
Introduction to the particle filter
Introduction to the particle filterIntroduction to the particle filter
Introduction to the particle filterSatoshi Minakuchi
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布t2tarumi
 
データ圧縮
データ圧縮データ圧縮
データ圧縮Joe Suzuki
 

Similar to ユークリッド距離以外の距離で教師無しクラスタリング (20)

主成分分析
主成分分析主成分分析
主成分分析
 
8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
 
PRML 4.1 輪講スライド
PRML 4.1 輪講スライドPRML 4.1 輪講スライド
PRML 4.1 輪講スライド
 
Re revenge chap03-1
Re revenge chap03-1Re revenge chap03-1
Re revenge chap03-1
 
Integrating different data types by regularized unsupervised multiple kernel...
Integrating different data types by regularized  unsupervised multiple kernel...Integrating different data types by regularized  unsupervised multiple kernel...
Integrating different data types by regularized unsupervised multiple kernel...
 
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
 
東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 Clustering東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 Clustering
 
NLPforml5
NLPforml5NLPforml5
NLPforml5
 
カーネル法:正定値カーネルの理論
カーネル法:正定値カーネルの理論カーネル法:正定値カーネルの理論
カーネル法:正定値カーネルの理論
 
機械学習と深層学習の数理
機械学習と深層学習の数理機械学習と深層学習の数理
機械学習と深層学習の数理
 
PRML5
PRML5PRML5
PRML5
 
210603 yamamoto
210603 yamamoto210603 yamamoto
210603 yamamoto
 
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationDeep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___information
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
 
Introduction to the particle filter
Introduction to the particle filterIntroduction to the particle filter
Introduction to the particle filter
 
回帰
回帰回帰
回帰
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布
 
Prml9
Prml9Prml9
Prml9
 
データ圧縮
データ圧縮データ圧縮
データ圧縮
 

More from Maruyama Tetsutaro

Online Matching and Ad Allocaton 8章&9章半分
Online Matching and Ad Allocaton 8章&9章半分Online Matching and Ad Allocaton 8章&9章半分
Online Matching and Ad Allocaton 8章&9章半分Maruyama Tetsutaro
 
shot note で手書き資料作成
shot note で手書き資料作成shot note で手書き資料作成
shot note で手書き資料作成Maruyama Tetsutaro
 
Mining of massive datasets chapter3
Mining of massive datasets chapter3Mining of massive datasets chapter3
Mining of massive datasets chapter3Maruyama Tetsutaro
 
業務に活かすデータサイエンスとは?
業務に活かすデータサイエンスとは?業務に活かすデータサイエンスとは?
業務に活かすデータサイエンスとは?Maruyama Tetsutaro
 
Ubuntuで最新パッケージを導入
Ubuntuで最新パッケージを導入Ubuntuで最新パッケージを導入
Ubuntuで最新パッケージを導入Maruyama Tetsutaro
 
Zshでデキるプロンプト
ZshでデキるプロンプトZshでデキるプロンプト
ZshでデキるプロンプトMaruyama Tetsutaro
 
ランダム・シャッフル
ランダム・シャッフルランダム・シャッフル
ランダム・シャッフルMaruyama Tetsutaro
 
Zipf分布に従う乱数の生成方法
Zipf分布に従う乱数の生成方法Zipf分布に従う乱数の生成方法
Zipf分布に従う乱数の生成方法Maruyama Tetsutaro
 
円錐曲線の極座標表示
円錐曲線の極座標表示円錐曲線の極座標表示
円錐曲線の極座標表示Maruyama Tetsutaro
 

More from Maruyama Tetsutaro (13)

Online Matching and Ad Allocaton 8章&9章半分
Online Matching and Ad Allocaton 8章&9章半分Online Matching and Ad Allocaton 8章&9章半分
Online Matching and Ad Allocaton 8章&9章半分
 
shot note で手書き資料作成
shot note で手書き資料作成shot note で手書き資料作成
shot note で手書き資料作成
 
keynoteでslideshare
keynoteでslidesharekeynoteでslideshare
keynoteでslideshare
 
Mining of massive datasets chapter3
Mining of massive datasets chapter3Mining of massive datasets chapter3
Mining of massive datasets chapter3
 
業務に活かすデータサイエンスとは?
業務に活かすデータサイエンスとは?業務に活かすデータサイエンスとは?
業務に活かすデータサイエンスとは?
 
日本の伝統色
日本の伝統色日本の伝統色
日本の伝統色
 
Gnuplotあれこれ
GnuplotあれこれGnuplotあれこれ
Gnuplotあれこれ
 
Ubuntuで最新パッケージを導入
Ubuntuで最新パッケージを導入Ubuntuで最新パッケージを導入
Ubuntuで最新パッケージを導入
 
Zshでデキるプロンプト
ZshでデキるプロンプトZshでデキるプロンプト
Zshでデキるプロンプト
 
配列数式
配列数式配列数式
配列数式
 
ランダム・シャッフル
ランダム・シャッフルランダム・シャッフル
ランダム・シャッフル
 
Zipf分布に従う乱数の生成方法
Zipf分布に従う乱数の生成方法Zipf分布に従う乱数の生成方法
Zipf分布に従う乱数の生成方法
 
円錐曲線の極座標表示
円錐曲線の極座標表示円錐曲線の極座標表示
円錐曲線の極座標表示
 

Recently uploaded

ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦Sadao Tokuyama
 
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法ssuser370dd7
 
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfMatsushita Laboratory
 
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor arts yokohama
 
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdfAyachika Kitazaki
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)ssuser539845
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~arts yokohama
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見Shumpei Kishi
 
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-LoopへTetsuya Nihonmatsu
 

Recently uploaded (12)

ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
 
2024 03 CTEA
2024 03 CTEA2024 03 CTEA
2024 03 CTEA
 
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
 
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
 
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor
 
2024 04 minnanoito
2024 04 minnanoito2024 04 minnanoito
2024 04 minnanoito
 
What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?
 
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
 
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
 

ユークリッド距離以外の距離で教師無しクラスタリング

  • 7.
  • 8.
  • 17. Weight Kernel k-Means データのベクトル a j 番目のクラスタ πj 特徴空間への写像 φ(a) πj の重心 mi = x∈πj w(x)φ(x) x∈πj w(x) データ a の重み w(a) データ a とクラスタ πj の重心 mi との距離 (φ(a) − mi) 2 = φ(a) · φ(a) − 2 x∈πj w(x)φ(a) · φ(x) x∈πj w(x) + x,y∈πj w(x)w(y)φ(x) · φ(y) x∈πj w(x) 2 内積 φ(x) · φ(y) はカーネル関数 K(x, y) に置き換えられる(=カーネルトリック) 重心も重心との距離もカーネル関数のみで計算できるので、k-Means はできる
  • 19. 元々の Spectral clustering ”On Spectral Clustering: Analysis and an algorithm”, A. Ng, M. Jordan, Y. Weiss, NIPS 2001 1. n × n の類似度行列 A がある • Ai,j (i ̸= j) はデータ i とデータ j の類似度 • Ai,i = 0 2. Di,i が A の i 行の合計であるような対角行列 D を考える 3. L = D−1/2 AD−1/2 を計算する 4. L の固有値・固有ベクトルのうち、固有値が大きい k 個のベクトルから n × k 行列の X を作る 5. Yi,j = Xi,j/ j X 1/2 i,j 2 と、X を正規化した n × k 行列 Y を作る 6. Y を使って k-Means する
  • 21.
  • 25. ”Multiclass Spectral Clustering”, S. Yu, J. Shi, IEEE Computer Vision 2003 V 頂点(データ)の集合 W 類似度行列(非負&対称行列) Γk V {V1, · · · , Vk}:データの k 個クラスタリング V = ∪k i=1Vi Vi ∩ Vj = ∅ (i ̸= j) links(A, B) = i∈A,j∈B W(i, j) A から B への類似度和 degree(A) = links(A, V) A の類似度和(度数) linkratio(A, B) = links(A,B) degree(A) 正規化した links knassoc(Γk V ) = 1 k k i=1 linkratio(Vi, Vi) アソシエーション kncuts(Γk V ) = 1 k k i=1 linkratio(Vi, VVi) カット knassoc(Γk V ) + kncuts(Γk V ) = 1 kncats の最小化 ⇒ knassoc の最大化 Xl = (X(1, l), · · · , X(n, l)) X(i, l) は、データ i がクラスタ l に含まれてたら 1、含まれてなかったら 0 X = [X1, · · · , Xk] n × k 分割行列 1d 全部の値が 1 である d 次元ベクトル Diag(a) ベクトル a から対角行列を作る関数 D = Diag(W1n) 度数行列(対角成分は、各データへの類似度の和) links(Vl, Vl) = XT l WXl links を行列の計算に変換 degree(Vl) = XT l DXl degree を行列の計算に変換
  • 26. ってことは、この問題は以下になる(PNCX)。 maximize ε(X) = 1 k k l=1 XT l WXl XT l DXl subject to X ∈ {0, 1} n×k X1k = 1n 今、Z = f(X) = X(XT DX)−1/2 という行列を考える。 この行列は以下の特徴を持つ。(D が対角行列なので) ZT DZ = (XT DX)−1/2 XT DX(XT DX)−1/2 = Ik すると、PNCX は以下の PNCZ に変形できる。 maximize ε(Z) = 1 k tr(ZT WZ) subject to ZT DZ = Ik このトレースへの変換が非常に重要だと思うのだが、こ れが載っていると思われる論文(P. Chan, D. Schlag, Y. Zien. ”Spectral k-way ratio-cut partitioning and cluster- ing”. IEEE Computer-aided Design of Integrated Circuits and Systems, 1994)が有料で読めない。 グラフ理論の教科書とかには書いてあるのかなぁ。 P = D−1 W となる正規化重み行列 P を考える。P は正規 化された実対称行列(確率行列)なので、すべて正の実数で ある固有値を持ち、その最大値は 1 である。 対角成分に P の固有値を置いた行列を S、固有ベクトルを並 べた行列を V とする。固有値固有ベクトルの定義 PV = V S から、式を変形していくと、以下が得られる。( ¯V = D1/2 V ) D−1/2 WD−1/2 = ¯V S ¯V −T ¯V T ¯V = In PNCX に V を代入した場合が、最も ε(V ) が大きくなるの は明らか。ってことは、P の固有値の大きい順に k 個足した ものが PNCX の最大値である。 となると、以下の手順で最適な分割 ˜X∗ が求められる。 Z∗ = [V1, · · · , Vk] X = f−1 (Z) = Diag(diag−1/2 (ZZT ))Z ˜X∗ = f−1 (Z∗ )R 1. P = D−1 W を固有値分解して、固有値が大きい top k 個のベクトルで Z∗ (n × k 行列)を作る 2. X から Z を作った変換の逆変換 f−1 を考える(diag は対角成分だけ強引に足し合わせる関数) 3. RT R = Ik となる任意の行列 R をとって、Z∗ に f−1 かます
  • 28.