SlideShare a Scribd company logo
1 of 62
Download to read offline
確率分布間の距離をどう測るか?
A summary on “On choosing and bounding
probability metrics”
June 20, 2018
松井孝太
理研 AIP データ駆動型生物医科学チーム
Table of contents
1. Introduction
2. 10 metrics on probability measures
3. Some relationships among probability metrics
4. Why Wasserstein distance?
1
Introduction
Introduction I
Alison et al. [2002], “On choosing and bounding
probability metrics” の 3 章までのまとめ
問題意識
最近 Wasserstein distance を使った ML の方法論が (と
りわけ domain adaptation の文脈で)  次々提案されて
いるが, なぜ Wasserstein distance を使うのが良いのか
を知りたかった
2
Introduction II
• 確率分布間の metric として何を使えば良いのか問題.
• metric の選び方によって問題の解釈や理論的性質, 使
える bound テクも変わってくる.
• もし metric 間の関係が明らかであれば, 1 つの metric
の理論を他の metric に拡張することができる.
この論文 (Alison et al., 2002) では
• 10 種類の重要な metric を review し, その間の関係を
サーベイする (このスライドの目的).
• 各 metric の応用や, metric を取り替えることによっ
て (様々な) 収束レートが変動することの例示.
3
10 metrics on probability
measures
Preliminary
Notation
• (Ω, B) : (Borel) 可測空間
• P(Ω) : Ω 上の確率測度の集合
• µ, ν ∈ P(Ω) に対して, f, g をそれぞれ µ, ν の σ-有限
な λ に関する密度関数とする. (i.e. µ, ν ≪ λ)
• supp(µ) = {ω ∈ Ω | µ(ω) > 0} (µ のサポート)
• Ω = R のとき, F, G をそれぞれ µ, ν の累積分布関数と
する. また, X, Y をそれぞれ Ω 上の確率変数とすると
き, これらから誘導される分布を L(X) = µ, L(Y) = ν
と書くこともある.
• (Ω, d) が有界距離空間のとき, Ω の直径を以下で定義
diam(Ω) = sup
x,y∈Ω
d(x, y).
4
Preliminary
• Cb(Ω) : Ω 上の有界連続関数の集合
Definition 1 (弱収束, weak convergence)
µn, µ ∈ P(Ω), n = 1, 2, ... とする. ∀f ∈ Cb(Ω) に対して,
∫
Ω
f(x)µn(dx) →
∫
Ω
f(x)µ(dx)
が成り立つとき, {µn} は µ に弱収束するといい, µn ⇀ µ
と書く.
Remark 1
確率変数 Xn, X の分布を µn, µ とするとき, µn ⇀ µ であれ
ば Xn は X に分布収束 (or 法則収束) するといい, Xn →d X
と書く. 5
Preliminary
P(Ω) は弱収束の位相によって位相空間とみなせる.
Definition 2 (弱収束の距離付け可能性)
P(Ω) 上のある距離 d が定める位相が弱収束の位相と一
致するとき (すなわち, d による収束と弱収束が同値であ
るとき), P(Ω) は d で距離付け可能という.
Remark 2
本論文では, 弱収束が距離付け可能かどうかは, 確率分布
間の距離の評価指標の 1 つとして重視される.
6
1. Discrepancy metric
Definition 3 (Discrepancy metric)
Ω を距離空間とする.
dD(µ, ν) := sup
B∈B
|µ(B) − ν(B)| ∈ [0, 1],
ここで, B は Ω 上の閉球全体の集合.
• base space Ω の距離位相に基づいた距離 (閉球の体
積比較).
• スケール不変 (ベース空間の距離を正の定数倍しても
dD は変わらず)
• Fourier bound を達成する (cf : 群上のランダムウォー
クの収束証明)
7
2. Hellinger distance I
Definition 4 (Hellinger distance)
Ω を可測空間とする. f, g をそれぞれ µ, ν(≪ λ) の密度関
数とするとき,
dH(µ, ν) :=
[∫
Ω
(f1/2
− g1/2
)2
dλ
]1/2
=
[
2
(
1 −
∫
Ω
(fg)1/2
dλ
)]1/2
∈ [0,
√
2]
この定義は reference measure λ のとり方によらない. Ω
が可算集合のときは以下のように書ける:
dH(µ, ν) :=
[
∑
ω∈Ω
(µ(ω)1/2
− ν(ω)1/2
)2
]1/2
.
8
2. Hellinger distance II
• µ = µ1 × µ2, ν = ν1 × ν2 なる直積測度を考えると,
1 −
1
2
d2
H(µ, ν) =
(
1 −
1
2
d2
H(µ1, ν1)
) (
1 −
1
2
d2
H(µ2, ν2)
)
が成立. すなわち, ベクトル v が v = (v1, v2) のように
独立な成分を並べた形をしている場合, 対応する分布
は, 成分毎の分布の積に分解できる. 左辺は Hellinger
affinity と呼ばれる. また, 上の事実の系として
d2
H(µ, ν) ≤ d2
H(µ1, ν1) + d2
H(µ2, ν2)
が成立.
9
3. Relative Entropy (Kullback-Leibler divergence) I
Definition 5 (Relative entropy)
Ω を可測空間とする. f, g をそれぞれ µ, ν(≪ λ) の密度関
数とするとき,
dI(µ, ν) :=
∫
supp(µ)
f log
f
g
dλ ∈ [0, +∞],
ここで, supp(µ) ⊂ Ω は µ のサポートである. この定義は
reference measure λ のとり方によらない. Ω が可算集合
のときは以下のように書ける:
dI(µ, ν) =
∑
ω∈Ω
µ(ω) log
µ(ω)
ν(ω)
.
10
3. Relative Entropy (Kullback-Leibler divergence) II
• 慣習的に, 任意の q ∈ R に対して
0 × log
0
q
= 0
また, 任意の p ̸= 0 に対して
p × log
p
0
= +∞
とする (ために, dI ∈ [0, +∞] となる).
• 非対称かつ三角不等式を満たさないため, 距離ではな
い. 一方で, 直積測度 µ = µ1 × µ2, ν = ν1 × ν2 に対して
加法性
dI(µ, ν) = dI(µ1, ν1) + dI(µ2, ν2)
を満たす.
11
4. Kolmogorov (Uniform) metric
Definition 6 (Kolmogorov metric)
Ω = R とする. Kolmogorov metric は, R 上の分布 µ, ν の
間の距離を, 対応する分布関数 F, G の間の距離として表
現する:
dK(F, G) := sup
x∈R
|F(x) − G(x)| ∈ [0, 1],
• 単調増加な 1 対 1 変換に関して不変である.
12
5. L´evy metric
Definition 7 (L´evy metric)
Ω = R とする.
dL(F, G)
:= inf{ε > 0 : G(x − ε) − ε ≤ F(x) ≤ G(x + ε) + ε, ∀x ∈ R}
∈ [0, 1],
• L´evy metric は, R 上の弱収束位相を距離付けする:
Fn →d F as n → ∞ iff dL(Fn, F) → 0 as n → ∞.
• shift-invariant だが scale-invariant ではない.
13
6. Prokhorov ( or L´evy-Prokhorov) metric
Definition 8 (Prokhorov metric)
Ω を距離空間とする.
dP(µ, ν) := inf{ε > 0 : µ(B) ≤ ν(Bε) + ε, ∀B ⊂Borel Ω} ∈ [0, 1],
ここで, Bε = {x : infy∈B d(x, y) ≤ ε}.
• dP は対称性を持つ.
•
14
7. Separation distance
Definition 9 (Separation distance)
Ω を可算空間とする.
dS(µ, ν) := max
i
(
1 −
µ(i)
ν(i)
)
∈ [0, 1].
• dS は厳密な距離ではない.
• マルコフ連鎖の解析のために導入された.
15
8. Total variation I
Definition 10 (Total variation)
Ω を可測空間とする.
dTV(µ, ν) := sup
A⊂Ω
|µ(A) − ν(A)|
=
1
2
max
|h|≤1
∫
hdµ −
∫
hdν ∈ [0, 1],
ここで, h : Ω → R. Ω が可算空間のとき,
dTV :=
1
2
∑
ω∈Ω
|µ(ω) − ν(ω)|
と定める. これは L1 ノルムの 1/2 倍であり, 文献によっ
ては 2dTV を total variation と定義するものもある.
16
8. Total variation II
Total variation はカップリング測度の inf として特徴付け
ができる:
dTV(µ, ν) = inf{Pr(X ̸= Y) | X, Y : r.v. s.t. L(X) = µ, L(Y) = ν}
(1)
17
9. Wasserstein (or Kantorovich) distance I
Definition 11 (Wasserstein distance)
Ω を可分距離空間とする. µ, ν の 1-Wasserstein distance
を
dW(µ, ν) = inf
π∈Π(µ,ν)
∫
Ω×Ω
d(x, y)dπ(x, y)
で定義する. ここで,
Π(µ, ν) := {π : prob. measure on Ω × Ω |
π(B × Ω) = µ(B), π(Ω × B) = ν(B), ∀B ⊂ Ω}
を Ω 上のカップリング測度の集合と呼ぶ.
18
9. Wasserstein (or Kantorovich) distance II
• Kantorovich-Rubinstein duality より,
dW(µ, ν) = sup
∥h∥L≤1
∫
hdµ −
∫
hdν ∈ [0, diam(Ω)]
が成立. ここで, sup は Lipschitz condition
|h(x) − h(y)| ≤ d(x, y) を満たす h について取る. この
右辺を Kantorovich metric と呼ぶ.
• 特に Ω = R のとき, 右辺は以下のように書ける:
∫ ∞
−∞
|F(x) − G(x)|dx =
∫ 1
0
|F−1
(t) − G−1
(t)|dt
19
10. χ2
-distance I
Definition 12 (χ2
distance)
Ω を可測空間とする. f, g をそれぞれ µ, ν(≪ λ) の密度関
数とするとき,
dχ2 (µ, ν) :=
∫
supp(µ)∪supp(ν)
(f − g)2
g
dλ ∈ [0, ∞].
特に Ω が可算空間のとき以下のように書ける:
dχ2 (µ, ν) :=
∑
ω∈supp(µ)∪supp(ν)
(µ(ω) − ν(ω))2
ν(ω)
.
20
10. χ2
-distance II
この metric は対称性を持たない (すなわち距離ではない).
一方で, 直積測度 µ = µ1 × µ2, ν = ν1 × ν2 に対して,
Hellinger distance や relative entropy と同様に
dχ2 (µ, ν) ≤ dχ2 (µ1, ν1) + dχ2 (µ2, ν2)
が成立.
21
Remarks
任意の凸関数 f に対して, µ と ν の間の f-divergence を
df(µ, ν) :=
∑
ω
ν(ω)f
(
µ(ω)
ν(ω)
)
で定義すると, 種々の metric を統一的に表現できる.
22
Example I : χ2
-distance
f(x) = (x − 1)2
ととると, χ2
-distance が導出される:
df(µ, ν) =
∑
ω
ν(ω)
(
µ(ω)
ν(ω)
− 1
)2
=
∑
ω
ν(ω)
(
µ(ω) − ν(ω)
ν(ω)
)2
= dχ2 (µ, ν)
23
Example II : relative entropy
f(x) = x log x ととると, relative entropy が導出される:
df(µ, ν) =
∑
ω
ν(ω)
µ(ω)
ν(ω)
log
µ(ω)
ν(ω)
=
∑
ω
µ(ω) log
µ(ω)
ν(ω)
= dI(µ, ν)
24
Example III : total variation
f(x) = |x−1|
2
ととると, total variation が導出される:
df(µ, ν) =
∑
ω
ν(ω)
|µ(ω)
ν(ω)
− 1|
2
=
1
2
∑
ω
|µ(ω) − ν(ω)|
= dTV(µ, ν)
25
Example IV : Hellinger distance
f(x) = (
√
x − 1)2
ととると, Hellinger distance が導出され
る:
df(µ, ν) =
∑
ω
ν(ω)
(√
µ(ω)
ν(ω)
− 1
)2
=
∑
ω
ν(ω)
(
µ(ω)
ν(ω)
− 2
√
µ(ω)
ν(ω)
− 1
)
=
∑
ω
(
µ(ω) − 2
√
µ(ω)ν(ω) − ν(ω)
)
=
∑
ω
(√
µ(ω) −
√
ν(ω)
)2
= dH(µ, ν)2
26
Some relationships among
probability metrics
S
❅
❅
❅
❅
❅
❅■ x
TV ✲x
✛√
2x
H
W
on
metric
spaces
❅
❅
❅
❅
❅
❅❘
x/dmin ❅
❅
❅
❅
❅
❅■ diamΩ · x
✲
√
x
✛
(diamΩ + 1) x
 
 
 
 
 
 ✒√
x/2
ν dom µ
❅
❅
❅
❅
❅
❅■
√
x✻x/2
I ✲log(1 + x)
χ2 non-metric
distances
✻√
x
ν dom µ
✻x
P
 
 
 
 
 
 ✒x
D
❄
2x
✻x
K L on IR
✻x
✛x
✲(1 + sup |G′|)x
✲x + φ(x)
論文 Figure 1 の確率分布間の距離の関係の詳細を見る.
27
Kolmogorov-L´evy on R
Fact 1
確率測度 µ, ν ∈ P(R) の分布関数をそれぞれ F, G とする
とき,
dL(F, G) ≤ dK(F, G) (2)
が成立 (Huber, 1981). さらに, もし G がルベーグ測度に
対して絶対連続であれば,
dK(F, G) ≤
(
1 + sup
x
|G′
(x)|
)
dL(F, G)
が成立 (Petrov, 1995). ここで, G′
は G の微分 (密度関数)
を表す.
28
Discrepancy-Kolmogorov on R
Fact 2
確率測度 µ, ν ∈ P(R) の分布関数をそれぞれ F, G とする
とき,
dK(F, G) ≤ dD(µ, ν) ≤ 2dK(F, G) (3)
が成立.
29
Prokhorov-L´evy on R
Fact 3
確率測度 µ, ν ∈ P(R) の分布関数をそれぞれ F, G とする
とき,
dL(F, G) ≤ dP(µ, ν)
が成立 (Huber, 1981).
30
Prokhorov-Discrepancy I
Theorem 1
Ω を任意の距離空間, ν を
ν(Bε) ≤ ν(B) + ϕ(ε), ∀B : ball on Ω
を満たす任意の確率測度とする. ここで, ϕ は右連続な関
数とする (任意の ball を ε だけ膨らませた ball の体積の
増え方は, ある右連続関数で記述される). このとき,
dP(µ, ν) = x を満たす任意の確率測度 µ に対して,
dD(µ, ν) ≤ x + ϕ(x)
が成立. すなわち,
dD(µ, ν) ≤ dP(µ, ν) + ϕ(dP(µ, ν))
31
Prokhorov-Discrepancy II
Example 1
ν として S1
または R 上の一様分布をとる (ν = U). この
とき, ϕ(x) = 2x ととると,
dD(µ, U) ≤ 3dP(µ, U)
が成立.
(proof) ν(Bx) ≤ ν(B) + ϕ(x) より,
µ(B) − ν(Bx) ≥ µ(B) − ν(B) − ϕ(x)
が成立. dP(µ, ν) = x ならば, ∀˜x > x に対して,
µ(B) − ν(B˜x) ≤ ˜x
が成立 (上式を満たす ˜x の inf が dP). 32
Prokhorov-Discrepancy III
(proof つづき) 2 つの不等式を合わせると,
µ(B) − ν(B) − ϕ(˜x) ≤ ˜x
となり, B に関して sup をとると,
sup
B
(µ(B) − ν(B)) ≤ ˜x + ϕ(˜x) (4)
を得る. ここで,
ν(B) − µ(B) = 1 − ν(Bc
) − (1 − µ(Bc
)) = µ(Bc
) − ν(Bc
)
より (Bc
は B の補集合),
sup
B
(ν(B) − µ(B)) = sup
Bc
(µ(Bc
) − ν(Bc
)) ≤ ˜x + ϕ(˜x) (5)
が成立.
33
Prokhorov-Discrepancy IV
(proof つづき) (4) と (5) 及び supB ≤ supB,Bc より,
dD(µ, ν) ≤ ˜x + ϕ(˜x)
を得る. 右辺で ˜x ↘ x とすれば, 所望の結果を得る (ϕ は右
連続だから, ϕ(x) = lim
˜x↘x
ϕ(˜x) は存在). 2
34
Prokhorov-Wasserstein I
Theorem 2
Ω が完備可分な距離空間のとき,
(dP)2
≤ dW ≤ (diam(Ω) + 1)dP
が成立.
(proof) J を確率変数 X, Y の同時分布とするとき,
EJ[d(X, Y)] ≤ ε × Pr(d(X, Y) ≤ ε) + diam(Ω) × Pr(d(X, Y) > ε)
= ε × (1 − Pr(d(X, Y) > ε))
+ diam(Ω) × Pr(d(X, Y) > ε)
= ε + (diam(Ω) − ε) × Pr(d(X, Y) > ε)
が成立 (ε を実現値として期待値を書き, 上からバウンド). 35
Prokhorov-Wasserstein II
dP(µ, ν) ≤ ε であるとき,
Prπ(d(X, Y) > ε) ≤ ε
を満たす π ∈ Π(µ, ν) がとれる (Huber, 1981). このとき,
EJ[d(X, Y)] ≤ ε + (diam(Ω) − ε
≤diam(Ω)
)ε ≤ (diam(Ω) + 1)ε
が成り立つから, π ∈ Π(µ, ν) に関する inf をとれば,
dW ≤ (diam(Ω) + 1)dP
が成立 (主張の右側の不等号).
36
Prokhorov-Wasserstein III
一方で, ε を dW(µ, ν) = ε2
となるようにとると, Markov の
不等式 (Pr(|X| > a) ≤ 1
a
E[|X|]) より
Pr(d(X, Y) > ε) ≤
1
ε
EJ[d(X, Y)] ≤
1
ε
× ε2
= ε
が成立.
Lemma 1 (Strassen’s theorem)
∀B ⊂Borel Ω に対して,
Pr(d(X, Y) > ε) ≤ ε ⇐⇒ µ(B) ≤ ν(Bε) + ε.
Lemma 1で ε の inf をとれば, 所望の結果を得る:
dP ≤ ε ⇒ (dP)2
≤ ε2
= dW. 2 37
Prokhorov-Wasserstein IV
Remark 3
• Ω が非有界のとき, 定理のようなバウンドは不成立.
Example 2 (Theorem 2 の反例 (Dudkey, 1989))
Ω = R とし,
Pn :=
(n − 1)δ0 + δn
n
とおくと, dP(Pn, δ0) → 0 as n → ∞ だが, dW(Pn, δ0) = 1, ∀n
となる.
• Theorem 2の特別な場合として, (Ω, d) が完備可分距
離空間で d ≤ 1 のとき, 以下が成立  (Huber, 1981):
(dP)2
≤ dW ≤ 2dP. 38
Wasserstein-Discrepancy I
Theorem 3
Ω が有限集合のとき,
dmin × dD ≤ dW
が成り立つ. ここで, dmin = minx̸=y d(x, y) である.
Remark 4
この定理の左辺は, Ω が無限集合のとき, dmin をいくらで
も小さくできる場合があり, 確率分布間の距離の比較と
しては情報がほとんどないことがある (Theorem 4の節
も参照).
39
Total variation-Discrepancy
Discrepancy はすべての ball に関する sup であり, total
variation はすべての可測集合に関する sup であるから,
明らかに
dD ≤ dTV
が成り立つ (後者の方が sup をとる範囲が広い).
Remark 5
離散分布 · 連続分布どちらの状況でも, dTV=1 = 1 かつ dD
をいくらでも小さくできる場合があるため, 逆向き
(dTV ≤ dD) は言えない.
40
Total variation-Prokhorov
Ω が距離空間のとき, µ, ν ∈ P(Ω) に対して,
dP ≤ dTV
が成立 (Huber, 1981).
41
Wasserstein-Total variation I
Theorem 4
次の bound が成り立つ:
dW ≤ diam(Ω) × dTV.
Ω が有限集合のとき, Theorem 3 と同様の bound が成立:
dmin × dTV ≤ dW.
Remark 6
Ω が無限集合のとき, Theorem 3と同様に dmin をいくら
でも小さくでき得るので, less information な可能性が
ある.
42
Wasserstein-Total variation II
(proof) 最初の不等式は, general な不等式
d(X, Y) ≤ 1X̸=Y × diam(Ω)
に対して, 両辺で coupling measure に関する inf をとると
得られる (TV distance における (1) による). 逆向きの不等
式は,
d(X, Y) ≥ 1X̸=Y × min
a̸=b
d(a, b)
の両辺で coupling measure に関して inf をとれば OK.
43
Hellinger-Total variation
Fact 4 (LeCam, 1969)
d2
H
2
≤ dTV ≤ dH
44
Separation distance-Total variation
Fact 5 (Aldous & Diaconis, 1987)
dTV ≤ dS
逆は一般に成り立たない.
(∵) µ, ν をそれぞれ {1, ..., n}, {1, ..., n − 1} 上の一様分布と
すると,
dTV(µ, ν) =
1
n
≤ dS(µ, ν) = 1
2
45
Relative entropy-Total variation
Fact 6 (Kullback, 1967)
Ω が可算空間のとき,
2d2
TV ≤ dI
46
Relative entropy-Hellinger
Fact 7 (Reiss, 1989)
d2
H ≤ dI
47
χ2
-Hellinger
Fact 8 (Reiss, 1989)
dH ≤
√
2d
1/4
χ2 .
さらに, µ が ν に対して絶対連続であれば,
dH ≤ d
1/2
χ2
が成立.
48
χ2
-Total variation
Fact 9
可算空間 Ω において, Cauchy-Schwarz の不等式から,
dTV(µ, ν) =
1
2
∑
ω∈Ω
|µ(ω) − ν(ω)|
√
ν(ω)
√
ν(ω) ≤
1
2
√
dχ2 (µ, ν)
が成立.
Remark 7
Ω が連続な空間の場合でも, µ が ν に対して絶対連続で
あれば同様の結果が成立 (Reiss, 1989).
49
χ2
-Relative entropy I
Theorem 5
dI(µ, ν) ≤ log(1 + dχ2 (µ, ν))
が成り立つ. 特に, dI ≤ dχ2
(proof) log の concavity より, Jensen の不等式を用いると
dI(µ, ν) =
∫
Ω
f log
f
g
dλ ≤
Jensen
log
(∫
Ω
f
g
fdλ
)
= log
(
1 + dχ2 (µ, ν)
)
≤ dχ2 (µ, ν)
が成立. 50
χ2
-Relative entropy II
(proof つづき) ここで, 2 番目の等号は以下による:
dχ2 (µ, ν) =
∫
Ω
(f − g)2
g
dλ =
∫
Ω
(
f
g
f − 2f + g
)
=
∫
Ω
f
g
fdλ − 2
∫
Ω
fdλ
=1
+
∫
Ω
gdλ
=1
=
∫
Ω
f
g
fdλ − 1.
また, 最後の不等号は, log(x + 1) ≤ x から従う. 2
Remark 8
Diaconis & Saloff-Coste (1996) による bound:
dI(µ, ν) ≤ dTV(µ, ν) +
1
2
dχ2 (µ, ν) 51
Weak Convergence I
• Figure 1 のダイアグラムは, 個々の metric 間の関係
(bound) を導出するだけでなく, 確率測度空間に誘導
される位相の関係も示している.
• 例えば, Hellinger metric と Total variation の間の相
互の矢印 H ⇆ TV は, これら 2 つの metric が誘導す
る位相が同値であることを示す.
• また, Prokhorov や L´evy は弱位相を距離付けするが,
他のどの metric がどのような base space 上で同様
に弱位相を距離付けするかを次の定理にまとめる.
52
Weak Convergence II
Theorem 6
• P(R) に対して, L´evy は弱収束を距離付けする. また,
discrepancy や Kolmogorov は L´evy の upper bound
を与える ((2), (3) 式参照) ので, L´evy を通して弱収束
を誘導する. さらに, discrepancy と Kolmogorov は µ
が R 上のルベーグ測度に対して絶対連続のとき, 弱収
束 µn → µ を距離付けする.
• Ω が可測空間のとき, Prokhorov は弱収束を距離付け
する. また, Wasserstein による収束は弱収束を誘導す
る. さらに, Ω が有界であれば, Wasserstein は弱収束
を距離付けする (Prokhorov の upper bound より).
53
Weak Convergence III
Theorem 7 (つづき)
• 次の metric による収束は弱収束を誘導する:
• Hellinger
• separation
• relative entropy
• χ2
• Ω が有限かつ有界のとき, total variation と Hellinger
は弱収束を距離付けする.
54
Why Wasserstein distance?
Way Wasserstein distance? I
Wasserstein は弱収束を距離付けする distance measure
他の distance measure との関係 (tightness)
• Wasserstein ≤ (diam(Ω) + 1)× Prokhorov
• Wasserstein ≤ diam(Ω)× Total variation
• Wasserstein ≤
√
2 × diam(Ω) × KL div.
Key Inequality (Csisz´ar-Kullback-Pinsker)
For p, q ∈ P(Ω),
W1(p, q) ≤ diam(Ω)∥p − q∥TV ≤
√
2diam(Ω)KL(p||q)
55
Way Wasserstein distance? II
Domain adaptation の文脈では...
Wasserstein distance を用いるメリット
1. 2 つの分布のサポートに overlap がない場合でも,
meaningful な距離を与えてくれる (KL などの
f-divergence は, 分布の比が発散するのでダメ).
2. 分布間の距離だけでなく, “どう近づければ良いか?”
という方法も輸送写像として同時に与えてくれる.
3. データの位相的性質を保存する (輸送写像の連続性?)
4. 汎化誤差の bound が他の metric よりも tight.
ref Courty, N. et al. [2017] “Optimal transport for domain
adaptation.” 56
Way Wasserstein distance? III
Domain adaptation を adversarial training (Wasserstein
GAN) として実現できる :
inf
fg
W1(PhS , Pht ) = inf
fg
sup
∥fw∥L≤1
EPxs [fw(fg(x))] − EPxt [fw(fg(x))]
• Pxs , Pxt は source, target のデータ分布
• fw は discriminator (Wasserstein dist. の推定を行う)
• fg は generator (source と target の特徴抽出を行う)
ref Shen, J. et al. [AAAI2018] “Wasserstein Distance
Guided Representation Learning for Domain Adaptation”
57

More Related Content

What's hot

最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?Masanao Ochi
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019Yusuke Uchida
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)narumikanno0918
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシンShinya Shimizu
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介Taku Yoshioka
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習Deep Learning JP
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Plot Hong
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 

What's hot (20)

最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
 
Iclr2016 vaeまとめ
Iclr2016 vaeまとめIclr2016 vaeまとめ
Iclr2016 vaeまとめ
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 

Similar to A summary on “On choosing and bounding probability metrics”

[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介Deep Learning JP
 
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定Yuya Takashina
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知Chika Inoshita
 
最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)
最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)
最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)Nguyen Tuan
 
Grcosmo 44 slide
Grcosmo 44 slideGrcosmo 44 slide
Grcosmo 44 slideKENTAROHARA
 
代数トポロジー入門
代数トポロジー入門代数トポロジー入門
代数トポロジー入門Tatsuki SHIMIZU
 
Coq関係計算ライブラリの開発と写像の性質の証明
Coq関係計算ライブラリの開発と写像の性質の証明Coq関係計算ライブラリの開発と写像の性質の証明
Coq関係計算ライブラリの開発と写像の性質の証明Yoshihiro Mizoguchi
 
introductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisintroductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisTatsuki SHIMIZU
 
経験過程
経験過程経験過程
経験過程hoxo_m
 
内藤ゼミ 凸関数 レジュメ
内藤ゼミ 凸関数 レジュメ 内藤ゼミ 凸関数 レジュメ
内藤ゼミ 凸関数 レジュメ yamazaki ryoga
 
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationDeep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationtakutori
 
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333Issei Kurahashi
 
2014年度春学期 画像情報処理 第4回 離散フーリエ変換 (2014. 5. 7)
2014年度春学期 画像情報処理 第4回 離散フーリエ変換 (2014. 5. 7)2014年度春学期 画像情報処理 第4回 離散フーリエ変換 (2014. 5. 7)
2014年度春学期 画像情報処理 第4回 離散フーリエ変換 (2014. 5. 7)Akira Asano
 
Magnitude ~ extend the Euler Characteristics via Möbius Inversion ~
Magnitude ~ extend the Euler Characteristics via  Möbius Inversion ~Magnitude ~ extend the Euler Characteristics via  Möbius Inversion ~
Magnitude ~ extend the Euler Characteristics via Möbius Inversion ~Tatsuki SHIMIZU
 
確率論基礎
確率論基礎確率論基礎
確率論基礎hoxo_m
 

Similar to A summary on “On choosing and bounding probability metrics” (20)

2013 03 25
2013 03 252013 03 25
2013 03 25
 
PRML 10.4 - 10.6
PRML 10.4 - 10.6PRML 10.4 - 10.6
PRML 10.4 - 10.6
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
 
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
 
最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)
最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)
最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)
 
Grcosmo 44 slide
Grcosmo 44 slideGrcosmo 44 slide
Grcosmo 44 slide
 
分布 isseing333
分布 isseing333分布 isseing333
分布 isseing333
 
代数トポロジー入門
代数トポロジー入門代数トポロジー入門
代数トポロジー入門
 
Coq関係計算ライブラリの開発と写像の性質の証明
Coq関係計算ライブラリの開発と写像の性質の証明Coq関係計算ライブラリの開発と写像の性質の証明
Coq関係計算ライブラリの開発と写像の性質の証明
 
introductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisintroductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysis
 
ロマ数16 simizut
ロマ数16 simizutロマ数16 simizut
ロマ数16 simizut
 
経験過程
経験過程経験過程
経験過程
 
内藤ゼミ 凸関数 レジュメ
内藤ゼミ 凸関数 レジュメ 内藤ゼミ 凸関数 レジュメ
内藤ゼミ 凸関数 レジュメ
 
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationDeep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___information
 
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
 
2014年度春学期 画像情報処理 第4回 離散フーリエ変換 (2014. 5. 7)
2014年度春学期 画像情報処理 第4回 離散フーリエ変換 (2014. 5. 7)2014年度春学期 画像情報処理 第4回 離散フーリエ変換 (2014. 5. 7)
2014年度春学期 画像情報処理 第4回 離散フーリエ変換 (2014. 5. 7)
 
Draftall
DraftallDraftall
Draftall
 
Magnitude ~ extend the Euler Characteristics via Möbius Inversion ~
Magnitude ~ extend the Euler Characteristics via  Möbius Inversion ~Magnitude ~ extend the Euler Characteristics via  Möbius Inversion ~
Magnitude ~ extend the Euler Characteristics via Möbius Inversion ~
 
確率論基礎
確率論基礎確率論基礎
確率論基礎
 

A summary on “On choosing and bounding probability metrics”

  • 1. 確率分布間の距離をどう測るか? A summary on “On choosing and bounding probability metrics” June 20, 2018 松井孝太 理研 AIP データ駆動型生物医科学チーム
  • 2. Table of contents 1. Introduction 2. 10 metrics on probability measures 3. Some relationships among probability metrics 4. Why Wasserstein distance? 1
  • 4. Introduction I Alison et al. [2002], “On choosing and bounding probability metrics” の 3 章までのまとめ 問題意識 最近 Wasserstein distance を使った ML の方法論が (と りわけ domain adaptation の文脈で)  次々提案されて いるが, なぜ Wasserstein distance を使うのが良いのか を知りたかった 2
  • 5. Introduction II • 確率分布間の metric として何を使えば良いのか問題. • metric の選び方によって問題の解釈や理論的性質, 使 える bound テクも変わってくる. • もし metric 間の関係が明らかであれば, 1 つの metric の理論を他の metric に拡張することができる. この論文 (Alison et al., 2002) では • 10 種類の重要な metric を review し, その間の関係を サーベイする (このスライドの目的). • 各 metric の応用や, metric を取り替えることによっ て (様々な) 収束レートが変動することの例示. 3
  • 6. 10 metrics on probability measures
  • 7. Preliminary Notation • (Ω, B) : (Borel) 可測空間 • P(Ω) : Ω 上の確率測度の集合 • µ, ν ∈ P(Ω) に対して, f, g をそれぞれ µ, ν の σ-有限 な λ に関する密度関数とする. (i.e. µ, ν ≪ λ) • supp(µ) = {ω ∈ Ω | µ(ω) > 0} (µ のサポート) • Ω = R のとき, F, G をそれぞれ µ, ν の累積分布関数と する. また, X, Y をそれぞれ Ω 上の確率変数とすると き, これらから誘導される分布を L(X) = µ, L(Y) = ν と書くこともある. • (Ω, d) が有界距離空間のとき, Ω の直径を以下で定義 diam(Ω) = sup x,y∈Ω d(x, y). 4
  • 8. Preliminary • Cb(Ω) : Ω 上の有界連続関数の集合 Definition 1 (弱収束, weak convergence) µn, µ ∈ P(Ω), n = 1, 2, ... とする. ∀f ∈ Cb(Ω) に対して, ∫ Ω f(x)µn(dx) → ∫ Ω f(x)µ(dx) が成り立つとき, {µn} は µ に弱収束するといい, µn ⇀ µ と書く. Remark 1 確率変数 Xn, X の分布を µn, µ とするとき, µn ⇀ µ であれ ば Xn は X に分布収束 (or 法則収束) するといい, Xn →d X と書く. 5
  • 9. Preliminary P(Ω) は弱収束の位相によって位相空間とみなせる. Definition 2 (弱収束の距離付け可能性) P(Ω) 上のある距離 d が定める位相が弱収束の位相と一 致するとき (すなわち, d による収束と弱収束が同値であ るとき), P(Ω) は d で距離付け可能という. Remark 2 本論文では, 弱収束が距離付け可能かどうかは, 確率分布 間の距離の評価指標の 1 つとして重視される. 6
  • 10. 1. Discrepancy metric Definition 3 (Discrepancy metric) Ω を距離空間とする. dD(µ, ν) := sup B∈B |µ(B) − ν(B)| ∈ [0, 1], ここで, B は Ω 上の閉球全体の集合. • base space Ω の距離位相に基づいた距離 (閉球の体 積比較). • スケール不変 (ベース空間の距離を正の定数倍しても dD は変わらず) • Fourier bound を達成する (cf : 群上のランダムウォー クの収束証明) 7
  • 11. 2. Hellinger distance I Definition 4 (Hellinger distance) Ω を可測空間とする. f, g をそれぞれ µ, ν(≪ λ) の密度関 数とするとき, dH(µ, ν) := [∫ Ω (f1/2 − g1/2 )2 dλ ]1/2 = [ 2 ( 1 − ∫ Ω (fg)1/2 dλ )]1/2 ∈ [0, √ 2] この定義は reference measure λ のとり方によらない. Ω が可算集合のときは以下のように書ける: dH(µ, ν) := [ ∑ ω∈Ω (µ(ω)1/2 − ν(ω)1/2 )2 ]1/2 . 8
  • 12. 2. Hellinger distance II • µ = µ1 × µ2, ν = ν1 × ν2 なる直積測度を考えると, 1 − 1 2 d2 H(µ, ν) = ( 1 − 1 2 d2 H(µ1, ν1) ) ( 1 − 1 2 d2 H(µ2, ν2) ) が成立. すなわち, ベクトル v が v = (v1, v2) のように 独立な成分を並べた形をしている場合, 対応する分布 は, 成分毎の分布の積に分解できる. 左辺は Hellinger affinity と呼ばれる. また, 上の事実の系として d2 H(µ, ν) ≤ d2 H(µ1, ν1) + d2 H(µ2, ν2) が成立. 9
  • 13. 3. Relative Entropy (Kullback-Leibler divergence) I Definition 5 (Relative entropy) Ω を可測空間とする. f, g をそれぞれ µ, ν(≪ λ) の密度関 数とするとき, dI(µ, ν) := ∫ supp(µ) f log f g dλ ∈ [0, +∞], ここで, supp(µ) ⊂ Ω は µ のサポートである. この定義は reference measure λ のとり方によらない. Ω が可算集合 のときは以下のように書ける: dI(µ, ν) = ∑ ω∈Ω µ(ω) log µ(ω) ν(ω) . 10
  • 14. 3. Relative Entropy (Kullback-Leibler divergence) II • 慣習的に, 任意の q ∈ R に対して 0 × log 0 q = 0 また, 任意の p ̸= 0 に対して p × log p 0 = +∞ とする (ために, dI ∈ [0, +∞] となる). • 非対称かつ三角不等式を満たさないため, 距離ではな い. 一方で, 直積測度 µ = µ1 × µ2, ν = ν1 × ν2 に対して 加法性 dI(µ, ν) = dI(µ1, ν1) + dI(µ2, ν2) を満たす. 11
  • 15. 4. Kolmogorov (Uniform) metric Definition 6 (Kolmogorov metric) Ω = R とする. Kolmogorov metric は, R 上の分布 µ, ν の 間の距離を, 対応する分布関数 F, G の間の距離として表 現する: dK(F, G) := sup x∈R |F(x) − G(x)| ∈ [0, 1], • 単調増加な 1 対 1 変換に関して不変である. 12
  • 16. 5. L´evy metric Definition 7 (L´evy metric) Ω = R とする. dL(F, G) := inf{ε > 0 : G(x − ε) − ε ≤ F(x) ≤ G(x + ε) + ε, ∀x ∈ R} ∈ [0, 1], • L´evy metric は, R 上の弱収束位相を距離付けする: Fn →d F as n → ∞ iff dL(Fn, F) → 0 as n → ∞. • shift-invariant だが scale-invariant ではない. 13
  • 17. 6. Prokhorov ( or L´evy-Prokhorov) metric Definition 8 (Prokhorov metric) Ω を距離空間とする. dP(µ, ν) := inf{ε > 0 : µ(B) ≤ ν(Bε) + ε, ∀B ⊂Borel Ω} ∈ [0, 1], ここで, Bε = {x : infy∈B d(x, y) ≤ ε}. • dP は対称性を持つ. • 14
  • 18. 7. Separation distance Definition 9 (Separation distance) Ω を可算空間とする. dS(µ, ν) := max i ( 1 − µ(i) ν(i) ) ∈ [0, 1]. • dS は厳密な距離ではない. • マルコフ連鎖の解析のために導入された. 15
  • 19. 8. Total variation I Definition 10 (Total variation) Ω を可測空間とする. dTV(µ, ν) := sup A⊂Ω |µ(A) − ν(A)| = 1 2 max |h|≤1 ∫ hdµ − ∫ hdν ∈ [0, 1], ここで, h : Ω → R. Ω が可算空間のとき, dTV := 1 2 ∑ ω∈Ω |µ(ω) − ν(ω)| と定める. これは L1 ノルムの 1/2 倍であり, 文献によっ ては 2dTV を total variation と定義するものもある. 16
  • 20. 8. Total variation II Total variation はカップリング測度の inf として特徴付け ができる: dTV(µ, ν) = inf{Pr(X ̸= Y) | X, Y : r.v. s.t. L(X) = µ, L(Y) = ν} (1) 17
  • 21. 9. Wasserstein (or Kantorovich) distance I Definition 11 (Wasserstein distance) Ω を可分距離空間とする. µ, ν の 1-Wasserstein distance を dW(µ, ν) = inf π∈Π(µ,ν) ∫ Ω×Ω d(x, y)dπ(x, y) で定義する. ここで, Π(µ, ν) := {π : prob. measure on Ω × Ω | π(B × Ω) = µ(B), π(Ω × B) = ν(B), ∀B ⊂ Ω} を Ω 上のカップリング測度の集合と呼ぶ. 18
  • 22. 9. Wasserstein (or Kantorovich) distance II • Kantorovich-Rubinstein duality より, dW(µ, ν) = sup ∥h∥L≤1 ∫ hdµ − ∫ hdν ∈ [0, diam(Ω)] が成立. ここで, sup は Lipschitz condition |h(x) − h(y)| ≤ d(x, y) を満たす h について取る. この 右辺を Kantorovich metric と呼ぶ. • 特に Ω = R のとき, 右辺は以下のように書ける: ∫ ∞ −∞ |F(x) − G(x)|dx = ∫ 1 0 |F−1 (t) − G−1 (t)|dt 19
  • 23. 10. χ2 -distance I Definition 12 (χ2 distance) Ω を可測空間とする. f, g をそれぞれ µ, ν(≪ λ) の密度関 数とするとき, dχ2 (µ, ν) := ∫ supp(µ)∪supp(ν) (f − g)2 g dλ ∈ [0, ∞]. 特に Ω が可算空間のとき以下のように書ける: dχ2 (µ, ν) := ∑ ω∈supp(µ)∪supp(ν) (µ(ω) − ν(ω))2 ν(ω) . 20
  • 24. 10. χ2 -distance II この metric は対称性を持たない (すなわち距離ではない). 一方で, 直積測度 µ = µ1 × µ2, ν = ν1 × ν2 に対して, Hellinger distance や relative entropy と同様に dχ2 (µ, ν) ≤ dχ2 (µ1, ν1) + dχ2 (µ2, ν2) が成立. 21
  • 25. Remarks 任意の凸関数 f に対して, µ と ν の間の f-divergence を df(µ, ν) := ∑ ω ν(ω)f ( µ(ω) ν(ω) ) で定義すると, 種々の metric を統一的に表現できる. 22
  • 26. Example I : χ2 -distance f(x) = (x − 1)2 ととると, χ2 -distance が導出される: df(µ, ν) = ∑ ω ν(ω) ( µ(ω) ν(ω) − 1 )2 = ∑ ω ν(ω) ( µ(ω) − ν(ω) ν(ω) )2 = dχ2 (µ, ν) 23
  • 27. Example II : relative entropy f(x) = x log x ととると, relative entropy が導出される: df(µ, ν) = ∑ ω ν(ω) µ(ω) ν(ω) log µ(ω) ν(ω) = ∑ ω µ(ω) log µ(ω) ν(ω) = dI(µ, ν) 24
  • 28. Example III : total variation f(x) = |x−1| 2 ととると, total variation が導出される: df(µ, ν) = ∑ ω ν(ω) |µ(ω) ν(ω) − 1| 2 = 1 2 ∑ ω |µ(ω) − ν(ω)| = dTV(µ, ν) 25
  • 29. Example IV : Hellinger distance f(x) = ( √ x − 1)2 ととると, Hellinger distance が導出され る: df(µ, ν) = ∑ ω ν(ω) (√ µ(ω) ν(ω) − 1 )2 = ∑ ω ν(ω) ( µ(ω) ν(ω) − 2 √ µ(ω) ν(ω) − 1 ) = ∑ ω ( µ(ω) − 2 √ µ(ω)ν(ω) − ν(ω) ) = ∑ ω (√ µ(ω) − √ ν(ω) )2 = dH(µ, ν)2 26
  • 31. S ❅ ❅ ❅ ❅ ❅ ❅■ x TV ✲x ✛√ 2x H W on metric spaces ❅ ❅ ❅ ❅ ❅ ❅❘ x/dmin ❅ ❅ ❅ ❅ ❅ ❅■ diamΩ · x ✲ √ x ✛ (diamΩ + 1) x            ✒√ x/2 ν dom µ ❅ ❅ ❅ ❅ ❅ ❅■ √ x✻x/2 I ✲log(1 + x) χ2 non-metric distances ✻√ x ν dom µ ✻x P            ✒x D ❄ 2x ✻x K L on IR ✻x ✛x ✲(1 + sup |G′|)x ✲x + φ(x) 論文 Figure 1 の確率分布間の距離の関係の詳細を見る. 27
  • 32. Kolmogorov-L´evy on R Fact 1 確率測度 µ, ν ∈ P(R) の分布関数をそれぞれ F, G とする とき, dL(F, G) ≤ dK(F, G) (2) が成立 (Huber, 1981). さらに, もし G がルベーグ測度に 対して絶対連続であれば, dK(F, G) ≤ ( 1 + sup x |G′ (x)| ) dL(F, G) が成立 (Petrov, 1995). ここで, G′ は G の微分 (密度関数) を表す. 28
  • 33. Discrepancy-Kolmogorov on R Fact 2 確率測度 µ, ν ∈ P(R) の分布関数をそれぞれ F, G とする とき, dK(F, G) ≤ dD(µ, ν) ≤ 2dK(F, G) (3) が成立. 29
  • 34. Prokhorov-L´evy on R Fact 3 確率測度 µ, ν ∈ P(R) の分布関数をそれぞれ F, G とする とき, dL(F, G) ≤ dP(µ, ν) が成立 (Huber, 1981). 30
  • 35. Prokhorov-Discrepancy I Theorem 1 Ω を任意の距離空間, ν を ν(Bε) ≤ ν(B) + ϕ(ε), ∀B : ball on Ω を満たす任意の確率測度とする. ここで, ϕ は右連続な関 数とする (任意の ball を ε だけ膨らませた ball の体積の 増え方は, ある右連続関数で記述される). このとき, dP(µ, ν) = x を満たす任意の確率測度 µ に対して, dD(µ, ν) ≤ x + ϕ(x) が成立. すなわち, dD(µ, ν) ≤ dP(µ, ν) + ϕ(dP(µ, ν)) 31
  • 36. Prokhorov-Discrepancy II Example 1 ν として S1 または R 上の一様分布をとる (ν = U). この とき, ϕ(x) = 2x ととると, dD(µ, U) ≤ 3dP(µ, U) が成立. (proof) ν(Bx) ≤ ν(B) + ϕ(x) より, µ(B) − ν(Bx) ≥ µ(B) − ν(B) − ϕ(x) が成立. dP(µ, ν) = x ならば, ∀˜x > x に対して, µ(B) − ν(B˜x) ≤ ˜x が成立 (上式を満たす ˜x の inf が dP). 32
  • 37. Prokhorov-Discrepancy III (proof つづき) 2 つの不等式を合わせると, µ(B) − ν(B) − ϕ(˜x) ≤ ˜x となり, B に関して sup をとると, sup B (µ(B) − ν(B)) ≤ ˜x + ϕ(˜x) (4) を得る. ここで, ν(B) − µ(B) = 1 − ν(Bc ) − (1 − µ(Bc )) = µ(Bc ) − ν(Bc ) より (Bc は B の補集合), sup B (ν(B) − µ(B)) = sup Bc (µ(Bc ) − ν(Bc )) ≤ ˜x + ϕ(˜x) (5) が成立. 33
  • 38. Prokhorov-Discrepancy IV (proof つづき) (4) と (5) 及び supB ≤ supB,Bc より, dD(µ, ν) ≤ ˜x + ϕ(˜x) を得る. 右辺で ˜x ↘ x とすれば, 所望の結果を得る (ϕ は右 連続だから, ϕ(x) = lim ˜x↘x ϕ(˜x) は存在). 2 34
  • 39. Prokhorov-Wasserstein I Theorem 2 Ω が完備可分な距離空間のとき, (dP)2 ≤ dW ≤ (diam(Ω) + 1)dP が成立. (proof) J を確率変数 X, Y の同時分布とするとき, EJ[d(X, Y)] ≤ ε × Pr(d(X, Y) ≤ ε) + diam(Ω) × Pr(d(X, Y) > ε) = ε × (1 − Pr(d(X, Y) > ε)) + diam(Ω) × Pr(d(X, Y) > ε) = ε + (diam(Ω) − ε) × Pr(d(X, Y) > ε) が成立 (ε を実現値として期待値を書き, 上からバウンド). 35
  • 40. Prokhorov-Wasserstein II dP(µ, ν) ≤ ε であるとき, Prπ(d(X, Y) > ε) ≤ ε を満たす π ∈ Π(µ, ν) がとれる (Huber, 1981). このとき, EJ[d(X, Y)] ≤ ε + (diam(Ω) − ε ≤diam(Ω) )ε ≤ (diam(Ω) + 1)ε が成り立つから, π ∈ Π(µ, ν) に関する inf をとれば, dW ≤ (diam(Ω) + 1)dP が成立 (主張の右側の不等号). 36
  • 41. Prokhorov-Wasserstein III 一方で, ε を dW(µ, ν) = ε2 となるようにとると, Markov の 不等式 (Pr(|X| > a) ≤ 1 a E[|X|]) より Pr(d(X, Y) > ε) ≤ 1 ε EJ[d(X, Y)] ≤ 1 ε × ε2 = ε が成立. Lemma 1 (Strassen’s theorem) ∀B ⊂Borel Ω に対して, Pr(d(X, Y) > ε) ≤ ε ⇐⇒ µ(B) ≤ ν(Bε) + ε. Lemma 1で ε の inf をとれば, 所望の結果を得る: dP ≤ ε ⇒ (dP)2 ≤ ε2 = dW. 2 37
  • 42. Prokhorov-Wasserstein IV Remark 3 • Ω が非有界のとき, 定理のようなバウンドは不成立. Example 2 (Theorem 2 の反例 (Dudkey, 1989)) Ω = R とし, Pn := (n − 1)δ0 + δn n とおくと, dP(Pn, δ0) → 0 as n → ∞ だが, dW(Pn, δ0) = 1, ∀n となる. • Theorem 2の特別な場合として, (Ω, d) が完備可分距 離空間で d ≤ 1 のとき, 以下が成立  (Huber, 1981): (dP)2 ≤ dW ≤ 2dP. 38
  • 43. Wasserstein-Discrepancy I Theorem 3 Ω が有限集合のとき, dmin × dD ≤ dW が成り立つ. ここで, dmin = minx̸=y d(x, y) である. Remark 4 この定理の左辺は, Ω が無限集合のとき, dmin をいくらで も小さくできる場合があり, 確率分布間の距離の比較と しては情報がほとんどないことがある (Theorem 4の節 も参照). 39
  • 44. Total variation-Discrepancy Discrepancy はすべての ball に関する sup であり, total variation はすべての可測集合に関する sup であるから, 明らかに dD ≤ dTV が成り立つ (後者の方が sup をとる範囲が広い). Remark 5 離散分布 · 連続分布どちらの状況でも, dTV=1 = 1 かつ dD をいくらでも小さくできる場合があるため, 逆向き (dTV ≤ dD) は言えない. 40
  • 45. Total variation-Prokhorov Ω が距離空間のとき, µ, ν ∈ P(Ω) に対して, dP ≤ dTV が成立 (Huber, 1981). 41
  • 46. Wasserstein-Total variation I Theorem 4 次の bound が成り立つ: dW ≤ diam(Ω) × dTV. Ω が有限集合のとき, Theorem 3 と同様の bound が成立: dmin × dTV ≤ dW. Remark 6 Ω が無限集合のとき, Theorem 3と同様に dmin をいくら でも小さくでき得るので, less information な可能性が ある. 42
  • 47. Wasserstein-Total variation II (proof) 最初の不等式は, general な不等式 d(X, Y) ≤ 1X̸=Y × diam(Ω) に対して, 両辺で coupling measure に関する inf をとると 得られる (TV distance における (1) による). 逆向きの不等 式は, d(X, Y) ≥ 1X̸=Y × min a̸=b d(a, b) の両辺で coupling measure に関して inf をとれば OK. 43
  • 48. Hellinger-Total variation Fact 4 (LeCam, 1969) d2 H 2 ≤ dTV ≤ dH 44
  • 49. Separation distance-Total variation Fact 5 (Aldous & Diaconis, 1987) dTV ≤ dS 逆は一般に成り立たない. (∵) µ, ν をそれぞれ {1, ..., n}, {1, ..., n − 1} 上の一様分布と すると, dTV(µ, ν) = 1 n ≤ dS(µ, ν) = 1 2 45
  • 50. Relative entropy-Total variation Fact 6 (Kullback, 1967) Ω が可算空間のとき, 2d2 TV ≤ dI 46
  • 51. Relative entropy-Hellinger Fact 7 (Reiss, 1989) d2 H ≤ dI 47
  • 52. χ2 -Hellinger Fact 8 (Reiss, 1989) dH ≤ √ 2d 1/4 χ2 . さらに, µ が ν に対して絶対連続であれば, dH ≤ d 1/2 χ2 が成立. 48
  • 53. χ2 -Total variation Fact 9 可算空間 Ω において, Cauchy-Schwarz の不等式から, dTV(µ, ν) = 1 2 ∑ ω∈Ω |µ(ω) − ν(ω)| √ ν(ω) √ ν(ω) ≤ 1 2 √ dχ2 (µ, ν) が成立. Remark 7 Ω が連続な空間の場合でも, µ が ν に対して絶対連続で あれば同様の結果が成立 (Reiss, 1989). 49
  • 54. χ2 -Relative entropy I Theorem 5 dI(µ, ν) ≤ log(1 + dχ2 (µ, ν)) が成り立つ. 特に, dI ≤ dχ2 (proof) log の concavity より, Jensen の不等式を用いると dI(µ, ν) = ∫ Ω f log f g dλ ≤ Jensen log (∫ Ω f g fdλ ) = log ( 1 + dχ2 (µ, ν) ) ≤ dχ2 (µ, ν) が成立. 50
  • 55. χ2 -Relative entropy II (proof つづき) ここで, 2 番目の等号は以下による: dχ2 (µ, ν) = ∫ Ω (f − g)2 g dλ = ∫ Ω ( f g f − 2f + g ) = ∫ Ω f g fdλ − 2 ∫ Ω fdλ =1 + ∫ Ω gdλ =1 = ∫ Ω f g fdλ − 1. また, 最後の不等号は, log(x + 1) ≤ x から従う. 2 Remark 8 Diaconis & Saloff-Coste (1996) による bound: dI(µ, ν) ≤ dTV(µ, ν) + 1 2 dχ2 (µ, ν) 51
  • 56. Weak Convergence I • Figure 1 のダイアグラムは, 個々の metric 間の関係 (bound) を導出するだけでなく, 確率測度空間に誘導 される位相の関係も示している. • 例えば, Hellinger metric と Total variation の間の相 互の矢印 H ⇆ TV は, これら 2 つの metric が誘導す る位相が同値であることを示す. • また, Prokhorov や L´evy は弱位相を距離付けするが, 他のどの metric がどのような base space 上で同様 に弱位相を距離付けするかを次の定理にまとめる. 52
  • 57. Weak Convergence II Theorem 6 • P(R) に対して, L´evy は弱収束を距離付けする. また, discrepancy や Kolmogorov は L´evy の upper bound を与える ((2), (3) 式参照) ので, L´evy を通して弱収束 を誘導する. さらに, discrepancy と Kolmogorov は µ が R 上のルベーグ測度に対して絶対連続のとき, 弱収 束 µn → µ を距離付けする. • Ω が可測空間のとき, Prokhorov は弱収束を距離付け する. また, Wasserstein による収束は弱収束を誘導す る. さらに, Ω が有界であれば, Wasserstein は弱収束 を距離付けする (Prokhorov の upper bound より). 53
  • 58. Weak Convergence III Theorem 7 (つづき) • 次の metric による収束は弱収束を誘導する: • Hellinger • separation • relative entropy • χ2 • Ω が有限かつ有界のとき, total variation と Hellinger は弱収束を距離付けする. 54
  • 60. Way Wasserstein distance? I Wasserstein は弱収束を距離付けする distance measure 他の distance measure との関係 (tightness) • Wasserstein ≤ (diam(Ω) + 1)× Prokhorov • Wasserstein ≤ diam(Ω)× Total variation • Wasserstein ≤ √ 2 × diam(Ω) × KL div. Key Inequality (Csisz´ar-Kullback-Pinsker) For p, q ∈ P(Ω), W1(p, q) ≤ diam(Ω)∥p − q∥TV ≤ √ 2diam(Ω)KL(p||q) 55
  • 61. Way Wasserstein distance? II Domain adaptation の文脈では... Wasserstein distance を用いるメリット 1. 2 つの分布のサポートに overlap がない場合でも, meaningful な距離を与えてくれる (KL などの f-divergence は, 分布の比が発散するのでダメ). 2. 分布間の距離だけでなく, “どう近づければ良いか?” という方法も輸送写像として同時に与えてくれる. 3. データの位相的性質を保存する (輸送写像の連続性?) 4. 汎化誤差の bound が他の metric よりも tight. ref Courty, N. et al. [2017] “Optimal transport for domain adaptation.” 56
  • 62. Way Wasserstein distance? III Domain adaptation を adversarial training (Wasserstein GAN) として実現できる : inf fg W1(PhS , Pht ) = inf fg sup ∥fw∥L≤1 EPxs [fw(fg(x))] − EPxt [fw(fg(x))] • Pxs , Pxt は source, target のデータ分布 • fw は discriminator (Wasserstein dist. の推定を行う) • fg は generator (source と target の特徴抽出を行う) ref Shen, J. et al. [AAAI2018] “Wasserstein Distance Guided Representation Learning for Domain Adaptation” 57