3. Prerequisite: Conditioning of Multivariate Gaussians
• a random vector x ∈ Rn with x ∼ N (µ, Σ)
• Then the marginals are given by’
• and the posterior conditional is given by
4. Prerequisite: Bayesian Linear Regression
• 위키 링크
• http://play.daumcorp.com/display/~sweaterr/7.+Linear+Regression#7.LinearRegression-
7.6Bayesianlinearregression
•
w 도 Gaussian, likelihood 도 Gaussian 이면, w의 posterior도 Gaussian 이고, Linear Gaussian System 공
식에 의해서 구할 수 있다
posterior predictive 도 적분이 tractable 하기 때문에, 구할 수 있고, 또한 posterior 의 평균을 weight 로 한 예측
치를 평균으로 하는 정규 분포가 된다
5. Parametric Models vs. Non-parametric Models
Non-parametric model은 parametric model 과 다르게 model의 구조를 가정하지 않고,
데이터로부터 모든 것을 알아낸다.
Parametric models:
• Linear Regression
• GMM
Non-parametric models:
• KNN
• Kernel Regression
• Gaussian Process
7. 15.1 Introduction
• In supervised learning, we observe some inputs xi and some outputs yi.
• xi 를 yi에 mapping 하는 어떤 함수 f가 있다고 가정했고, 그 함수를 알아내려 노력했다.
• 가장 이상적인 방법은 그 함수의 분포까지 알아내서 이것을 예측에 쓰는 것이다
• 여태까지 함수의 parametric한 표현에 대해서 초점을 맞추어 p(f|D) 대신 p(θ|D)를 추정했었다.
• 이제는 함수 자체에 대한 베이지안 추론을 수행한다.
8. Probability distributions over functions with finite domains
• 다음과 같은 training example 이 있다고 하자 X = {x1, . . . , xm}
• 여러 함수가 있는 함수 공간에서 하나의 함수를 다음과 같이 표현할 수 있다
• 함수의 domain 의 크기는 m 개의 유한 집합이기 때문에 함수를 다음과 같이 벡터로 표현할 수 있다
• 함수를 분포로 어떻게 표현할 수 있을까? 한가지 자연스러운 방법은
• 즉, 유한 domain 에 대한 함수의 값이 정규분포를 따른다.
• 공분산이 대각 행렬이므로, h(x1)과 h(x2) 는 독립이다
• 그렇다면, 함수의 domain 이 무한한 크기를 가질 때, 함수에 대한 분포를 어떻게 표현할까?
9. Probability distributions over functions with infinite domains
• Stochastic process 는 랜덤 변수 의 모음이다
• Gaussian process 는 이 랜덤 변수의 sub collection 의 joint probability 가 multivariate Gaussian distribution (MVN)
인 stochastic process 이다.
• Gaussian Process 는 무한 차원에 대한 분포인데, 그 중에 일부분만 골라서, 분포를 보면 MVN 이다
• 유한 집합 x1, ... , xm 에 대해서, 랜덤 변수 h(x1),..., h(xm)는 다음과 같은 분포를 가진다
• 무한일 때는 다음과 같이 표현한다.
• 유한 domain 과 달리, 공분산이 kernel로 채워졌다.
• 함수의 분포는 m을 평균으로 하는 정규분포를 따르고, 함수 값 사이의 correlation 은 함수의 input 이 가까우
면 강하게 되는 kernel 을 정의한다.
• 핵심 아이디어는 데이터가 비슷하면, 이 데이터 포인트에 대한 함수의 값도 비슷할 것이라고 기대하는 것이
다
• 즉 Gaussian Process는 무한 차원(무한 domain)에 대한 것이지만, 유한 부분 집합에 대해서만 다룰 수 있다
• 다행히도, 유한 부분 집합으로도, 무한을 고려하는 것과 같은 추론을 할 수 있다는 것이다
10. Graphical Model for GP
• 2 training points 와 1 test point를 가진 Gaussian Process
• mixed directed and undirected graphical model representing
• fi = f(xi) 는 각 data points 에서 함수의 값이고, hidden node 다
• Test data point x*가 training 과 비슷할 수록, y*도 training 과 비슷해 진다.
• 그러므로, 이전 장에서 했던 Kernel Regression 과 비슷하게, 가까이 test point 와 가까운 training y 의 f 와 비슷
하게 된다
11. different kernel
• 함수에 대한 분포이므로, 함수를 sampling 할 수 있다
• kernel 에 따라 생성된 함수의 모양이 다르다.
• kernel 로 인한 GP design 이 어떤 문제에 대한 예측력을 결정하는 가장 큰 요인이다
12. 15.2 GPs for regression
• 함수가 다음과 같은 GP 분포를 따른다고 하자
• where m(x) is the mean function and κ(x, x) is the kernel or covariance function,
• 유한한 데이터 점 집합에 대해서, 이 프로세스는 joint Gaussian을 정의한다 (GP의 성질)
•
13. 15.2.1 Predictions using noise-free observations
• fi = f(xi)는 xi에서 계산된 노이즈 없는 관찰이다
• X∗ of size N∗ × D 의 test set이 주어졌을 때, test set 에 대한 function outputs f∗을 예측하고 싶다
• 관찰에 노이즈가 없다고 가정하므로, GP는 관찰 x에 대한 f(x)를 불확실성 없이 예측하고, test point x* 에 대
한 예측 f* 를 다음과 같이 f의 벡터에 이어붙이는 식으로 표현한다
• By the standard rules for conditioning Gaussians (Section 4.3), the posterior has the following form
• 평균을 0, K 는 identity matrix 라고 하면, test point의 f* 평균은 K*
Tf즉 test point 에 비슷한 training point 의 f 에
가중치를 더 준다
training points 간의 Gram matrix
training points 과 test points 간의 Gram matrix
test points 간의 Gram matrix
14. 15.2.1 Predictions using noise-free observations
• 왼쪽: GP의 prior
• 오른쪽: 5개의 noise free observations을 봤을 때 GP posterior
• Predictive uncertainty 는 관찰에서 멀어질수록 커진다
15. 15.2.2 Predictions using noisy observations
• 관찰이 noisy 하다고 하자
• 노이즈가 없을 때처럼 response 가 바로 f 가 아니다
• 관찰치의 response (답) 에 대한 공분산은 다음과 같이 정의한다
• where δpq = I(p = q). In other words,
• 두 번째 행렬은 각 관찰에 더해지는 노이즈 term이 독립이기 때문에 diagonal이다
• 노이즈가 있는 관찰치와, test point 에 대한 noise-free 함수에 대한 joint probability 는
• 여기서, notation 을 간단히 하기 위해, 평균을 0이라고 가정했다
• 그러므로, posterior predictive density 는
• 관찰치에 노이즈가 없다고 가정한 모델과 다른 점은 K의 diagonal 에 σ2y 가 추가 된 것이다
16. 15.2.2 Predictions using noisy observations
• 한 개의 test point 에 대한 분포는
• where k∗ = [κ(x∗, x1), . . . , κ(x∗, xN)] and k∗∗ = κ(x∗, x∗).
• Another way to write the posterior mean is as follows:
• where α = K−1 y y. We will revisit this expression later
17. 15.2.3 Effect of the kernel parameters
• GP의 예측 성능은 고른 kernel 에 전적으로 달려 있다.
• Suppose we choose the following squared-exponential (SE) kernel for the noisy observations
• (a) l = 1 good fit
• (b) l = 0.3 늘림 --> 구불해지고, 불확실성이 커짐
• (c ) l = 3
controls the vertical scale of the function
noise variance
18. 15.2.4 Estimating the kernel parameters
• kernel parameters 를 추정하기 위해서 하는 CV는 너무 느리다
• 다음과 같은 likelihood 를 최대화하는 kernel parameters 를 최적화 한다
• The first term is a data fit term,
• kernel 이 RBF인 경우, bandwidth 가 작을수록, 멀리 있는 점들은 거리가 0이 되고, 가까이 있는 점들만 예측에
쓰기 때문에, GPR은 다음 그림과 같이 data 에 많이 fit 된다. bandwidth 가 극도로 작아져서, Ky가 diagonal
matrix 가 된 경우( 어떤 near point 와도 similarity 가 0 이다), log|Ky| 는 매우 커지겠지만 (대각 행렬의
determinant 는 대각 원소의 합), 데이터 Fit 에러는 작어진다
• 반대로 kernel parameter(bandwidth) 가 커지면, data fit error 는 커지고, log|Ky| 는 작아진다
• 그러므로, 첫번째 term = likelihood, 두 번째 term = model complexity 라고 볼 수 있고, trade off 가 있다.
19. • 다음과 목적함수를 최소화 하는 kernel parameter l를 찾는다.
• 아래와 같이 gradient 를 구하고
• gradient descent 같은 standard gradient-based optimizer 로 최적화
20. 15.3 GPs meet GLMs
• GP 를 다른 GLMs 모델에 적용할 수 있다
• 이전에는 f(x) = wTx 처럼 함수의 구조를 x 에 선형으로 맞추었지만, 이제는 f ~ GP() 이다
• 예를 들어서 15.3.1 binary classification 모델에 대해서 적용해보면
• define the model
• yi ∈ {−1, +1}, and we let σ(z) = sigm(z) (logistic regression)
• yi = 1이면, fi는 0보다 커야 확률이 0.5보다 커짐
• yi = -1이면 fi는 0보다 작어야 확률이 0.5보다 커짐
• As for GP regression, we assume f ∼ GP(0, κ).
21. Prerequisite: Gaussian approximation(aka Laplace
approximation)
• http://play.daumcorp.com/pages/viewpage.action?pageId=157627536#8Logisticregression-
8.4.1Laplaceapproximation
• posterior를 정규 분포로 근사하는 방법
posterior 를 평균은 posterior 의 MAP 추정이고, 분
산은 posterior를 두번 미분한 것의 역행렬인 정규분
포로 근사하는 것
23. 15.3 GPs meet GLMs
15.3.1.1 Computing the posterior
• Define the log of the unnormalized posterior as follows:
• Let J(f) −(f) be the function we want to minimize
• The gradient and Hessian of this are given by
• Newton’s Method를 사용해서 최적화를 하면
• 이렇게 f의 posterior 를 최적화 한 f 를 hat{f} 이라 하자
• 수렴시, f의 posterior 의 Gaussian Approximation은
σ 함수가 무엇이냐에 따라 다른 것
24. 15.3 GPs meet GLMs
15.3.1.2 Computing the posterior predictive
• Test point에 대한 posterior predictive 는
f 의 기대값을 f의 MAP 추정값으로 근사
25. 15.3 GPs meet GLMs
15.3.1.3 Computing the marginal likelihood
• Kernel parameter를 최적화하기 위해 marginal likelihood가 필요하다
• LogP(D) 를 kernel parameter에 대한 미분으로 최적화하는데, kernel parameter가 W,K,f에 모두 depend하기 때
문에 어렵다 ((Rasmussen and Williams 2006,p125))
15.3.1.1 Computing the posterior 의 결과에 최적값 넣음
26. 5 Summary
• 왜 Gaussian Process 가 좋은가?
• Bayesian method 이다
• 예측의 uncertainty 를 수치화 할 수 있다
• 여러 model selection 과 hyperparameter selection 과 같은 Bayesian method를 그대로 사용할 수 있다
• 앞에서 RBF 의 bandwidth 에 대한 likelihood 를 최적화하는 방법 같은
• Non-parametric 이다
• input point 에 대한 임의의 함수를 모델링한다 (No model assumption)