
MLE는 우리가 어떤 파라미터를 추정할 때, likelihood를 최대로 하는 파라미터를 찾는 과정을 말한다.
하지만 MLE는 우리가 기본적으로 알고 있는 데이터의 '사전 지식'을 반영하지 못한다는 한계를 가진다.
이러한 단점을 극복하고, 우리가 데이터에 대한 정보가 있는 상황에서 posterior값을 최대로 하는 파라미터를 찾는 과정을 MAP estimation이라고 부른다.
MAP
우선 베이즈 정리를 보자
$$p(\theta \mid x) = \frac{p(x \mid \theta) p(\theta)}{p(x)}$$
위에서 표현된 posterior를 최대로 하는 $\theta$를 찾는 것이 목표다.
$$\hat{\theta} = \arg\max_\theta p(\theta \mid x) = \arg\max_\theta p(x \mid \theta) p(\theta)$$
여기서 $x$의 분포는 이미 알고있다고 가정하기 때문에 $p(x)$는 상수다.
MLE vs MAP
'학생들의 시험 성적을 가지고 평균을 내는 경우'를 예시로 들어보자
- MLE : 주어진 데이터를 기준으로 파라미터(평균)을 추정하는 방법으로 단순히 이 데이터를 가장 잘 설명하는 평균(파라미터)을 찾는다. 즉, 사전 정보를 전혀 고려하지 않고, 주어진 데이터만을 사용해 평균을 계산한다.
- MAP : 선생님이 '학생들의 시험 평균 점수는 대체로 80점에 가까울 것'이라는 사전 지식(prior)이 있다고 가정해보면, 이 사전 지식을 정규분포로 모델링할 수 있다.
$$p(\theta) \sim \mathcal{N}(80, \sigma)$$
그리고 likelihood $p(x \mid \theta)$를 주어진 10명의 점수 데이터가 실제 관찰값이라는 가정한다.
MAP는 이 prior과 likelihood를 결합하여 평균 점수를 추정한다. prior가 매우 강하게 작용하면, 추정치는 80점에 더 가깝게 나타날 것이다.
출처 : https://process-mining.tistory.com/126?category=800093
MAP estimation (Maximum A Posterior estimation)이란? (MAP와 MLE, MAP estimation의 단점)
Maximum Likelihood Estimation은 우리가 어떤 parameter를 추정할 때, likelihood 값을 최대로 하는 parameter를 찾는 과정을 말한다. 하지만 Maximum Likelihood Estimation은 우리가 기본적으로 알고 있는 데이터의 사전
process-mining.tistory.com
'AI > bayesian optimization' 카테고리의 다른 글
| 인공지능 및 기계학습 심화 | [2-19] Acquisition Function 1 (0) | 2024.11.18 |
|---|---|
| Posterior Predictive Distribution (0) | 2024.11.17 |
| MLE (0) | 2024.11.14 |
| 인공지능 및 기계학습 심화 | [2-18] Bayesian Optimization with GP (0) | 2024.11.13 |
| 인공지능 및 기계학습 심화 | [2-17] GP Classifier (0) | 2024.11.11 |
댓글