MLE
1. Likelihood
์ฐ์ Likelihood๋, ๋ฐ์ดํฐ๊ฐ ํน์ ๋ถํฌ๋ก๋ถํฐ ๋ง๋ค์ด์ก์ ํ๋ฅ ์ ๋งํ๋ค.
($\theta$๊ฐ ๋ฐ์ดํฐ $X$๋ฅผ ์ผ๋ง๋ ์ ์ค๋ช ํ๋์ง๋ผ๊ณ ๋ด๋ ๋ฌด๋ฐฉํ๋ค.)
๊ทธ๋์ ์์ ๋ํ $L(\theta) = p(X \mid \theta)$๋ก ๋ํ๋๋ค.
๋ถํฌ์ ํ๋ผ๋ฏธํฐ $\theta=(\mu, \sigma)$์ธ ์ ๊ท๋ถํฌ๋ผ๊ณ ๊ฐ์ ํ๋ฉด, ํ ๊ฐ์ ๋ฐ์ดํฐ $x_n$์ด ์ด ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅผ ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ๋ค.
$$p(x_n \mid \theta) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \{ -\frac{(x_n - \mu)^2}{2 \sigma^2} \}$$
๋ชจ๋ ๋ฐ์ดํฐ $X = \{x_1, \dots, x_n\}$์ด independentํ๋ค๊ณ ๊ฐ์ ํ๋ฉด ๋ค์๊ณผ ๊ฐ์ likelihood๋ฅผ ์ป์ ์ ์๋ค.
$$p(X \mid \theta) = \prod_{n=1}^N p(x_n \mid \theta)$$
2. log likelihood
์ฐ๋ฆฌ๋ likelihood๊ฐ ์ต๋๊ฐ ๋๋๋กํ๋ ๋ถํฌ์ ํ๋ผ๋ฏธํฐ $\theta^*$๋ฅผ ์ฐพ์์ผ ํ๋ค
ํ์ง๋ง, ์์ด ๊ณฑ์ ์ผ๋ก ์ฐ๊ฒฐ๋์ด ์์ด ๋ฏธ๋ถํ๊ธฐ ์ฝ์ง ์๊ธฐ์ log์ -๋ฅผ ๋ถ์ฌ์ ๊ทธ ๊ฐ์ด ์ต์๊ฐ ๋๋ ๊ฐ์ ๊ตฌํ๋ค.
$$- \ln p(X \mid \theta) = - \sum_{n=1}^N \ln p(x_n \mid \theta)$$
3. Maximum Likelihood Estimation
์ด์ log likelihood๋ฅผ ์ต์ํํ๋ฉด์, likelihood๋ฅผ ์ต๋ํํ๋ $\theta$๋ฅผ ์ฐพ์ ๊ฒ์ด๋ค.
$$
- \frac{\partial}{\partial \theta} \sum_{n=1}^N \ln p(x_n \mid \theta) = \sum_{n=1}^N \frac{\frac{\partial}{\partial \theta} p(x_n \mid \theta)}{p(x_n \mid \theta)} \overset{!}{=} 0
$$
์ด ์์ ๋ง์กฑ์ํค๋ $\theta$์ ์ฐพ์ผ๋ฉด ์ฐ๋ฆฌ๋ likelihood๋ฅผ ์ต๋ํํ ์ ์๋ค.
๋ฏธ๋ถ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
\begin{align} \frac{\partial}{\partial \mu} E(\mu, \sigma) &= -\sum_{n=1}^N \frac{\frac{\partial}{\partial \mu} p(x_n \mid \mu, \sigma)}{p(x_n \mid \mu, \sigma)} \\ &= -\sum_{n=1}^N \frac{-2 (x_n - \mu)}{2 \sigma^2} \\ &= \frac{1}{\sigma^2} \sum_{n=1}^N (x_n - \mu) \\ &= \frac{1}{\sigma^2} \left( \sum_{n=1}^N x_n - N\mu \right) \end{align}
๋ฐ๋ผ์ ํ๊ท $\mu$๋ ๋ค์๊ณผ ๊ฐ์ด ๋์จ๋ค.
$$\hat{\mu} = \frac{1}{N} \sum_{n=1}^N x_n$$
๋ํ ๋ถ์ฐ $\sigma^2$ ๋ํ ์ ์ ์๋ค.
$$\hat{\sigma}^2 = \frac{1}{N} \sum_{n=1}^N (x_n - \hat{\mu})^2$$
์ด์ฒ๋ผ likelihood๋ฅผ ์ต๋ํํ๋ ํ๋ผ๋ฏธํฐ $\theta = (\mu, \sigma)$ ๊ฐ์ ์ฐพ์๋ด๋ ๊ฒ์ maximum likelihood estimation (MLE)๋ผ๊ณ ํ๋ค.
์ถ์ฒ https://process-mining.tistory.com/93
Maximum Likelihood๋? (MLE๋?)
์ด๋ฒ ํฌ์คํ ์์๋ Maximum Likelihood๊ฐ ๋ฌด์์ธ์ง์ ๋ํด ์์๋ณด๊ฒ ๋ค. ์ด ํฌ์คํ ์ ์ ๊ท ๋ถํฌ์ ๋ํ ์ดํด๊ฐ ์๋ค๊ณ ๊ฐ์ ํ๋ค. Likekihood Likelihood๋, ๋ฐ์ดํฐ๊ฐ ํน์ ๋ถํฌ๋ก๋ถํฐ ๋ง๋ค์ด์ก์(generate) ํ
process-mining.tistory.com