Maximum Likelihood Estimation
The Likelihood of the sample $L(y_1,...,y_n|\theta)$ is defined to be the joint probability of $y_1,...y_n$.
- $L(y_1,...y_n|\theta) = f(y_1,...y_n|\theta) = f(y_1|\theta) \times \cdots \times f(y_n|\theta)$
Joint probability: 결합 확률(두 개의 사건이 동시에 발생할 확률) $P(A∩B)=P(A,B)$ ⇒ 독립이면 $P(A)P(B)$, $P(A∩B)= P(A|B)P(B) = P(B|A)P(A)$
우리의 목적은 $L(y_1,...,y_n|\theta)$를 가장 크게하는 $\theta$를 찾는 것이 목표
- $\theta_{ML} = argmax_\theta p_{model}(X;\theta) = argmax_\theta \prod_{i=1}^m p_{model}(x^{(i)},\theta)$
우리가 $P_{model}$이라는 모델을 만들려고 한다 ⇒ $\theta$를 학습하려고한다 ⇒ 우리에게 주어진 데이터를 잘 설명하는 $\theta$를 찾고자함.
$\prod$ (그러한 데이터들이 독립이라고 가정할 때 곱할 수 있다. 위의 결합확률에 근거하여)
- $\theta_{ML} = argmax_{\theta}\sum_{i=1}^m logP_{model}(x;\theta)$ 곱은 계산이 어려우니 로그를 취해서 덧셈으로 변환
- $\theta_{ML} = argmax_{\theta}E_{x\sim P_{data}(x)}[ logP_{model}(x;\theta)]$ ⇒ $argmax_{\theta}\frac{1}{m}\sum logP_{model}(x;\theta)$
- $D_{KL}(P_{data}||P_{model}) = E_{x\sim P_{data(x)}}[logP_{data}(x)- logP_{model}(x;\theta)]$ (KL DIVERGENCE : 샘플 데이터에서 뽑아내는 분포와 모델에서 뽑아내는 분포의 거리를 측정(얼마나 같을지)
데이터가 많으면 많을 수록 MLE is the best estimator, $\theta$ 데이터를 설명하는 쎄타를 근사할 수 있게된다.
Bayesian Statistics
앞에서 보았던 Maximum Likelihood Estimation은 $\theta$를 점추정하였다. 어떠한 숫자 1개라고 생각하였다는 의미이다. (구간추정이 아닌 점추정)