AI의 전체 로직

NonLinear 함수(ReLU)를 이용해서 NonLinear한 문제를 해결할 수 있게 되었고 적절한 정답값이 나오게 끔 $\theta$ (파라미터)를 최적화(Gradient Based Learning - SGD, Gradient Descent)기법을 사용해 찾는다.
$\theta$를 찾기 위해서 우리는 Loss Function을 정의해야한다.
- 분류: Softmax, Sigmoid
- 회귀: MSE, MAE
⇒ 이 Loss Function을 어떤 출력값으로 내보내어야 할 것인가?

⇒ 1. 가우시안 분포를 따르는 값을 내보내어야한다.

⇒ 2. Sigmoid와 같이 0 ~ 1 사이를 따르는 값을 내보내어야한다.

⇒ 3. Softmax를 이용해서 확률값으로 내보내어야 한다.

SoftMax

Softmax는 분류 Task에서 굉장히 많이 쓰이고 있다.

그만큼 매우 중요하다 !

$P_i = \frac{exp(z_i)}{\sum_j exp(z_j)}$ 는 아래와 같이 해석이 된다.
$p^Ts (=E_{i \sim p}s_i) + H(p) (=-\sum_ip_ilogp_i)$ ⇒ Softmax maximize expected score + Shannon Entropy
- s는 Logit
- $p^Ts$는 입력값의 기대값이라고 생각할 수 있고 $H(p)$는 Shannon Entropy이다.
- $H(p)$를 바꾸면 Softmax가 달라진다. example) Tsallis $a$-Entropies
- 소프트 맥스를 변형해서 많이 쓰인다.
SparseSoftmax($z$)$i$ = $[z_i - \tau(z)]+$
- 이때 $\tau$는 Threshold라고 생각하면 되고 $z$는 Logit이다.
- 즉, Logit이 특정 threshold 이상일 때만 우리가 값을 ReLU 처럼 내보내주고 그렇지 않으면 0을 출력하도록 한다.
- Sparese는 0이 많다는 의미이다.
- SparseSoftmax는 기존의 softmax의 단점이었던 Output값이 0이 나오지 않는다는 점을 보완하였다.
- SparseSoftmax는 0을 표현할 수 있도록 보완하였다.
  - 0 또한 중요한 정보를 포함할 수 있으니까 !
- 예를 들어, 아무리 이 사진에 대해서는 고양이인 것 같은데, Softmax를 적용하면 0.99 | 0.01 이런식으로 나오기 때문에, 데이터가 많아지면 많아질 수록 이러한 Loss가 쌓이게 되는 문제점이 발생하여 SparseSoftmax를 사용하면 1 | 0 으로 표현이 가능할 수 있게된다.

Softmax Units for Multinoulli Output Distributions

Multinoulli output Distribution이란 단일 샘플에 대해 여러 개의 가능한 범주 중 하나를 선택하는 확률 분포, (한 번의 시행에서 오직 하나의 클래스를 선택하는 경우)

$n$ possible values, $softmax(z)_i = \frac{exp(z_i)}{\sum_j exp(z_j)}$

We wish to maximize $log P(y=i;z) = logsoftmax(z)_i$

$logsoftxmax(z)_i = z_i-log\sum_jexp(z_j)$
Encourage $z_i$ to be pushed up (로그 확률을 최대화하는 것은 $z_i$를 증가시키고)
Encourages all of $z$ to be pushed down (나머지 $z$들은 상대적으로 낮추는 방향으로 학습)
- 올바르게 예측하는 $z$에 대한 것은 증가시키고, 잘못된 정답을 유추하는 모든 $z$는 낮추도록 학습시킨다.