ReLU and Their Generations

Sigmoid
- $\sigma(x) = \frac{1} {1+e^{-x}}$
tanh
- $tanh(x)$
ReLU
- $Max(0,x)$
- Neural Network의 Boom을 이끈 장본인
- Non Linear한 문제를 해결할 수 있도록 해줌
- 대부분의 문제에 대한 좋은 Default 선택이다.
Leaky ReLU
- $Max(0.1x,x)$
- 음수에 대한 정보도 살리고자 하는 의지가 담김.
Maxout
- $Max(w_1^Tx +b_1,W_2^Tx+b_2)$
ELU
- $x,\; x\geq0$
- $a(e^x-1),x<0$

Sigmoid와 Hyperbolic Tangent

Sigmoid의 미분

$\sigma(x) = \frac{1}{1+e^{-x}}$
$\sigma(x)= (1+e^{-x})^{-1}$
1. 식에서 ChainRule을 적용 $h'(x)=f'(g(x))⋅g'(x)$
2. $f(u) = u^{-1}$, $g(x) = 1+e^{-x}$ 꼴이므로 ChainRule이 적용되고 $u=(1+e^{-x})$이다.
  1. $f'(u) = -u^{-2}$
  2. $g'(x) = -e^{-x}$
$\sigma'(x) = -(1+e^{-x})^{-2} \cdot -e^{-x} = (1+e^{-x})^{-2} \cdot e^{-x}$
$\sigma'(x) = \frac{e^{-x}}{(1+e^{-x})^2}$
$\sigma'(x) = \sigma(x) \cdot(1-\sigma(x))$
1. $\ 1 - \sigma(x) = \frac{(1 + e^{-x}) - 1}{1 + e^{-x}} = \frac{e^{-x}}{1 + e^{-x}} \$

Sigmoid는 $x=0$인 지점에서 최대의 미분 값을 가지는데, 이는 $f'(0)= \frac{1}{4}$를 갖는다.

만약, Neural Network로 Sigmoid를 깊게 쌓는다고 하면 $\frac{1}{4} \cdot \frac{1}{4} \cdot \frac{1}{4} \cdot \frac{1}{4} \cdots \frac{1}{4}$, Gradient Vanishing 문제가 발생한다.

HyperBolic Tangent가 Sigmoid activation Function보다는 일반적으로 더 잘 수행한다.
- 둘 중 하나를 써야한다면 HyperBolic Tangent가 더 낫다.