ReLU and Their Generations
- Sigmoid
- $\sigma(x) = \frac{1}
{1+e^{-x}}$
- tanh
- ReLU
- $Max(0,x)$
- Neural Network의 Boom을 이끈 장본인
- Non Linear한 문제를 해결할 수 있도록 해줌
- 대부분의 문제에 대한 좋은 Default 선택이다.
- Leaky ReLU
- $Max(0.1x,x)$
- 음수에 대한 정보도 살리고자 하는 의지가 담김.
- Maxout
- $Max(w_1^Tx +b_1,W_2^Tx+b_2)$
- ELU
- $x,\; x\geq0$
- $a(e^x-1),x<0$

Sigmoid와 Hyperbolic Tangent
-
Sigmoid의 미분

- $\sigma(x) = \frac{1}{1+e^{-x}}$
- $\sigma(x)= (1+e^{-x})^{-1}$
- 식에서 ChainRule을 적용 $h'(x)=f'(g(x))⋅g'(x)$
- $f(u) = u^{-1}$, $g(x) = 1+e^{-x}$ 꼴이므로 ChainRule이 적용되고 $u=(1+e^{-x})$이다.
- $f'(u) = -u^{-2}$
- $g'(x) = -e^{-x}$
- $\sigma'(x) = -(1+e^{-x})^{-2} \cdot -e^{-x} = (1+e^{-x})^{-2} \cdot e^{-x}$
- $\sigma'(x) = \frac{e^{-x}}{(1+e^{-x})^2}$
- $\sigma'(x) = \sigma(x) \cdot(1-\sigma(x))$
- $\
1 - \sigma(x) = \frac{(1 + e^{-x}) - 1}{1 + e^{-x}} = \frac{e^{-x}}{1 + e^{-x}}
\$
Sigmoid는 $x=0$인 지점에서 최대의 미분 값을 가지는데, 이는 $f'(0)= \frac{1}{4}$를 갖는다.
만약, Neural Network로 Sigmoid를 깊게 쌓는다고 하면 $\frac{1}{4} \cdot \frac{1}{4} \cdot \frac{1}{4} \cdot \frac{1}{4} \cdots \frac{1}{4}$, Gradient Vanishing 문제가 발생한다.
- HyperBolic Tangent가 Sigmoid activation Function보다는 일반적으로 더 잘 수행한다.
- 둘 중 하나를 써야한다면 HyperBolic Tangent가 더 낫다.