ReLU and Their Generations

image.png

Sigmoid와 Hyperbolic Tangent

  1. $\sigma(x) = \frac{1}{1+e^{-x}}$
  2. $\sigma(x)= (1+e^{-x})^{-1}$
    1. 식에서 ChainRule을 적용 $h'(x)=f'(g(x))⋅g'(x)$
    2. $f(u) = u^{-1}$, $g(x) = 1+e^{-x}$ 꼴이므로 ChainRule이 적용되고 $u=(1+e^{-x})$이다.
      1. $f'(u) = -u^{-2}$
      2. $g'(x) = -e^{-x}$
  3. $\sigma'(x) = -(1+e^{-x})^{-2} \cdot -e^{-x} = (1+e^{-x})^{-2} \cdot e^{-x}$
  4. $\sigma'(x) = \frac{e^{-x}}{(1+e^{-x})^2}$
  5. $\sigma'(x) = \sigma(x) \cdot(1-\sigma(x))$
    1. $\ 1 - \sigma(x) = \frac{(1 + e^{-x}) - 1}{1 + e^{-x}} = \frac{e^{-x}}{1 + e^{-x}} \$

Sigmoid는 $x=0$인 지점에서 최대의 미분 값을 가지는데, 이는 $f'(0)= \frac{1}{4}$를 갖는다.

만약, Neural Network로 Sigmoid를 깊게 쌓는다고 하면 $\frac{1}{4} \cdot \frac{1}{4} \cdot \frac{1}{4} \cdot \frac{1}{4} \cdots \frac{1}{4}$, Gradient Vanishing 문제가 발생한다.