-
Discrete Random Variable $x$에 대해서 생각해보자
- 여기서 Discrete Random Variable $x$는 주사위의 눈과 같이 셀 수 있는 변수들을 Discrete Random Variable 이라고 한다.
- 이러한 $x$에 대한 정보량을 어떻게 측정할 수 있을까?
- amount of information(정보량), degree of surprise(놀람의 정도)
- 이러한 정보량을 $h(x)$라고 하자
-
$p(x=a)$가 낮은데, 우리가 $x=a$를 관측했다고 하면, 정보량이 크다고 말할 수 있다.
- 예를들어, 항상 100점 맞는 친구가 또 100점을 맞는 것을 보는 것보다 90점을 맞는 것을 보는 것은 다른 정보량을 가질 것이다.
- 그 까닭에는, $h(x)$는 $p(x)$에 영향을 받을 수 밖에 없다. (정보량, 놀라움의 정도는 확률과 관련이 있다)
- 즉, 낮은 확률로 뜨는 정보에 대해 큰 정보량을 가진다. (놀라움의 정도)
-
Independent random variable $x,y$에 대해서 생각해보자
- $p(x,y) = p(x) \cdot p(y)$
- 정보량의 경우, $h(x,y)$=$h(x)+h(y)$
- 각각이 독립이니, 정보량 또한 각각 더해주면 된다.
그렇다면,
- 그 까닭에는, $h(x)$는 $p(x)$에 영향을 받을 수 밖에 없다. (정보량, 놀라움의 정도는 확률과 관련이 있다)
- 정보량의 경우, $h(x,y)$=$h(x)+h(y)$
이 두 개의 명제를 만족하는 식은 무엇일까?
즉, $log_2P(x,y) = log_2P(x)\cdot log_2P(y) = log_2P(x)+log_2P(y)$
단 $x,y$가 독립일 경우

$-log_2x$ 그래프
위 그래프는 $-log_2x$그래프인데, 확률이 0 ~ 1으로 정해져 있으므로 0 ~ 1 부분만 보면된다.
즉, 낮은 확률일수록 높은 정보량을 가지는 것을 볼 수 있다.
- 밑이 반드시 2일 필요는 없다.
- 이를 Self-information이라고 부른다.