그렇다면,

  1. 그 까닭에는, $h(x)$는 $p(x)$에 영향을 받을 수 밖에 없다. (정보량, 놀라움의 정도는 확률과 관련이 있다)
  2. 정보량의 경우, $h(x,y)$=$h(x)+h(y)$

이 두 개의 명제를 만족하는 식은 무엇일까?

즉, $log_2P(x,y) = log_2P(x)\cdot log_2P(y) = log_2P(x)+log_2P(y)$

단 $x,y$가 독립일 경우

$-log_2x$ 그래프

$-log_2x$ 그래프

위 그래프는 $-log_2x$그래프인데, 확률이 0 ~ 1으로 정해져 있으므로 0 ~ 1 부분만 보면된다.

즉, 낮은 확률일수록 높은 정보량을 가지는 것을 볼 수 있다.