본문 바로가기

통계

[정보이론] Entropy

정보량

확률 \(p\)의 사건이 있을 때 정보량은 \(log_2\frac{1}{p}\)로 정의된다. 정보량은 uncertainty라고도 한다. 불확실성의 정도로 해석하면 좋다.


Entropy

Discrete random variable (이하 discrete R.V.) \(X\)가 있을 때 probability mass function(pmf)는 \(p(x_i) = P(X=x_i)\)로 표기한다. (\(p(x_i)=Pr(X=x_i)\)로 표기하기도 함.)

R.V. \(X\)에 대한 엔트로피 \(H(X)\)는 아래와 같다.

\[H(X)=\sum_{i=1}^{m}p(x_i)\cdot log_2\frac{1}{p(x_i)}=E\left[log_2\frac{1}{p(X)}\right]\]

\(X\)가 R.V. \(\rightarrow log_2\frac{1}{p(X)}\)도 R.V. \(\rightarrow H(X)\)는 \(log_2\frac{1}{p(X)}\) R.V.의 평균.

즉 엔트로피란 average information 혹은 average uncertainty이다.

코딩의 관점으로는 엔트로피란 코드의 최소 길이가 된다. (최대한 압축하였을 때의 길이) ex) \(p(X)=1\)이면 길이 0 (항상 발생) \(p(X)=0\)이면 길이 \(\infty\) (사실상 발생하지 않으므로 무한대의 코드 할당)

 

Joint Entropy

\[\displaylines{H(X,Y)= -\sum_{i=1}^{m}\sum_{j=1}^{n}p(x_i,y_i)log_2p(x_i,y_i) \\= E\left[log_2\frac{1}{p(X,Y)}\right]}\]

 

Conditional Entropy

그냥 바로 계산하려 하면 힘드니 \(X\)를 고정시킨다.

\[\displaylines{H(Y|X)=\sum_{i=1}^{m}p(x_i)\cdot H(Y|X=x_i) \\ = \sum_{i=1}^{m}p(x_i)\cdot E\left[log_2\frac{1}{p(Y|x_i)}\right] \\ = \sum_{i=1}^{m}p(x_i)\sum_{j=1}^{n}-p(y_j|x_i)\cdot log_2p(y_j|x_i) \\ = -\sum_{i=1}^{m}\sum_{j=1}^{n}p(x_i)p(y_j|x_i)log_2p(y_j|x_i)}\]

베이즈정리에 따라 \(p(x_i)p(y_j|x_i)=p(x_i,y_j)\)이다. 따라서 아래와 같이 된다.

\[H(Y|X)=-\sum_{i=1}^{m}\sum_{j=1}^{n}p(x_i,y_j)log_2p(y_j|x_i)=-E\left[log_2p(Y|X)\right]\]

Conditional entropy의 의미는 X가 주어졌을 때 Y에 여전히 남아있는 불확실성의 정도이다.

위 식을 이용한 항등식이 있다.

\[\displaylines{H(X,Y)=H(X)+H(Y|X) \\ =H(Y)+H(X|Y)}\]

증명은 아래와 같다.

\[\displaylines{H(X,Y)=-\sum_{i=1}^{m}\sum_{j=1}^{n}p(x_i,y_j)log_2p(x_i,y_j) \\ = -\sum_{i=1}^{m}\sum_{j=1}^{n}p(x_i,y_j)log_2(p(y_j|x_i)p(x_i)) \\ =-\sum_{i=1}^{m}\sum_{j=1}^{n}p(x_i,y_j)(log_2p(y_j|x_i)+log_2p(x_i)) \\ = H(Y|X) - \sum_{i=1}^{m}\sum_{j=1}^{n}p(x_i,y_j)log_2p(x_i) \\ = H(Y|X) - \sum_{i=1}^{m}p(x_i)log_2p(x_i) \\ =H(Y|X) + H(X)}\]

이 항등식의 의미는 다음과 같다. R.V. \(X,Y\)가 가지고 있는 불확실성 \(H(X,Y)\)는 \(X\)가 주어졌을 때 \(Y\)에 여전히 남아있는 불확실성과 \(X\)의 불확실성의 합이다, 즉 \(X, Y\)를 궁금해하는 정도는 \(X\)를 궁금해하는 정도와 \(X\)가 주어졌을때 \(Y\)를 궁금해하는 정도의 합이 된다.

 

부등식도 있다.

\[H(Y|X) \leq H(Y)\]

무언가를 알고 있으면 반드시 Y에 대한 궁금증은 해소되거나 최소한 그대로여야 한다. 궁금증이 더 커질 순 없다, 즉 음의 궁금증은 없다. 만약 \(X\)와 \(Y\)가 통계적 독립이라면 \(H(Y|X)=H(Y)\)이다.

 


Mutual Information

Mutual information은 아래와 같다.

\[\displaylines{I(X;Y)=H(X)-H(X|Y) \\= I(Y;X)=H(Y)-H(Y|X) \\ =H(X)+H(Y)-H(X,Y)}\]

의미는 R.V. \(X\)가 R.V. \(Y\)에 대해 얼마만큼의 정보를 줄 수 있는지를 나타낸다.

'통계' 카테고리의 다른 글

수열 수렴 판정법  (0) 2024.06.26
LASSO, Ridge regression  (0) 2024.06.26
2d symmetric KL-divergence  (1) 2024.02.07
Rightarrow vs mapsto  (1) 2024.01.10
Metric Space  (0) 2024.01.10