본문 바로가기

통계

[정보이론] Entropy

정보량

확률 p의 사건이 있을 때 정보량은 log21p로 정의된다. 정보량은 uncertainty라고도 한다. 불확실성의 정도로 해석하면 좋다.


Entropy

Discrete random variable (이하 discrete R.V.) X가 있을 때 probability mass function(pmf)는 p(xi)=P(X=xi)로 표기한다. (p(xi)=Pr(X=xi)로 표기하기도 함.)

R.V. X에 대한 엔트로피 H(X)는 아래와 같다.

H(X)=i=1mp(xi)log21p(xi)=E[log21p(X)]

X가 R.V. log21p(X)도 R.V. H(X)log21p(X) R.V.의 평균.

즉 엔트로피란 average information 혹은 average uncertainty이다.

코딩의 관점으로는 엔트로피란 코드의 최소 길이가 된다. (최대한 압축하였을 때의 길이) ex) p(X)=1이면 길이 0 (항상 발생) p(X)=0이면 길이 (사실상 발생하지 않으므로 무한대의 코드 할당)

 

Joint Entropy

H(X,Y)=i=1mj=1np(xi,yi)log2p(xi,yi)=E[log21p(X,Y)]

 

Conditional Entropy

그냥 바로 계산하려 하면 힘드니 X를 고정시킨다.

H(Y|X)=i=1mp(xi)H(Y|X=xi)=i=1mp(xi)E[log21p(Y|xi)]=i=1mp(xi)j=1np(yj|xi)log2p(yj|xi)=i=1mj=1np(xi)p(yj|xi)log2p(yj|xi)

베이즈정리에 따라 p(xi)p(yj|xi)=p(xi,yj)이다. 따라서 아래와 같이 된다.

H(Y|X)=i=1mj=1np(xi,yj)log2p(yj|xi)=E[log2p(Y|X)]

Conditional entropy의 의미는 X가 주어졌을 때 Y에 여전히 남아있는 불확실성의 정도이다.

위 식을 이용한 항등식이 있다.

H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)

증명은 아래와 같다.

H(X,Y)=i=1mj=1np(xi,yj)log2p(xi,yj)=i=1mj=1np(xi,yj)log2(p(yj|xi)p(xi))=i=1mj=1np(xi,yj)(log2p(yj|xi)+log2p(xi))=H(Y|X)i=1mj=1np(xi,yj)log2p(xi)=H(Y|X)i=1mp(xi)log2p(xi)=H(Y|X)+H(X)

이 항등식의 의미는 다음과 같다. R.V. X,Y가 가지고 있는 불확실성 H(X,Y)X가 주어졌을 때 Y에 여전히 남아있는 불확실성과 X의 불확실성의 합이다, 즉 X,Y를 궁금해하는 정도는 X를 궁금해하는 정도와 X가 주어졌을때 Y를 궁금해하는 정도의 합이 된다.

 

부등식도 있다.

H(Y|X)H(Y)

무언가를 알고 있으면 반드시 Y에 대한 궁금증은 해소되거나 최소한 그대로여야 한다. 궁금증이 더 커질 순 없다, 즉 음의 궁금증은 없다. 만약 XY가 통계적 독립이라면 H(Y|X)=H(Y)이다.

 


Mutual Information

Mutual information은 아래와 같다.

I(X;Y)=H(X)H(X|Y)=I(Y;X)=H(Y)H(Y|X)=H(X)+H(Y)H(X,Y)

의미는 R.V. X가 R.V. Y에 대해 얼마만큼의 정보를 줄 수 있는지를 나타낸다.

'통계' 카테고리의 다른 글

수열 수렴 판정법  (0) 2024.06.26
LASSO, Ridge regression  (0) 2024.06.26
2d symmetric KL-divergence  (1) 2024.02.07
Rightarrow vs mapsto  (1) 2024.01.10
Metric Space  (0) 2024.01.10