[머신러닝] 정보이론(Information Theory) #1 - 정보, 정보엔트로피
🔳 개요
정보이론은 무선전송을 통해 알파벳으로 된 메시지를 보내려는 연구에서 시작되었으며, 머신러닝에서는 주로 확률분포간 유사성을 정량화하는데 사용합니다.🔳 정보
정보란?
정보이론에서 정보란 놀람의 정도로 생각할 수 있습니다.예를 들어 지하철 계단을 내려가고 있다고 생각해봅시다. 우리는 눈을 통해 계단의 위치, 높이 등을 인식하고 계단을 내려갑니다. 하지만 우리는 이 하나하나의 정보에 대해 집중하지 않아도 내려갈수 있습니다. 하지만 내려가던 중 깨진 계단을 밟았다고 생각해봅시다. 순식간에 몸에 균형을 잃고 위기상황에 대응하기 위해 모든 정신을 집중하게 됩니다.
정보이론에서는 위와 같은 2가지 상황을 정보량으로 표현할 수 있습니다. 계단을 내려가는 것과 같은 일상적인 사건은 정보량(놀람의 정도)이 0에 가깝고, 깨진 계단을 밟는 것과 같은 거의 일어나지 않는 사건은 정보량(놀람의정도)이 무한대에 가깝습니다.
이를 수식으로 표현해보면 정보량 \( h(x)\)는 \( h(x) =-\log _{ }{ p(x) } \)으로 정의되고. \(p(x) \)는 x라는 사건이 발생할 확률이고, x={보통계단, 깨진계단, ...}입니다.
정리해보면 다음과 같습니다.
▪ 거의 일어나지 않는 사건을 관측 = 놀람의 정도가 큼 = 정보량이 큼
▪ 항상 일어나는 사건을 관측 = 놀람의 정도가 작음 = 정보량이 작음
정보의 특성
▪ 정보는 없거나 있거나 둘중 하나입니다. 따라서 정보량은 항상 0 이상의 값을 가집니다.▪ 항상 일어나는 사건은 정보량이 0
▪ 거의 일어나지 않는 사건은 정보량이 무한대
▪ 로그의 밑수는 h(x)의 기본단위로 볼 수 있는데, 밑수가 2인 경우 정보량의 단위를 섀넌 또는 비트라고 하고 밑수가 e인 경우 nat이라고 합니다.
🔳 정보 엔트로피(Information Entropy)
열역학에서의 엔트로피
엔트로피라는 개념은 열은 높은 온도에서 낮은 온도로 흘러간다는 열역학 제2법칙을 설명하기 위해 등장하였습니다.높은 온도의 분자들과 낮은 온도의 분자들은 분리되어있을 확률보다 섞여있을 확률이 높습니다. 열은 높은 온도에서 낮은 온도로 흘러간다는 사실을 볼때, 자연은 확률이 높은 상태로 변화하며, 서로 섞여있는 상태로 변화해간다는 것을 알 수 있습니다.
➡ 확률이 높은 상태로 변해가는 변화 = 점점 섞여가는 상태로 진행되는 변화 = 열이 높은 온도에서 낮은 온도로 흘러가는 변화
➡ 즉, 엔트로피가 증가한다는 것은 무언가가 잘 섞이는 방량으로 변화가 이뤄진다는 의미이며, 엔트로피가 최대가 되면 모든 부분의 온도가 같아지는 평형상태가 됩니다.
정보엔트로피
엔트로피라는 개념을 정보이론에서는 주어진 정보가 의미있는(높은 정보량) 정보를 얻을 수 있는 정도로 쓰는 것 같습니다.정보엔트로피는 모든 사건 정보량의 기대값(평균 정보량)으로 정의되고, \( p(x) \)인 분포에서 \(h(x)\) 함수의 기대값을 의미합니다.
$$ H(x)\quad =\quad -\sum _{ x }^{ }{ p(x)\log _{ 2 }{ p(x) } } $$
➡ 정보엔트로피가 증가 = 모든 사건에 대한 평균 정보량이 높은 상태로 변화 = 모든 사건의 정보량이 잘 섞여있는 상태로의 변화
➡ 즉, 정보엔트로피가 최대가 되면, 모든 사건에서 의미있는(정보량이 큰) 정보를 얻을 수 있는 상태가 됩니다.
엔트로피를 동전 예를 통해 이해해보도록 하겠습니다.
▪ 앞면이 나올 확률[P(X=1)]이 0%, 뒷면이 나올 확률이 100%인 동전던지기의 정보엔트로피
$$-p(X=0)\log { p(X=0) } -p(X=1)\log { p(X=1) } =-1*log1-0*log0=0\\ 정보량(동전\quad 앞면)=0,\quad 정보량(동전\quad 뒷면)=0$$
▪ 앞면이 나올 확률[P(X=1)]이 20%, 뒷면이 나올 확률이 80%인 동전던지기의 정보엔트로피
$$-p(X=0)\log { p(X=0) } -p(X=1)\log { p(X=1) } \\ =-0.2*log0.2-0.8*log0.8=0.5\\ 정보량(동전\quad 앞면)=1.6,\quad 정보량(동전\quad 뒷면)=0.22$$
▪ 앞면이 나올 확률[P(X=1)]이 40%, 뒷면이 나올 확률이 60%인 동전던지기의 정보엔트로피
$$-p(X=0)\log { p(X=0) } -p(X=1)\log { p(X=1) } \\ =-0.4*log0.4-0.6*log0.6=0.67\\ 정보량(동전\quad 앞면)=0.91,\quad 정보량(동전\quad 뒷면)=0.51$$
▪ 앞면이 나올 확률[P(X=1)]이 50%, 뒷면이 나올 확률이 50%인 동전던지기의 정보엔트로피
$$-p(X=0)\log { p(X=0) } -p(X=1)\log { p(X=1) } \\ =-0.5*log0.5-0.5*log0.5=0.69\\ 정보량(동전\quad 앞면)=0.69,\quad 정보량(동전\quad 뒷면)=0.69$$
위 3가지 예를 보면 아래로 갈수록 엔트로피가 증가하는 것을 알수 있습니다. 그리고 엔트로피가 증가할수록 동전 앞면과 동전 뒷면이 나올 사건의 정보량이 서로 섞여가는것을 알수 있습니다. 즉 모든 사건에서 의미있는 정보량을 얻을 수 있게 됩니다.
댓글
댓글 쓰기