엔트로피 2

정보이론 / entropy & Cross entropy & KL divergence

링크된 강의를 참고하여 작성했습니다. ▶ 엔트로피란? 정보를 표현하는데 필요한 평균 최소 자원량을 의미한다. 정보는 한국어, 영어, 필리핀어등 다양한 표현체계로 나타난다. 이 정보를 공통적으로 컴퓨터에서 0과 1 비트로 표현해 공통된 정보로 나타낼 수 있다. 여기서 이 bits 단위를 최소 자원량이라고 말한다. 정보가 등장하는 빈도수가 많을 수록, 즉 많이 사용되는 정보일 수록 자원량은 적은 것이 더 효율적일 것이다. 따라서 확률이 1에 가까우면 비트는 짧게 코딩하고 0에 가까우면 길게 코딩되도록 한다. 이 확률을 기반으로 평균 최소 자원량을 정한다. 코드의 길이는 다음 그래프에 의해 −log2Pi 가 된다. 평균 최소 자원량 구하기 위해 기댓값을 구해야 한다. 이 기댓값은 도수*확률 값들을 모두 더해서..

수학/통계학 2022.01.20

엔트로피와 크로스엔트로피

참고강의1 - 엔트로피 참고강의2 - 크로스 엔트로피 ▶ 엔트로피란 entropy 는 무질서도를 의미한다. 따라서 엔트로피 값이 클수록 데이터가 혼재되어있어 분류가 잘 되어있지 않은 상태이고 그 값이 작을 수록 데이터가 잘 분리되어있다는 뜻이다. 즉 불확실성의 정도를 나타내는 수치라고 볼 수 있다. ▶엔트로피 공식 어떤 특정 현상이 발생할 확률을 p라고 할 때 엔트로피의 공식은 다음과 같다. 특정 사건이 발생할 확률 p에 로그를 취해준 p를 곱한 후 모두 더한 값에 -를 취해준다. ▷예제 해당 공식의 예제를 들어보자. 동전을 던졌을 때 앞이 나올지 뒤가 나올지 예측하는 문제가 있다고 해보자. 앞이 나올 사건과 뒤가 나올 사건에 대해 예측한 확률 분포값에 따라 각각의 엔트로피를 구해보자. 1) 앞이 나올 ..