수학/통계학 7

이산확률분포 총정리(베르누이,이항,다항,포아송,기하,음이항)

이번 포스팅에선 총 여섯가지의 이산확률분포를 정리하고, python의 scipy패키지를 통해 몇가지 그래프를 출력해보고자한다. 포스팅에서 다룰 여섯가지 분포는 다음과 같다. - 베르누이 분포 - 이항분포 - 다항분포 - 포아송분포 - 기하분포 - 음이항 분포 ▶ 베르누이분포 Bernoulli trial 베르누이 시행이란, 결과가 두가지 중 하나로만 나오는 실험이다. 베르누이 확률변수란, 두가지 중 하나로 나온 베르누이 시행의 결과를 실수 0 또는 1로 바꾼것을 말한다. 베르누이 분포란, 베르누이 확률변수의 분포를 일컫는다. 즉 시행횟수가 1번이고 한번의 시행결과가 성공(1) 혹은 실패(0)로만 나눠지는 분포를 베르누이 분포라고 한다. ▷ 분포함수 $$ P(x) = p^x(1-p)^{1-x}$$ - $x$..

수학/통계학 2022.02.18

p-value란? / p-value 사용 시 주의할 점

p-value, 통계학, 데이터 분석 등을 공부하다 보면 꽤 자주 마주치는 값이다. 유의성 검정 시 '차이가 유의하다고 판단하려면 p-value가 0.05보다 낮아야 한다.'라고 알고 있고, 또 그렇게 사용해왔다. 그런데 막상 누군가 나에게 p-value에 대해서 설명해보라고 한다면 '유의성 검정할 때 사용하는 값인데 이 값이 0.05 혹은 0.01보다 작을 때 통계적으로 해당 사건은 유의한 인과관계를 가지고 있다고 판단합니다!'라고 밖에 설명할 수 없다. 따라서 이번 포스팅에선, p-value에 대해 명확히 알고 더 나아가서 이를 해석할 때 주의할 점은 무엇이고 이 값이 정말 통계적으로 믿을만한 지표인 것인지 알아보고자한다. ▶ p - value (Probability - value) 란 무엇일까 위키..

수학/통계학 2022.01.28

정보이론 / entropy & Cross entropy & KL divergence

링크된 강의를 참고하여 작성했습니다. ▶ 엔트로피란? 정보를 표현하는데 필요한 평균 최소 자원량을 의미한다. 정보는 한국어, 영어, 필리핀어등 다양한 표현체계로 나타난다. 이 정보를 공통적으로 컴퓨터에서 0과 1 비트로 표현해 공통된 정보로 나타낼 수 있다. 여기서 이 bits 단위를 최소 자원량이라고 말한다. 정보가 등장하는 빈도수가 많을 수록, 즉 많이 사용되는 정보일 수록 자원량은 적은 것이 더 효율적일 것이다. 따라서 확률이 1에 가까우면 비트는 짧게 코딩하고 0에 가까우면 길게 코딩되도록 한다. 이 확률을 기반으로 평균 최소 자원량을 정한다. 코드의 길이는 다음 그래프에 의해 −log2Pi 가 된다. 평균 최소 자원량 구하기 위해 기댓값을 구해야 한다. 이 기댓값은 도수*확률 값들을 모두 더해서..

수학/통계학 2022.01.20

confusion matrix(혼돈행렬)과 TP,FP,FN,TN & Precision, Recall, f1-score에 대해

fpr, tpr, fnr, tpr은 roc-curve, f1-score등을 산출해내는 지표로, classification문제에서 모델의 분류 정확도를 평가하기 위해 사용된다. 그렇기 때문에 분류모델을 구축하기 위해선 꼭 짚어두고 가야하는 개념이다. 몇 번을 보고, 배운 개념이지만 자꾸 헷갈리고 찾아보게되어 이 기회에 완벽히 숙지하고 넘어가려한다. ▶confusion matrix와 TP,FP,FN,TN confusion matrix(혼돈행렬)은 단어에서 알 수 있듯이 컴퓨터가 (대표적으로)이진분류 문제를 수행한다고 할때 두개의 클래스를 얼마나 헷갈려하는지를 알 수 있는 지표이다. 열에는 대상의 실제클래스가, 행에는 대상의 예측된 클래스가 위치한다. 각 행렬요소들은 tp, fp, fn, tn으로 구성된다. ..

수학/통계학 2021.02.24