수학 16

이산확률분포 총정리(베르누이,이항,다항,포아송,기하,음이항)

이번 포스팅에선 총 여섯가지의 이산확률분포를 정리하고, python의 scipy패키지를 통해 몇가지 그래프를 출력해보고자한다. 포스팅에서 다룰 여섯가지 분포는 다음과 같다. - 베르누이 분포 - 이항분포 - 다항분포 - 포아송분포 - 기하분포 - 음이항 분포 ▶ 베르누이분포 Bernoulli trial 베르누이 시행이란, 결과가 두가지 중 하나로만 나오는 실험이다. 베르누이 확률변수란, 두가지 중 하나로 나온 베르누이 시행의 결과를 실수 0 또는 1로 바꾼것을 말한다. 베르누이 분포란, 베르누이 확률변수의 분포를 일컫는다. 즉 시행횟수가 1번이고 한번의 시행결과가 성공(1) 혹은 실패(0)로만 나눠지는 분포를 베르누이 분포라고 한다. ▷ 분포함수 $$ P(x) = p^x(1-p)^{1-x}$$ - $x$..

수학/통계학 2022.02.18

p-value란? / p-value 사용 시 주의할 점

p-value, 통계학, 데이터 분석 등을 공부하다 보면 꽤 자주 마주치는 값이다. 유의성 검정 시 '차이가 유의하다고 판단하려면 p-value가 0.05보다 낮아야 한다.'라고 알고 있고, 또 그렇게 사용해왔다. 그런데 막상 누군가 나에게 p-value에 대해서 설명해보라고 한다면 '유의성 검정할 때 사용하는 값인데 이 값이 0.05 혹은 0.01보다 작을 때 통계적으로 해당 사건은 유의한 인과관계를 가지고 있다고 판단합니다!'라고 밖에 설명할 수 없다. 따라서 이번 포스팅에선, p-value에 대해 명확히 알고 더 나아가서 이를 해석할 때 주의할 점은 무엇이고 이 값이 정말 통계적으로 믿을만한 지표인 것인지 알아보고자한다. ▶ p - value (Probability - value) 란 무엇일까 위키..

수학/통계학 2022.01.28

정보이론 / entropy & Cross entropy & KL divergence

링크된 강의를 참고하여 작성했습니다. ▶ 엔트로피란? 정보를 표현하는데 필요한 평균 최소 자원량을 의미한다. 정보는 한국어, 영어, 필리핀어등 다양한 표현체계로 나타난다. 이 정보를 공통적으로 컴퓨터에서 0과 1 비트로 표현해 공통된 정보로 나타낼 수 있다. 여기서 이 bits 단위를 최소 자원량이라고 말한다. 정보가 등장하는 빈도수가 많을 수록, 즉 많이 사용되는 정보일 수록 자원량은 적은 것이 더 효율적일 것이다. 따라서 확률이 1에 가까우면 비트는 짧게 코딩하고 0에 가까우면 길게 코딩되도록 한다. 이 확률을 기반으로 평균 최소 자원량을 정한다. 코드의 길이는 다음 그래프에 의해 −log2Pi 가 된다. 평균 최소 자원량 구하기 위해 기댓값을 구해야 한다. 이 기댓값은 도수*확률 값들을 모두 더해서..

수학/통계학 2022.01.20

의사역행렬과 선형회귀

수학채널 쑤튜브 영상을 참고했습니다. ▶ 의사역행렬 역행렬은 정사각행렬일 경우 만들어질 수 있다. 행과 열의 수가 다른 경우 역행렬은 만들어질 수 없다. 그러나 이 행렬에 대한 의사역행렬은 만들 수 있다. 의사역행렬은 역행렬과 유사한 행렬을 의미한다. 우선 축소된 svd개념부터 살펴보자. 특이값 분해는 행과 열이 다른 행렬을 직교 행렬 U,V와 주 대각성분이 특이값으로 이뤄진 시그마 행렬의 곱으로 나타내는 것이다. 축소된 특이값 분해는 행렬에서 0으로만 이뤄진(대수적으로 무의미한) 행과 열을 모두 제거하고 나타낸 행렬곱이다. 비가역행렬과 가역행렬에서 축소된 svd는 다음과 같은 shape을 가진다. - 여기서 시그마 프라임은 모든 대각원소가 0이 아닌 정사각 대각행렬이므로 가역행렬이다. - u프라임과 v..

자연상수 e

유튜브 강의 내용을 참고하여 정리하였습니다. ▶ 자연상수 e란 베르누이에 의해 조명된 자연상수이다. 해당 개념은 복리를 계산하는 과정에서 복리를 최대화하기위해 계산하는 과정에서 비롯되었다. 분기 별로 1원의 가치를 가진 투자상품을 해지하고 재투자한다고 하면 이익은 (1+1/4)^4으로 2.4414가 나온다. 이번에는 매일매일 365일동안 하루만에 투자상품을 해지하고 재투자한다고 해보자. 그러면 이익은 (1+1/365)^365로 2.7이 나온다. 해지하고 재투자하는 기간이 짧을수록 이익율이 늘어난다. 그렇다면 무한번 해지하고 무한번 재투자하면 어떻게 될까. 그러면 2.1828...이라는 값에 수렴하는데 이 수치가 바로 자연상수 e이다. 베르누이가 조명한 이 자연상수를 오일러라는 수학자가 정리하여 출판함으로..

수학/미적분학 2021.07.25

직선, 평면 벡터방정식

▶ 벡터방정식이란 함수에서 x에 값을 대입했을 때 도출되는 좌표값을 바로 산출할 수 있도록 하는 방정식이다. 예를들어, y= mx라는 직선 방정식이 있다고해보자. 이때 x를 1이라고 하면 y는 m, 즉 (1,m)의 좌표값을 가지게 된다. 해당 함수의 직선위에 존재하는 좌표값들은 (1,m)에 스칼라 배를 해준 좌표들을 모아놓은 값일 것이다. 해당 함수의 벡터 방정식은 다음과 같이 나타낼 수 있다. v= (1,m) (x,y)= tv 벡터가 (1,m)일 때 해당 벡터에 스칼라 배만 해주면 직선위에 존재하는 좌표값이 바로 나올 것이다. 그럼 (3,5m)좌표가 해당 직선에 포함되는 좌표인지 벡터 방정식을 통해 알아보자. x좌표가 3이 나오기 위해서 t는 3이되어야한다. 3v= 3(1,m)= (3,3m)이 벡터방정..

전치행렬

▶ 전치행렬이란 원래 행렬의 행과 열을 바꾼 행렬을 의미한다. 즉 2 x 3의 A행렬이 있으면 A의 전치행렬은 3x2 행렬이 된다 . 대각성분들은 행과 열이 같으므로 전치하더라도 위치가변화하지 않는다. 대각 성분을 제외한 성분들은 행과 열이 서로 바뀌기 때문에 대각선을 기준으로 대칭되는 위치로 바뀐다. ▶ 전치행렬의 성질 1) 전치한 행렬에 다시 전치한 행렬은 원래 행렬과 동일하다. 2) A행렬과 B행렬을 더해 전치한 행렬과 A의 전치행렬과 B의 전치행렬을 더한 행렬은 동일하다. 3) 스칼라배한 A행렬의 전치행렬과 A행렬의 전치행렬에 스칼라배한 행렬은 동일하다. 4) A가 가역행렬이면 A의 전치행렬도 가역행렬이다.

코사인 유사도(cosine similarity)/ 파이썬 구현

▶ 코사인 유사도란? 우리는 벡터 간 유사도를 측정함으로써 두 벡터가 얼마나 비슷한지를 알 수 있다. 그 유사도를 측정하는 방법 중 하나가 코사인 유사도이다. 벡터가 "유사하다"는 것은 두 벡터의 길이와 방향이 비슷한 방향과 길이를 가진다는 의미이다. 코사인 유사도는 두 벡터의 방향, 즉 각도에 기초해서 유사도를 측정한다. 다음과 같은 좌표들을 가진 세 벡터가 있다고 해보자. 그림을 보면 A벡터와 B벡터가 A와 C벡터는 유사할 것으로 보인다. 코사인 유사도로 측정하였을 때에도 우리의 추측과 일치하는지 알아보자. ▶ 코사인 유사도 공식 이때 각도 theta, 즉 v1과 v2 사이의 각도가 0에서 90도 사이이면 코사인 값이 +값이 나오고 90에서 180도 사이로 둔각이면 -값이 나온다. 따라서 코사인 유사..

역행렬과 역행렬의 특징/ 행렬식, (비)가역행렬

▶ 역행렬이란 정사각(nxn) 행렬의 역원을 역행렬이라고 한다. 역원은 행렬 A에 X행렬을 곱했을 때 나온 결과값이 항등행렬이면 X행렬을 A의 역원이라고 한다. 역행렬은 하나의 행렬에 대해 유일한 하나의 역행렬만 존재한다. 즉 X라는 역행렬은 A행렬에 대해 유일하게 존재하는 역행렬이라고 말할 수 있다. ▶ 역행렬의 공식 역행렬의 공식은 다음과 같다. 역행렬에서 ad-bc부분이 0이면 역행렬이 존재하지 못할 것이다. 따라서 우리는 A라는 행렬이 역행렬이 존재하는 행렬인지 아닌 행렬인지를 ad-bc가 0인지 아닌지를 통해 알 수 있다. 여기서 ad-bc를 우리는 판별식 또는 행렬식(determinant)로 det(A)라고 나타낸다. det(A)가 0이 아니라서 역행렬이 존재하는 행렬을 가역행렬이라고 부른다...

연립 일차 방정식, 행렬로 풀기/ 가우스조던 소거법, 역행렬

▶ 연립일차방정식을 행렬로 연립일차방정식을 행렬로 나타내고 행렬을 통해 계산할 수 있다. 행렬을 통해 푸는 방법으로는 가우스 조던 소거법과 역행렬을 이용한 방법이 있다. 연립일차방정식에서 구해야할 해가 적다면 충분히 원래 알고 있던 방정식을 푸는 방식으로 풀 수 있지만 구해야 하는 해가 5개만 넘어가도 풀기 복잡해진다. 이럴 때 행렬을 사용하면 해를 더 간단하게 구할 수 있고 컴퓨터를 통해 더 효율적으로 연산을 처리할수 있다. 그럼 두가지 방식에 대해 하나씩 알아보자. ▷ 가우스조던 소거법 먼저 가우스 조던 소거법을 사용하여 방정식을 풀어보자. 가우스 조던 소거법은 행연산에 상수배를 하여 다른 행에 더함으로써 첨가행렬(위 그림에서 1번 행렬)을 기약 행 사다리꼴로 변환하여 해를 구하는 방법이다. 여기서 ..