수학/통계학

p-value란? / p-value 사용 시 주의할 점

빛날희- 2022. 1. 28. 12:59

p-value, 통계학, 데이터 분석 등을 공부하다 보면 꽤 자주 마주치는 값이다. 유의성 검정 시 '차이가 유의하다고 판단하려면 p-value가 0.05보다 낮아야 한다.'라고 알고 있고, 또 그렇게 사용해왔다. 그런데 막상 누군가 나에게 p-value에 대해서 설명해보라고 한다면 '유의성 검정할 때 사용하는 값인데 이 값이 0.05 혹은 0.01보다 작을 때 통계적으로 해당 사건은 유의한 인과관계를 가지고 있다고 판단합니다!'라고 밖에 설명할 수 없다. 

 

따라서 이번 포스팅에선,

p-value에 대해 명확히 알고

더 나아가서 이를 해석할 때 주의할 점은 무엇이고

값이 정말 통계적으로 믿을만한 지표인 것인지 알아보고자한다. 

 

 

▶ p - value (Probability - value) 란 무엇일까

위키피디아에선 다음과 같이 정의한다. 

귀무가설 유의성 검정에서 p-value는,
귀무가설이 맞다고 가정할 때, 관찰된(또는 그보다 더 극단적인) 결과가 일어날 확률입니다 .

wikipedia

"귀무가설이 맞다고 가정할 때" 

통계에서 가정을 검정할 땐 디폴트로 귀무가설이 맞다는 전제하에 진행된다. 

 

"관찰된 혹은 그보다 더 극단적인 결과가 일어날 확률"

데이터(샘플)의 통계량이 귀무가설에서 주장하는 바를 얼마나 지지하는지를 나타낸 확률이다. 즉 이 확률이 클수록 샘플의 통계량은 귀무가설을 강하게 지지하기 때문에 귀무가설이 참이 된다. 반면 이 확률이 작을수록 통계량은 귀무가설을 지지하지 않기 때문에 귀무가설은 기각된다. 

 

즉, 내 주장과 일반적으로 반대되는 가설인 귀무가설을 우선 참이라고 가정했을 때, 내가 관측한 데이터의 통계량(function of samples)이 귀무가설을 지지할 확률을 p-value라고 정의할 수 있다. 

 


조금 더 쉽게 이야기하자면, 

 

p-value는 어떤 사건(관찰된 값)이 우연히 발생할 확률이라고 말할 수도 있다. 

즉, p값이 0.05보다 작다는 말은 어떤 사건이 우연히 발생할 확률이 5%보다 작다는 의미이다. 따라서 이 사건이 우연히 일어났을 가능성이 거의 없다고 추정하는  것이다. 즉 이 사건은 우연히 발생한 것이 아니라 '무언가 인과관계가 있기 때문에 발생한 것일거다. 이정도면 우연은 아닐거다'라고 해석할 수 있다.  

반대로 p값이 0.05보다 크면 어떤 사건이 우연히 발생할 확률이 5%보다 크기 때문에, 해당 사건은 통계적으로 인과관계가 없다고 해석할 수 있다. 

이렇게 설명하면 '그 사건이 우연히 일어났다'라고 가정하는 것이 귀무가설이고 '그 사건은 우연히 일어난것이 아니고 뭔가 이유가 있다'라고 가정하는 것이 대립가설이다. 따라서 따라서 p-value가 5%보다 작다면 우연히 일어날 가능성이 거의 없기 때문에 귀무가설을 기각하고 대립가설을 채택하는 것이다. 


 

 

▷ P-value 예시

다음과 같은 귀무가설과 대립가설이 있다고 하자. 우리의 목표는 샘플데이터를 통해 모집단의 평균을 추정하는 것이다. 

여기서 귀무가설은 '모집단 A의 평균이 10이다'이고 대립가설은 그 반대이다.

 

 

가설검정을 하기 위해선 우선 검정통계량을 알아야한다.

더보기

검정통계량이란 귀무가설이 참이라는 가정 하에 얻은 통계량, 즉 샘플의 함수 값을 말한다. 

위 예시에선 검정통계량을 '샘플의 평균 - 귀무가설에서 주장한 평균'으로 설정했다. (원래는 분산 제곱근으로 scaling+ 샘플수 제곱근을 곱해준 값이지만 이해를 돕기 위해 위와 같이 설정했다)

따라서 이 값이 크다면 샘플이 귀무가설이 주장하는 바와는 다르다는 것을 의미한다. 즉 내가 관측한 데이터 패턴과 평균이 10이라고 주장하는 귀무가설이 맞지 않다는 말이기 때문에 귀무가설을 기각한다. 반대로 이 값이 작다면 샘플과 귀무가설에서 주장하는 바에 차이가 없기 때문에 귀무가설이 맞다는 것을 의미한다. 

 

여기서 p-value는 검정통계량을 0과 1사이의 확률값으로 나타낸 값이다. 

검정통계량 T값은 아래와 같이 t분포를 따른다. 그리고 p-value는 Y가 관측된 값들의 통계량인 T값보다 큰 경우의 확률을 의미한다. 

t 분포 예시

만약 T값이 10.5라면 Y가 T보다 클 확률, 즉 p-value값은 거의 0에 가까울 정도로 작은 확률값을 가진다. 즉 T 값이 크면 p-value는 작은 값을 가지고, T 값이 작으면 p-value는 큰값을 가진다.


즉, "p-value가 작으면(검정통계량 T 값이 크면) 귀무가설에서 주장하는 바와 관측된 데이터의 통계량에 차이가 크기 때문에 귀무가설은 유의미하지 않다고 본다. 반대로 p-value가 크면(검정통계량값이 작으면) 관측값들이 귀무가설의 주장과 크게 다르지 않기 때문에 귀무가설이 참이라고 본다."라고 할 수 있다. 

 

처음 말했던 p-value의 정의를 인용해 다시 말하면, p-value가 크다는 것은 내가 주장한 평균 값과 실제로 관측한 샘플값의 차이인 검정통계량 T 값이 작다는 것이기 때문에 결론적으로 관측값은 귀무가설을 강하게 지지하고 있다고 말할 수 있다. 

 

해당 포스팅에서 든 예시는 모집단이 하나인 1 sample t-test의 간단한 예시였다. 더 복잡한 예시가 궁금하다면 아래 참고한 강의 영상에서 찾아보면 좋을듯하다. 

 

 

▶ P-value 해석 시 주의할 점

위 내용에선 이해를 돕기 위해 p-value를 '귀무가설을 우선 참이라고 가정했을 때, 내가 관측한 데이터의 통계량이 귀무가설을 지지할 확률' 또는 '어떤 사건이 우연히 발생할 확률' 이라고 정의했지만, 미국 통계학회(ASA)가 발표한 성명서에서 관행적으로 사용되어왔던 p-value에 대한 이러한 정의가 꼭 올바른 것은 아니라고 지적한다. 

American statistical association releases statement on statistical significance and p-values

즉 ASA에서 p값은 어떤 가설이 참이라거나 실험 결과가 중요한지와 같은 여부를 결정할 수 없다고 말한다. '내가 진행한 실험에서 p-value값이 5%보다 낮게 나왔으니 내가 주장하고자한 바는 맞는 주장이며, 그렇기 때문에 내 실험은 중요한 의미를 가진다'라고 해석하는 것은 p값을 잘못 사용하고 있다는 것이다. 

 

 

>그럼 ASA에선 어떻게 해석하라고 하는데?

p값이 0.05보다 작다는 것은 '주어진 가설이 참일 확률이 95%이상이라는 것을 의미하기보다는, 귀무 가설과 다른 모든 가설이 타당하다는 전제 하에서, 관찰된 데이터의 결과값이 그 이상으로 극단적인 결과를 얻을 확률이 5%보다 낮다'라고 해석하는 것이 맞다고 본다. 

American statistical association releases statement on statistical significance and p-values

즉 p값은 내가 관찰한 데이터 값이 귀무가설의 통계 모형과 얼마나 상반되는지(귀무가설의 확률 분포에서 이러한 실험 데이터가 나올 확률이 얼마나 낮은지)를 나타내는 값이라는 것이다. 

 

생각해보면, p값은 귀무가설이 옳다는 전제하에 도출된 값이지만 현실세계에선 수많은 변수들이 영향을 끼칠 수 있다. 또한 샘플 수만 변화를 주어도 값이 바뀌는게 p-value 이다. 

 

때문에 실험을 진행할 때 설정한 다른 정보(샘플 수, 실험 기간, 설정한 가설 등)없이 p-value를 해석하거나 실험의 중요성을 나타내기 위한 지표로 사용하는 것은 올바르지 못하다.

American statistical association releases statement on statistical significance and p-values

 

 

▶ P-value, 믿을만한 지표인가

p-값을 현실문제에 적용해도 될것인가 라는 문제에 회의적으로 보는 시각도 있다.

앞서 말했듯이 p-value를 해석할 때 고려해야할 요소들을 충분히 고려한다고 해도 막상 현실에서는 그 정보가 유의하지 않을 수도 있다. 실무에선 이러한 요소들을 모두 가늠하는 것 역시 힘들 수 있다.

또한 빠르게 변하는 세상에서 이러한 전통적 실험 방법이 유의미하게 적용될 수 있을지도 알 수 없다. 어찌됐던 간에 실험을 진행한 데이터 결과값은 과거의 것이기 때문에 앞으로 고객이 이와 같은 행동을 할 것일지에 대해선 누구도 알 수 없기 때문이다. 

 

몇 학자들은 그러니 p-value를 사용하지 말라라는 주장도 하지만 이에 대해선 의견이 분분한듯하다. p-value가 통계적 유의성을 확보하기 위해 사용될 수 있는 수단이라는 것엔 변함이 없기 때문이다. 

 

따라서 결론은

  • p-value를 통계적 유의성확보를 위한 도구로 사용하되, 이를 실험의 중요성을 측정하거나 가설을 참이라고 주장하기 위한 절대적인 지표로 보지는 말라는 것이다.
  • 올바른 적용과 해석을 위해선 유의수준과 실험 규모등의 다른 요소들을 적절히 고려한 실험 설계가 필요로 된다.
  • 또한 때때로 확률과 현실은 다를 수 있다는 점을 기억해야할 것이다.

 

 

▶ 참고

https://www.amstat.org/asa/files/pdfs/P-ValueStatement.pdf

https://www.ibric.org/myboard/read.php?Board=news&id=270293 

https://boxnwhis.kr/2016/04/15/dont_be_overwhelmed_by_pvalue.html

<p-value 설명한 강의 영상>

https://www.youtube.com/watch?v=tpow70KGTYY 

<p-value를 쉽게 설명한 영상> 

https://www.youtube.com/watch?v=5Xke4ao1g9E 

https://www.youtube.com/watch?v=pSbjcCLYVRg