쉽게 풀어쓴 p-value와 유의수준

공부 할 때에 논문을 보게 되는 경우가 꽤 잦은데, 이 때 p-value와 유의수준 이라는 용어를 자주 보게된다. ( ex_ p-value값이 유의수준보다 작기 때문에 귀무가설을 기각하고 대립가설을 채택한다 등등. )여기서 말하는 p-value란 무엇이고, 의미는 어떤 것일까 ? 수학적인 정의에 집착하기 보다는 최대한 쉽게 이해 할 수 있도록 정의 없이 예를 통해 설명하도록 하겠다.

먼저 통계적 가설 검정이라는 것에 대해서 알아보자.

통계적 가설 검정 ( 가설 검정 )이란, 모집단의 특정 통계적인 수치의 값이 특정 값이 된다 라는 주장과 관련해서, 모집단에서 임의 추출한 표본의 정보를 사용해 가설의 합당성 여부를 판별하는 과정을 의미한다.

사전적인 의미는 위와 같고, 좀 더 이해하기 편하게 예를 들어 설명하자면 대한민국 전체 남성의 평균 키가 180cm로 알려져 있다고 가정하자. 이떄 나는 여기에 의문이 들었다. 내가 키가 180cm보다 작은데, 진짜 이게 맞아? 아닌것 같은데? 라는 생각이 들었기 때문이다. 그런데 이를 검증하기 위해 대한민국 전체 모든 남성의 키를 조사 하기는 현실적으로 불가능하다. 그렇기 때문에 일반적으로 대한민국 남성 중 일부를 임의로 추출하여 해당 가설( 대한민국 남성의 평균 키 = 180cm )이 옳은지 아닌지 검증한다.

이때 모집단 ( 관찰의 대상이 되는 집단 전체 )는 대한민국 전체 남성이 되고, 대한민국 남성 중 임의로 추출된 일부( 여기서는 임의로 1000명을 뽑았다고 가정하자 ) 가 표본이 된다. 또한 여기서 조사하는 특정 통계적인 수치는 남성의 평균 키가 되고, 특정 값은 180cm가 된다. 이때, 표본의 크기가 1000이기 때문에 표본의 평균키는 측정 가능하다.

가설 검정의 과정을 쉽게 이해하기 위해, 로또를 연속으로 50번이나 1등이 된 한사람이 있다고 가정하자. 우리는 이 사람을 보고 일반적으로 ‘우연히’ 로또 1등이 됐다고 하기 보다는 어떤 음모가 있다고 생각 하기 쉽다. 즉, 일반적으로 우연히 발생할 가능성이 매우 희박한 사건이 실제로 발생 했을 때 그것이 우연이 아니라 다른 이유 때문에 일어났다고 생각한다.

이와 비슷하게, 위에서 우린 대한민국 남성의 평균키가 180cm인지 궁금하다. 그래서 대한민국 남성의 평균키가 180cm라 가정해보자. 근데 대한민국 남성 전체에서 1000명을 임의로 추출했을 때 잰 평균키가 175cm가 나왔다. 이때 대한민국 남성 전체에서 1000명을 임의로 추출했을 때 잰 평균키가 175cm보다 크거나 같을 확률이 0.0000001 ( 0.00001 % ) 이 나왔다면, 대한민국 남성의 평균키가 180cm가 될 가능성은 희박하다고 생각할 것이다. 이때 우리는 대한민국 남성의 평균키가 180cm가 아닐 것 ( 우연이 아니라 다른이유 )이라고 생각한다.

반대로, 대한민국 남성 전체에서 1000명을 임의로 추출했을 때 잰 평균키가 175cm보다 크거나 같을 확률이 0.75 ( 75% )라고 하면 대한민국 남성의 평균키가 180cm일 가능성은 어느정도 높다고 판단한다. ( 여기서 대한민국 남성 전체에서 1000명을 임의로 추출했을 때 잰 평균키가 175cm보다 크거나 같을 확률을 실제로 어떻게 구하는가? 는 생략하겠다. 추가적으로 공부하기 원한다면 검정통계량을 검색해보라. )

즉, 1000명을 추출한 대상인 대한민국 전체 남성의 키가 180cm인지 아닌지 판단하는 기준으로 대한민국 남성 전체에서 1000명을 임의추출했을 때 잰 평균키가 175cm보다 크거나 같을 확률을 사용 할 수 있다.

p-value의 정의는, 귀무가설( 일반적으로 알려진 통념, 증명하고자 하는 가설에 반대되는 개념 )이 맞다는 전제하에, 관측된 통계값 혹은 그 값보다 클 확률( Wasserstein, Ronald L.; Lazar, Nicole A. (7 March 2016). “The ASA’s Statement on p-Values: Context, Process, and Purpose”. The American Statistician. 70 (2): 129–133. )이다.

무슨말인지 모르겠다. 예제를 보자

여기서 p-value는, 대한민국 전체 남성의 평균 키가 180cm라는 가정 ( 귀무가설이 맞다고 가정하는 전제 ) 하에, 대한민국 전체 남성에서 1000명을 임의 추출했을 때 잰 평균키가 175cm ( 관측된 통계값 )보다 크거나 같을 확률이다. 따라서 p-value값이 크면 잰 대한민국 남성의 평균키가 180cm라는 주장은 어느정도 타당하다고 볼 수 있고, p-value값이 너무 낮다면 대한민국 남성의 평균키가 180cm라는 주장은 받아들이기 힘들다. 이때, p-value값이 큰지 작은지 정하는 기준 값이 유의수준이다. 유의수준은 연구자가 주관적으로 정하며 보통 0.05 ( 신뢰도 95% ) or 0.01 ( 신뢰도 99% )를 많이 사용한다.

따라서, 유의수준이 0.05 일 때, p-value값이 0.75가 나왔다면 유의수준 값보다 p-value값이 크기 때문에 대한민국 남성의 평균키는 180cm라는 가설은 참으로 볼 수 있다고 말하고, p-value값이 0.0000001이 나왔다면 유의수준보다 p-value값이 작기 때문에 대한민국 남성의 평균키가 180cm라는 가설은 참으로 보기 힘들다고 말한다.

즉, p-value값이 유의수준보다 작기 때문에 귀무가설을 기각하고 대립가설 ( 내가 증명하고자 하는 가설 ) 을 채택한다 라는 말은 위의 예제에서는 대한민국 전체 남성에서 1000명을 임의 추출 했을 때 잰 평균키가 175cm보다 크거나 같을 확률이 0.05 보다 작기 때문에 대한민국 전체 남성의 평균키가 180cm라는 가설을 기각하고 대한민국 전체 남성의 평균키가 180cm가 아니라는 가설을 채택한다. 라는 말과 동일하다. 물론 p-value만 가지고 가설이 옳고 그름을 판단하는데는 문제가 많지만, 가설이 옳을 확률이 높고 낮음을 이야기 하는 지표로 쓰일 수는 있다고 할 수 있겠다.