ML
wilcoxon rank sum test 윌콕슨 순위 검정
sapziling
2022. 8. 9. 18:11
- 차이의 중위수가 = 0 인지 아닌지를 검정
- 0보다 큰 관측치/ 적은 관측치 분류
- W = positive 순위 + (-negative 순위) : 순위는 작은 관측치들부터 매김. 그래서 값이 클수록 영향이 크다.
해당 통계량 의 분포는 정규분포 근사. 이를 위해 diff의 분포가 symmetric하다는 가정이 필요
로 W의 분포를 알기는 매우 어렵고 복잡하다. 이 때 우리가 알 수 있는 것은 W통계량의 평균은 0, 분산은 n(n+1)(2n+1)/6 이라는 것이다. (H0하에서 중위수의 성질을 이용해 평균과 분산을 구할 수 있다.) 이 값들로 중심극한정리를 사용하여 W의 분포를 정규분포로 근사시킨다. 이렇게 할 수 있는 이유는 W가 어떠한 분포를 갖는 값들의 합이기 때문이다. 예를 들어, 이 경우에 H0하에서 위 식의 첫번째 term은 1/2 확률로 1, 1/2 확률로 -1/2 이다. 두 번째 term은 1/2확률로 2, 1/2 확률로 -2이다. 이 값들을 모두 합친 W 통계량은 종모양의 분포
출처: https://3months.tistory.com/127 [Deep Play]
https://3months.tistory.com/127
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.wilcoxon.html