-
통계-10 윌콕슨 순위합 검정통계 2023. 5. 31. 14:30
1. 윌콕슨 순위합 검정, 맨 휘트니 검정(Wilcoxon rank-sum test, u-test)
윌콕슨 순위합 검정은 비모수적인 검정으로 두 개의 표본을 비교하는 방법이다.
두 집단의 값들에 대해 각각 순위를 매기고 두 집단을 합쳐서 순위를 구한다. 그 후에 두 집단의 순위합을 따로 구하고 그 차이에 대하여 검정을 진행하는 방식이다.
윌콕슨 부호 순위 검정은 단일 집단에서 중앙값을 비교하며 윌콕슨 순위 합 검정은 순위합을 비교하는 점에서 차이가 있다.
data = { 'group1' : [3,2,5,1,4,2,6,7,9,8], 'group2' : [6,4,7,2,6,3,7,9,10,11] } df = pd.DataFrame(data) df.to_csv("./data/mannwhitneyu_sample_data.csv", index=False, encoding='utf-8')
데이터를 만들어 저장한다.
data = pd.read_csv("./data/mannwhitneyu_sample_data.csv") st, p = mannwhitneyu(data['group1'], data['group2']) if p > 0.05 : print("fail to reject H0") else : print("reject H0") 32.5 0.19622288836173518 fail to reject H0
데이터를 불러와 맨휘트니 검정을 실시하여 stat 값과 p-value를 확인할 수 있다.
sns.boxplot(data=data[['group1', 'group2']], palette="Set3") sns.stripplot(data=data[['group1', 'group2']], color='.3', size=4) sns.despine(trim=True) plt.show()
유의 수준이 0.05이기 때문에 같은 분포라고 말할 수 있으며 박스 플롯과 스트립 플롯으로 시각화하여 결과를 확인한다.
맨 휘트니 검정에서 중요한 것은 두 집단이 독립적이어야 하며 등분산 가정을 하는 것이다. 등분산 가정이란 두 집단의 분포가 동일하다는 전제를 가지며 이 가정이 만족해야만 결과를 신뢰할 수 있다.
stat, p = levene(data['group1'], data['group2']) print(stat, p) if p > 0.05 : print("fail to reject H0") else : print("reject H0") 0.0 1.0 fail to reject H0
levene 함수로 레빈 검정을 실행한다. 레빈 검정은 대상이 등분산인지 아닌지 판단하는 방법이다. 레빈 검정의 귀무가설은 등분산이 같다이고 유의 수준이 0.05보다 크므로 귀무가설을 기각할 수 없고 등분산 가정을 만족한다고 판단한다.
st, p = mannwhitneyu(data['group1'], data['group2']) n1, n2 = len(data['group1']), len(data['group2']) print(n1, n2) if st > n1 * n2 / 2 : st = n1 * n2 - st p_val = 2 * stats.norm.cdf(-abs(st) / np.sqrt(n1 * n2 * (n1 + n2 +1)/12)) print(st) print(p_val) 32.5 0.19622288836173518 10 10 32.5 0.014019277113959953
맨휘트니 검정에서 유의수준은 u 통계량으로 계산한다. u 통계량은 각 그룹에서 다른 그룹의 순위보다 높은 순위의 개수를 합산한 것이다.
각 그룹의 개수를 세고 norm.cdf 함수로 누적분호 함수를 계산하고 u통계량을 수학적 공식으로 계산하여 p-value를 얻을 수 있다.
맨 휘트니 검정은 샘플의 크기가 작을 경우 검정력이 낮아지고 그룹 간의 차이만 확인할 수 있다는 단점이 있다.
'통계' 카테고리의 다른 글
통계-12 시계열 데이터 (0) 2023.05.31 통계-11 크루스칼 왈리스 검정, 프리드만 검정 (0) 2023.05.31 통계-9 모수 검정, 비모수 검정, 윌콕슨 부호순위 검정, 오류와 보정 (1) 2023.05.30 통계-8 확률 분포 (0) 2023.05.30