-
통계-11 크루스칼 왈리스 검정, 프리드만 검정통계 2023. 5. 31. 15:22
1. 크루스칼 왈리스 검정(Kruskal-Wallis)
크루스칼 왈리스 검정은 세 개 이상의 집단 간에 차이가 있는지를 검정하며 비모수적인 검정이다.
정규 분포를 따르는 경우에는 anova 검정을 사용하며 비모수적인 검정이 필요할 때 크루스칼 왈리스 검정을 사용하게 된다.
크루스칼 왈리스 검정의 방법은 윌콕슨 순위 합 검정의 확장이며 세 개 이상의 집단의 순위합을 비교하며 모든 그룹의 중앙값이 같다는 귀무가설을 가진다.
np.random.seed(1) group1 = np.random.normal(loc=5, scale=1, size=20) group2 = np.random.normal(loc=7, scale=1, size=25) group3 = np.random.normal(loc=10, scale=1, size=15)
각 랜덤한 세 집단을 생성한다.
H, p_val = kruskal(group1, group2, group3) print("H 검정 통계량 : ",H) print("p-val",p_val ) H 검정 통계량 : 46.584295081967184 p-val 7.6621182690351e-11
유의 수준이 0.05보다 작으므로 귀무가설을 기각하고 적어도 한 그룹의 중앙값은 다른 그룹의 중앙값과 다르다고 판단한다.
h 검정 통계량을 이용해서 사후분석을 실행하면 어떤 그룹들의 중앙값이 다른지 확인할 수 있다.
사후분석이란 실험 결과에서 유의한 차이가 있는 경우 결과를 구체적으로 분석하기 위한 분석이다.
2. 프리드만(Friedman Test) 검정
프리드만 검정은 비모수 검으로 윌콕슨 부호 순위 검정의 확장이다. 크루스칼 왈리스 검정이 독립된 여러 그룹 간의 비교를 다룬다면, 프리드만 검정은 동일한 집단에서 여러 개의 조건을 비교하는 데 사용한다.
즉 크루스칼 왈리스 검정은 순위합을 이용한 분포를 비교하지만 프리드만 검정은 순위 평균을 비교하며 각 수준에서 차이가 없다는 귀무가설을 가진다.
np.random.seed(1) group1 = np.random.normal(loc=10, scale=2, size=10) group2 = np.random.normal(loc=12, scale=2, size=10) group3 = np.random.normal(loc=15, scale=2, size=10) data = np.stack([group1, group2, group3], axis=1) statistic, pvalue = friedmanchisquare(*data.T) print("프리드만 검정 결과") print(f"검정 통계량: {statistic}") print(f"p-value: {pvalue}") fig, ax = plt.subplots() ax.boxplot(data) ax.set_xticklabels(['Group 1', 'Group 2', 'Group 3']) ax.set_ylabel('Value') ax.set_title('Friedman Test Result') plt.show() 프리드만 검정 결과 검정 통계량: 11.400000000000006 p-value: 0.003345965457471265
랜덤한 3개의 그룹을 생성하고 검정 통계량과 유의 수준을 확인한다. 유의 수준이 0.05보다 작으므로 적어도 하나의 그룹이 다른 그룹과 유의미하게 다르다는 것을 나타낸다. 박스 플롯을 그려서 확인한다.
프리드만 검정 또한 검정 통계량을 가지고 사후 분석을 해야하만 가 집단의 순위를 알 수 있으며 사후 분석을 하지 않으면 어떤 처리 간에 평균 순위차이가 있었는지 알 수 없는 다중 비교 문제가 있다.
프리드만 검정은 비모수적 검정이지만 자료가 대칭적인 분포를 따른다는 가정을 하며 대칭적인 분포를 따르지 않거나 자료의 수가 적다면 검정력이 떨어질 수 있다.
프리드만 검정은 변수가 순위 형태일 때만 사용할 수 있고 연속형 데이터가 아닐 경우에는 다른 방법을 사용해야 한다.
3. 정규성 검정, 등분산성 검정, 이상치 검정
1. 정규성 검정
정규성 검정은 데이터가 정규 분포를 따르는지를 확인하는 방법이다.
1. 시각화
2. shapiro-wilk 검정
3. kolmogorov-smirnov 검정
2. 등분산성 검정
등분산성 검정은 두개의 데이터가 분산이 같은지를 확인하는 방법이다.
1. levene's test
2. bartlett's test
bartlett's test는 정규분포를 따르지 않아도 실행할 수 있다.
3. 이상치 검정
이상치를 판단하는 방법이다.
1. iqr
iqr *1.5 를 하여 이 범위를 넘어가는 값을 이상치로 판단한다.
2. z-score
평균과 표준편차를 이용하여 표준점수를 구하고 이 값을 넘어가면 이상치로 판단한다.
3. 시각화
'통계' 카테고리의 다른 글
통계-13 결측치 (0) 2023.06.01 통계-12 시계열 데이터 (0) 2023.05.31 통계-10 윌콕슨 순위합 검정 (0) 2023.05.31 통계-9 모수 검정, 비모수 검정, 윌콕슨 부호순위 검정, 오류와 보정 (1) 2023.05.30