전체 글
-
통계-14 이상치통계 2023. 6. 4. 15:43
1. 이상치 이상치는 데이터셋에서 다른 관측치들과 동떨어진 값이며 잘못된 결과나 오류를 유발할 수 있기 때문에 이상치를 식별하고 적절하게 처리하는 것이 중요하다. 이상치는 예측하기 어려우며 처리하는 과정에서 데이터의 특성을 변경할 수도 있고 주관적인 해석이 이루어질 수 있다. 대용량으로 이상치를 처리하는 것은 더욱 어려우며 이상치를 탐지하는 것은 어려운 일이기 때문에 강력한 알고리즘과 지식이 필요하다. 이러한 이상치를 처리하기 위한 방법이 평활(smoothing)이며 스무딩은 잡음이나 불규칙한 변동을 완화시키기 위해 데이터의 추세나 패턴을 부드럽게 만드는 방법이다. 대표적으로 이동평균과 지수 평활법이 있다. 2. 이동 평균법(moving average) 이동 평균법은 일정 기간별 이동 평균을 계산하고 이..
-
통계-13 결측치통계 2023. 6. 1. 10:34
1. 결측치 결측치는 대부분의 시계열 데이터가 가지고 있는 문제이며 데이터가 누락되어 있는 것이다. 결측치가 있는 데이터로 분석을 진행하면 정확도와 신뢰도가 떨어질 수 있기 때문에 결측치를 전처리 하는 것은 필수적이다. data = pd.DataFrame({ 'a':[1,2,np.nan,4,5], 'b':[6,np.nan,8,9,10], 'c':[11,12,13,np.nan,15] }) print(data.isnull()) a b c 0 False False False 1 False True False 2 True False False 3 False False True 4 False False False 결측치가 있는 데이터를 생성하고 innull 함수를 통해 어떤 부분이 결측치가 있는지 확인한다. pl..
-
통계-12 시계열 데이터통계 2023. 5. 31. 15:52
1. 시계열 데이터 시계열 데이터는 시간을 독립변수로 가지는 데이터이다. 시간의존성: 데이터들이 시간적 연관성을 가지며 서로 영향을 미친다. 계절성: 일정한 주기를 가지며 반복되는 패턴이 나타날 수 있다. 추세: 추세가 증가하거나 감소하는 등 일정한 추세를 가질 수 있다. 자기상관성: 시간적으로 인접한 데이터 사이에 상관관계가 있을 수 있다. 불규칙성: 예측할 수 없는 불규칙한 변동이 발생할 수 있다. np.random.seed(42) dates = pd.date_range(start="2023-01-01", periods=1000, freq='D') values = np.random.randn(1000) data = pd.DataFrame({ 'Date' : dates, 'Value' : values ..
-
통계-11 크루스칼 왈리스 검정, 프리드만 검정통계 2023. 5. 31. 15:22
1. 크루스칼 왈리스 검정(Kruskal-Wallis) 크루스칼 왈리스 검정은 세 개 이상의 집단 간에 차이가 있는지를 검정하며 비모수적인 검정이다. 정규 분포를 따르는 경우에는 anova 검정을 사용하며 비모수적인 검정이 필요할 때 크루스칼 왈리스 검정을 사용하게 된다. 크루스칼 왈리스 검정의 방법은 윌콕슨 순위 합 검정의 확장이며 세 개 이상의 집단의 순위합을 비교하며 모든 그룹의 중앙값이 같다는 귀무가설을 가진다. np.random.seed(1) group1 = np.random.normal(loc=5, scale=1, size=20) group2 = np.random.normal(loc=7, scale=1, size=25) group3 = np.random.normal(loc=10, scale=1..
-
통계-10 윌콕슨 순위합 검정통계 2023. 5. 31. 14:30
1. 윌콕슨 순위합 검정, 맨 휘트니 검정(Wilcoxon rank-sum test, u-test) 윌콕슨 순위합 검정은 비모수적인 검정으로 두 개의 표본을 비교하는 방법이다. 두 집단의 값들에 대해 각각 순위를 매기고 두 집단을 합쳐서 순위를 구한다. 그 후에 두 집단의 순위합을 따로 구하고 그 차이에 대하여 검정을 진행하는 방식이다. 윌콕슨 부호 순위 검정은 단일 집단에서 중앙값을 비교하며 윌콕슨 순위 합 검정은 순위합을 비교하는 점에서 차이가 있다. data = { 'group1' : [3,2,5,1,4,2,6,7,9,8], 'group2' : [6,4,7,2,6,3,7,9,10,11] } df = pd.DataFrame(data) df.to_csv("./data/mannwhitneyu_sample..
-
통계-9 모수 검정, 비모수 검정, 윌콕슨 부호순위 검정, 오류와 보정통계 2023. 5. 30. 14:39
1. 모수검정과 비모수 검정 모수검정은 모집단의 모수에 대하여 가정을 하여 검정하는 것이고 비모수 검정은 가정을 하지 않고 검정하는 것이다. 모수 검정은 모집단이 정규분포이며 집단 내의 분산이 같아야 한다. 모수 검정의 장점은 유의미한 검정을 도출할 가능성이 높다. 비모수 검정은 모집단의 형태와 관계없이 주어진 데이터에서 직접 확률을 계산한다. 비모수 검정의 장점은 평균에 특화된 모수 검정과 달리 중위수에 특화되었기 때문에 데이터의 경향을 더 잘 파악할 수 있다. 또한 표본 크기가 너무 작거나 이상치가 있을 때도 사용할 수 있다. 따라서 평균이 분포의 중심을 더 정확하게 나타내며 데이터의 크기가 작지 않다면 검정력이 강한 모수검정을 사용한다. 하지만 중위수가 분포의 중심을 더 정확하게 나타낸다면 비모수 ..
-
통계-8 확률 분포통계 2023. 5. 30. 11:01
1. 확률 분포 확률 분포란 확률가 특정한 값을 가질 확률을 나타내는 함수이다. 확률 분포는 확률 변수가 가진 값이 독립적인지 연속적인지에 따라 이산 확률 분포와 연속 확률 분포로 나뉜다. 이산 확률 분포에는 포아송, 베르누이, 이항, 기하 등의 분포가 해당되며 연속 확률 분포에는 정규, 카이제곱, 감마 등의 분포가 해당된다. 2. 누적분포함수, 확률질량함수, 확률밀도함수 누적분포함수란 주어진 확률 변수가 특정 값보다 작거나 같을 확률을 나타내는 함수이다. 누적의 의미는 특정 값보다 작은 값들의 확률을 누적해서 구한다는 의미이다. 확률질량함수란 주어진 이산 변수의 분포를 나타내는 함수이며 확률밀도함수는 주어진 연속 변수의 분포를 나타내는 함수이다. 3. 정규분포 정규분포는 대칭적인 종 모양의 분포이며 대..
-
통계-7 상관 분석통계 2023. 5. 29. 22:11
1. 상관 분석 상관 분석은 두 변수 사이의 관계를 파악할 수 있는 방법이다. tips = sns.load_dataset('tips') corr = tips[['total_bill','tip']].corr() print(corr) total_bill tip total_bill 1.000000 0.675734 tip 0.675734 1.000000 seaborn의 tips 데이터를 불러온 뒤 상관 계수를 corr 함수로 출력한다. 0.68이며 식사 가격이 높을수록 팁이 0.68 정도 비례한다는 것을 알 수 있다. sns.regplot(x='total_bill',y='tip',data=tips) regplot은 scatter와 line을 함께 볼 수 있는 그래프이며 식사 금액에 따른 팁을 표현한다. 그래프가..