통계
-
통계-9 모수 검정, 비모수 검정, 윌콕슨 부호순위 검정, 오류와 보정통계 2023. 5. 30. 14:39
1. 모수검정과 비모수 검정 모수검정은 모집단의 모수에 대하여 가정을 하여 검정하는 것이고 비모수 검정은 가정을 하지 않고 검정하는 것이다. 모수 검정은 모집단이 정규분포이며 집단 내의 분산이 같아야 한다. 모수 검정의 장점은 유의미한 검정을 도출할 가능성이 높다. 비모수 검정은 모집단의 형태와 관계없이 주어진 데이터에서 직접 확률을 계산한다. 비모수 검정의 장점은 평균에 특화된 모수 검정과 달리 중위수에 특화되었기 때문에 데이터의 경향을 더 잘 파악할 수 있다. 또한 표본 크기가 너무 작거나 이상치가 있을 때도 사용할 수 있다. 따라서 평균이 분포의 중심을 더 정확하게 나타내며 데이터의 크기가 작지 않다면 검정력이 강한 모수검정을 사용한다. 하지만 중위수가 분포의 중심을 더 정확하게 나타낸다면 비모수 ..
-
통계-8 확률 분포통계 2023. 5. 30. 11:01
1. 확률 분포 확률 분포란 확률가 특정한 값을 가질 확률을 나타내는 함수이다. 확률 분포는 확률 변수가 가진 값이 독립적인지 연속적인지에 따라 이산 확률 분포와 연속 확률 분포로 나뉜다. 이산 확률 분포에는 포아송, 베르누이, 이항, 기하 등의 분포가 해당되며 연속 확률 분포에는 정규, 카이제곱, 감마 등의 분포가 해당된다. 2. 누적분포함수, 확률질량함수, 확률밀도함수 누적분포함수란 주어진 확률 변수가 특정 값보다 작거나 같을 확률을 나타내는 함수이다. 누적의 의미는 특정 값보다 작은 값들의 확률을 누적해서 구한다는 의미이다. 확률질량함수란 주어진 이산 변수의 분포를 나타내는 함수이며 확률밀도함수는 주어진 연속 변수의 분포를 나타내는 함수이다. 3. 정규분포 정규분포는 대칭적인 종 모양의 분포이며 대..
-
통계-7 상관 분석통계 2023. 5. 29. 22:11
1. 상관 분석 상관 분석은 두 변수 사이의 관계를 파악할 수 있는 방법이다. tips = sns.load_dataset('tips') corr = tips[['total_bill','tip']].corr() print(corr) total_bill tip total_bill 1.000000 0.675734 tip 0.675734 1.000000 seaborn의 tips 데이터를 불러온 뒤 상관 계수를 corr 함수로 출력한다. 0.68이며 식사 가격이 높을수록 팁이 0.68 정도 비례한다는 것을 알 수 있다. sns.regplot(x='total_bill',y='tip',data=tips) regplot은 scatter와 line을 함께 볼 수 있는 그래프이며 식사 금액에 따른 팁을 표현한다. 그래프가..
-
통계-6 가설 감정통계 2023. 5. 29. 21:56
1. 가설 검정 가설 검정은 가지고 있는 가설이 사실인지 아닌지를 검증하는 통계적 방법이며 정확한 결정을 내리기 위해 필요한 과정이다. 2. t-검정, z-검정 t검정이란 두 집단의 평균을 비교하는 모수적 방법이다. z검정이란 정규분포를 가정하며 추출된 표본과 모집단의 통계치를 비교한다. t검정은 모집단의 표준 편차를 모를 때 사용하며 z검정은 표준편차를 알 때 사용한다. 보통의 경우에는 표준편차를 모르기 때문에 t검정을 사용한다. titanic_df = pd.read_csv('../data/Titanic_data.csv') male_df = titanic_df[titanic_df['Sex']=='male'] female_df= titanic_df[titanic_df['Sex']=='female'] 타이..
-
통계-5 데이터 분석 방법통계 2023. 5. 29. 21:17
1. q-q플롯 q-q 플롯은 주어진 데이터가 정규분포되어 있는지 판단할 수 있는 그래프이다. 정규 분포된 데이터라면 좌측처럼 나타나고 그렇지 않은 데이터라면 우측처럼 나타난다. 즉 얼마나 어긋나는지를 보고 판단할 수 있으나 정확한 수치를 알기는 어렵다. titanic = sns.load_dataset('titanic') stats.probplot(titanic['age'].dropna(),dist='norm',plot=plt) plt.title('q-q plot for age') plt.show() 타이타닉 데이터의 age 변수의 분포가 정규 분포와 얼마나 유사한지 확인할 수 있다. 2. 도수분포표 도수분포표는 각 카테고리에 대한 빈도수를 나타낸다. 3. 자기상관 함수(acf), 부분 자기 상관 함수(..
-
통계-4 순서형 데이터, 이진 데이터, 시계열 데이터, 공간 데이터통계 2023. 5. 29. 19:34
1. 순서형 데이터 순서형 데이터는 서로 다른 카테고리에 속하면서 순서를 가지는 데이터이다. 교육 수준, 경력, 신용 등이 해당된다. data = pd.read_csv('../data/college_data.csv') data['admission_level']=pd.qcut(data['top10perc'], q=4, labels=['vey_low','low','high','veryhigh']) 대학교 데이터 셋을 불러 top10perc 컬럼을 기준으로 4개로 나눈다. q=4를 입력하여 데이터를 일정하게 나눌 수 있고 순서형 데이터로 바꾸기 위해 라벨 값을 지정해 준다. plt.figure(figsize=(10,6)) plt.bar(data['admission_level'].value_counts().in..
-
통계-3 범주형 데이터통계 2023. 5. 29. 19:12
1. 범주형 데이터 범주형 데이터는 수치로 측정이 불가능한 데이터를 의미한다. 성별, 경, 혈액형 등이 범주형 데이터에 포함된다. 범주형 데이터는 명목형 데이터와 순서형 데이터로 구분할 수 있다. 명목형 데이터: 순서와 상관없이 서로 다른 카테고리에 속하는 데이터이다. 성별, 지역, 혈액형 등이 포함된다. 순서형 데이터: 순서를 가지고 서로 다른 카테고리에 속하는 데이터이다. 학년, 경력 등이 포함된다. titanic_df = pd.read_csv('./data/Titanic_data.csv') survived_by_sex = titanic_df.groupby('Sex')['Survived'].mean() plt.figure(figsize=(6, 4)) sns.barplot(x=survived_by_se..
-
통계-2 이산형 데이터통계 2023. 5. 29. 16:48
1. 이산형 데이터 이산형 데이터는 불연속적이며 한정된 값으로 이루어진 데이터이다. 동전 던지기, 세대수 등이 이산형 데이터에 속한다. data = pd.read_csv('./data/college_data.csv') print(data['top10perc'].unique()) [23 16 22 60 38 17 37 30 21 44 9 83 19 14 24 25 20 46 12 36 42 15 50 53 18 34 39 28 26 11 67 45 76 5 48 10 87 71 49 32 40 8 47 29 75 27 13 35 1 31 6 55 33 3 58 70 68 56 78 77 41 4 90 43 51 89 7 57 95 52 96 2 65 85 86 62 54 66 79 74 80 81] 대학생..