전체 글
-
통계-6 가설 감정통계 2023. 5. 29. 21:56
1. 가설 검정 가설 검정은 가지고 있는 가설이 사실인지 아닌지를 검증하는 통계적 방법이며 정확한 결정을 내리기 위해 필요한 과정이다. 2. t-검정, z-검정 t검정이란 두 집단의 평균을 비교하는 모수적 방법이다. z검정이란 정규분포를 가정하며 추출된 표본과 모집단의 통계치를 비교한다. t검정은 모집단의 표준 편차를 모를 때 사용하며 z검정은 표준편차를 알 때 사용한다. 보통의 경우에는 표준편차를 모르기 때문에 t검정을 사용한다. titanic_df = pd.read_csv('../data/Titanic_data.csv') male_df = titanic_df[titanic_df['Sex']=='male'] female_df= titanic_df[titanic_df['Sex']=='female'] 타이..
-
통계-5 데이터 분석 방법통계 2023. 5. 29. 21:17
1. q-q플롯 q-q 플롯은 주어진 데이터가 정규분포되어 있는지 판단할 수 있는 그래프이다. 정규 분포된 데이터라면 좌측처럼 나타나고 그렇지 않은 데이터라면 우측처럼 나타난다. 즉 얼마나 어긋나는지를 보고 판단할 수 있으나 정확한 수치를 알기는 어렵다. titanic = sns.load_dataset('titanic') stats.probplot(titanic['age'].dropna(),dist='norm',plot=plt) plt.title('q-q plot for age') plt.show() 타이타닉 데이터의 age 변수의 분포가 정규 분포와 얼마나 유사한지 확인할 수 있다. 2. 도수분포표 도수분포표는 각 카테고리에 대한 빈도수를 나타낸다. 3. 자기상관 함수(acf), 부분 자기 상관 함수(..
-
통계-4 순서형 데이터, 이진 데이터, 시계열 데이터, 공간 데이터통계 2023. 5. 29. 19:34
1. 순서형 데이터 순서형 데이터는 서로 다른 카테고리에 속하면서 순서를 가지는 데이터이다. 교육 수준, 경력, 신용 등이 해당된다. data = pd.read_csv('../data/college_data.csv') data['admission_level']=pd.qcut(data['top10perc'], q=4, labels=['vey_low','low','high','veryhigh']) 대학교 데이터 셋을 불러 top10perc 컬럼을 기준으로 4개로 나눈다. q=4를 입력하여 데이터를 일정하게 나눌 수 있고 순서형 데이터로 바꾸기 위해 라벨 값을 지정해 준다. plt.figure(figsize=(10,6)) plt.bar(data['admission_level'].value_counts().in..
-
통계-3 범주형 데이터통계 2023. 5. 29. 19:12
1. 범주형 데이터 범주형 데이터는 수치로 측정이 불가능한 데이터를 의미한다. 성별, 경, 혈액형 등이 범주형 데이터에 포함된다. 범주형 데이터는 명목형 데이터와 순서형 데이터로 구분할 수 있다. 명목형 데이터: 순서와 상관없이 서로 다른 카테고리에 속하는 데이터이다. 성별, 지역, 혈액형 등이 포함된다. 순서형 데이터: 순서를 가지고 서로 다른 카테고리에 속하는 데이터이다. 학년, 경력 등이 포함된다. titanic_df = pd.read_csv('./data/Titanic_data.csv') survived_by_sex = titanic_df.groupby('Sex')['Survived'].mean() plt.figure(figsize=(6, 4)) sns.barplot(x=survived_by_se..
-
통계-2 이산형 데이터통계 2023. 5. 29. 16:48
1. 이산형 데이터 이산형 데이터는 불연속적이며 한정된 값으로 이루어진 데이터이다. 동전 던지기, 세대수 등이 이산형 데이터에 속한다. data = pd.read_csv('./data/college_data.csv') print(data['top10perc'].unique()) [23 16 22 60 38 17 37 30 21 44 9 83 19 14 24 25 20 46 12 36 42 15 50 53 18 34 39 28 26 11 67 45 76 5 48 10 87 71 49 32 40 8 47 29 75 27 13 35 1 31 6 55 33 3 58 70 68 56 78 77 41 4 90 43 51 89 7 57 95 52 96 2 65 85 86 62 54 66 79 74 80 81] 대학생..
-
통계-1 연속형 데이터통계 2023. 5. 29. 16:18
1. 연속형 데이터 연속형 데이터는 말 그대로 연속적인 값으로 이루어진 데이터이다. 온도, 길이, 시간 등이 연속형 데이터에 포함된다. 2. 히스토그램 import pandas as pd import matplotlib.pyplot as plt data = pd.read_csv("./BlackFriday.csv") user_total_spent = data.groupby('User_ID')["Purchase"].sum() 모듈을 불러오고 blackfriday.csv 파일을 읽어온 후 userid당 purchase를 합산한다. plt.hist(user_total_spent, bins=50) plt.title('histogram of total purchase amount by user') plt.xlabe..
-
keras-6 cnn딥러닝/keras 2023. 5. 29. 13:23
1. python from keras import models from keras import layers model = models.Sequential() model.add(layers.Conv2D(32,(3,3), activation='relu', input_shape=(28,28,1))) model.add(layers.MaxPooling2D((2,2))) model.add(layers.Conv2D(32,(3,3), activation='relu')) model.add(layers.MaxPooling2D((2,2))) model.add(layers.Conv2D(32,(3,3), activation='relu')) model.add(layers.MaxPooling2D((2,2))) sequential ..
-
keras-5 boston딥러닝/keras 2023. 5. 29. 13:05
1. python from keras.datasets import boston_housing (train_data, train_labels),(test_data, test_labels) = boston_housing.load_data() 보스턴 집값데이터셋을 불로오고 데이터를 구분한다. print(train_data.shape) print(test_data.shape) (404, 13) (102, 13) 데이터의 모양을 확인하면 13개의 특성을 가지고 있다. 개수가 404개, 102개로 작은 편이다. print(train_data[0]) [ 1.23247 0. 8.14 0. 0.538 6.142 91.7 3.9769 4. 307. 21. 396.9 18.72 ] 데이터의 값이 들쑥날쑥하기 때문에 정규화가..