KT AIVLE School 2주차 정리 - 데이터 분석
데이터 분석의 과정 CRISP-DM 비즈니스 이해와 데이터 이해 현황, 문제, 배경 조사 EDA, CDA 가설 설정 데이터 전처리 데이터 분석 (환경설정 - 가설 설정 - 단변량, 이변량 분석 - 가설 검정) 가설 검정 (단변량, 이변량 분석) 숫자-숫자: scatterplot, pairplot, / spst.pearsonr(상관분석), df.corr(), sns.heatmap() 숫자-범주: kdeplot, boxplot, desityplot, countplot / ? 범주-숫자: 평균비교 barplot / t-test(t-검정), ANOVA(분산분석) 범주-범주: sns.barplot, Mosaic, pd.crosstab, plt.axhline, plt.axvline / spst.chi2_contin..
2023. 2. 15.
[Pandas] - 기초, 인덱싱
라이브러리 불러오기 import pandas as pd 데이터 불러오기 및 저장 # 시리즈 생성 # pd.Series(data = array) data = [1,2,3,4,5] s = pd.Series(data = data) # 데이터프레임 생성 # pd.DataFrame(data = array, columns = ['열1', '열2', ...], index = ['인덱스1', '인덱스2' ...]) # pd.DataFrame(dictionary) data = {'column_1': [1,2,3,4,5], 'column_2': ['김', '이', '박', '최', '고']} df = pd.DataFrame(data) # csv 파일 읽기 df = pd.read_csv('./sample1.csv', sep..
2023. 2. 15.
[Numpy] ndarray 생성, 추가, 수정, 삭제
list > numpy.ndarray 생성 및 타입 설정 list_1 = [50,30,5,56,6,65,7,4,3,63,36,4,5,6,34,55] arr = np.array(list_1) # 여러 차원 배열도 가능 print(arr, arr.dtype, '\n') arr = np.array(list_1, dtype='f4') # 타입 설정 가능 print(arr, arr.dtype, '\n') arr = np.array(['abc', 'defasgbg'], dtype='S3') # 문자열 길이 제한 가능 print(arr, arr.dtype, '\n') # 배열 안의 가장 긴 문자열을 크기를 타입으로 사용됨 arr = np.array(['a', 'ab', 'abc'], dtype=np.string_) ..
2023. 2. 11.