데이터 분석의 과정 CRISP-DM
- 비즈니스 이해와 데이터 이해
- 현황, 문제, 배경 조사
- EDA, CDA
- 가설 설정
- 데이터 전처리
- 데이터 분석 (환경설정 - 가설 설정 - 단변량, 이변량 분석 - 가설 검정)
- 가설 검정 (단변량, 이변량 분석)
- 숫자-숫자: scatterplot, pairplot, / spst.pearsonr(상관분석), df.corr(), sns.heatmap()
- 숫자-범주: kdeplot, boxplot, desityplot, countplot / ?
- 범주-숫자: 평균비교 barplot / t-test(t-검정), ANOVA(분산분석)
- 범주-범주: sns.barplot, Mosaic, pd.crosstab, plt.axhline, plt.axvline / spst.chi2_contingency(카이제곱검정)
- 데이터 준비 (데이터셋)
- 모델링
- 머신러닝, 딥러닝
- 평가
- AI모델 해석
- 배포
- 1 ~ 5 단계 반복
데이터 구조
- 범주형 데이터(명목형, 순서형)와 숫자형 데이터(이산형, 연속형)
- 행: 분석단위
- 열: 컬럼, 변수, 정보, (x, feature), (y, target, label)
데이터 전처리 과정
- 데이터와 비즈니스 이해
- raw 데이터 로드 및 정보 파악
- 컬럼, 값의 추가 및 삭제
- 인덱스 리셋, 교체
- 데이터 병합
- 결측, 이상 데이터 처리 혹은 제거
- 구간화 정규화
데이터 분석
- Grouby로 집계합수 적용, 정렬 등 다양한 방법으로 시각화
- 특징 생성 및 선택
- 단변량 분석 및 시각화
a. 변수의 의미 이해
b. 변수 (수치형, 범주형) 파악
c. 변수 결측치와 이상치 조치
d. 변수 기초 통계량 확인
e. 변수 분포 확인
f. 파악한 내용 정리 - 이변량 분석 및 시각화
모집단과 표본
- 전체 데이터를 모집단으로 본다면 분석이나 조사를 할 때 전체 데이터를 다루는 경우는 드물다.
- 모집단에서 무작위로 데이터를 추출한(Sampling) 데이터를 표본이라 한다.
- 표본을 통해서 통계를 구한다. ex)표본평균, 표본분산
- 표본을 통해 구한 통계들을 이용해 모집단을 추정한다.
- 추정할 때 생기는 오차를 표준오차라 한다.
- 중심극한정리: 모집단에서 뽑은 표본을 이용해 평균을 계산하는 행위를 수없이 진행 -> 정규분포에 가까워짐
numpy, pandas, matplotlib 학습
- 따로 정리를 더 상세하게 정리했습니다!
'Experience > - KT AIVLE School' 카테고리의 다른 글
KT AIVLE School 3주차 정리 - 크롤링 (0) | 2023.02.16 |
---|---|
KT AIVLE School 3주차 후기 - 미니 프로젝트 1차 (0) | 2023.02.15 |
KT AIVLE School 3주차 정리 - 데이터 시각화 및 캡슐화 (0) | 2023.02.15 |
KT AIVLE School 1주차 정리 (0) | 2023.02.11 |
KT AIVLE School 0주차 정리 (합격 후 1개월) (0) | 2023.02.11 |
KT AIVLE School AI Track 3기 합격! (0) | 2023.02.11 |
댓글