본문 바로가기
Experience/- KT AIVLE School

KT AIVLE School 2주차 정리 - 데이터 분석

by Yoojacha 2023. 2. 15.

데이터 분석의 과정 CRISP-DM

  1. 비즈니스 이해와 데이터 이해
    • 현황, 문제, 배경 조사
    • EDA, CDA
    • 가설 설정
    • 데이터 전처리
    • 데이터 분석 (환경설정 - 가설 설정 - 단변량, 이변량 분석 - 가설 검정)
    • 가설 검정 (단변량, 이변량 분석)
      • 숫자-숫자: scatterplot, pairplot, / spst.pearsonr(상관분석), df.corr(), sns.heatmap()
      • 숫자-범주: kdeplot, boxplot, desityplot, countplot / ?
      • 범주-숫자: 평균비교 barplot / t-test(t-검정), ANOVA(분산분석)
      • 범주-범주: sns.barplot, Mosaic, pd.crosstab, plt.axhline, plt.axvline / spst.chi2_contingency(카이제곱검정)
  2. 데이터 준비 (데이터셋)
  3. 모델링
    • 머신러닝, 딥러닝
  4. 평가
    • AI모델 해석
  5. 배포
  • 1 ~ 5 단계 반복

데이터 구조

  • 범주형 데이터(명목형, 순서형)와 숫자형 데이터(이산형, 연속형)
  • 행: 분석단위
  • 열: 컬럼, 변수, 정보, (x, feature), (y, target, label)

데이터 전처리 과정

  1. 데이터와 비즈니스 이해
  2. raw 데이터 로드 및 정보 파악
  3. 컬럼, 값의 추가 및 삭제
  4. 인덱스 리셋, 교체
  5. 데이터 병합
  6. 결측, 이상 데이터 처리 혹은 제거
  7. 구간화 정규화

데이터 분석

  1. Grouby로 집계합수 적용, 정렬 등 다양한 방법으로 시각화
  2. 특징 생성 및 선택
  3. 단변량 분석 및 시각화
    a. 변수의 의미 이해
    b. 변수 (수치형, 범주형) 파악
    c. 변수 결측치와 이상치 조치
    d. 변수 기초 통계량 확인
    e. 변수 분포 확인
    f. 파악한 내용 정리
  4. 이변량 분석 및 시각화

모집단과 표본

  • 전체 데이터를 모집단으로 본다면 분석이나 조사를 할 때 전체 데이터를 다루는 경우는 드물다.
  • 모집단에서 무작위로 데이터를 추출한(Sampling) 데이터를 표본이라 한다.
  • 표본을 통해서 통계를 구한다. ex)표본평균, 표본분산
  • 표본을 통해 구한 통계들을 이용해 모집단을 추정한다.
  • 추정할 때 생기는 오차를 표준오차라 한다.
  • 중심극한정리: 모집단에서 뽑은 표본을 이용해 평균을 계산하는 행위를 수없이 진행 -> 정규분포에 가까워짐

numpy, pandas, matplotlib 학습

  • 따로 정리를 더 상세하게 정리했습니다!
 

[Numpy] ndarray 생성, 수정, 연산

list > np.array > numpy.ndarray 변환 list_1 = [50,30,5,56,6,65,7,4,3,63,36,4,5,6,34,55] arr = np.array(list_1) # 여러 차원 배열도 가능 print(arr, arr.dtype, '\n') arr = np.array(list_1, dtype='f4') # 타입 설정 가능 print(arr, arr.dtype, '\

kyportfolio.tistory.com

 

[Pandas] - 기초 총정리

라이브러리 불러오기 import pandas as pd 시리즈, 데이터프레임 생성 # 시리즈 data = [1,2,3,4,5] s = pd.Series(data = data) # 데이터프레임 # pd.DataFrame(data = array, columns = ['열1', '열2', ...], index = ['인덱스1', '인

kyportfolio.tistory.com

 

 

KT AIVLE School 3주차 정리 - 데이터 시각화 및 캡슐화

matplotlib, seaborn 은 매우 유명한 툴이라, 경험을 해보기도 했었고.. 3주차 미니 프로젝트를 하던 와중에 시각화가 정말 중요해서 정리의 필요성을 느꼈습니다ㅠ 동시에 정리하기 때문에 그대로 복

kyportfolio.tistory.com

 

댓글