본문 바로가기

분류 전체보기126

[PyTorch] 기본 알아둘 것 정리 01. 데이터 생성 및 확인 스칼라 : 하나의 숫자 벡터 : 숫자와 방향 행렬 : 2차워 숫자 배열 텐서 : n-차원 숫자 배열 # 스칼라 생성 scalar = torch.tensor(7) # 스칼라의 값 확인 print(scalar.item()) # 벡터 생성 tensor = torch.tensor([3, 4]) tensor_ex = torch.tensor([3.0, 6.0, 9.0], dtype=None, # 텐서의 타입 설정 ( 데이터의 정확도 표현 ) device=None, # cpu와 cuda 설정 가능 / 다른 device끼리 연산하면 에러 발생 requires_grad=False) # gradient를 추적 설정 print(tensor) tensor.shape # 텐서의 사이즈 tensor... 2023. 3. 3.
KT AIVLE School 5주차 정리 - Keras (Sequential) 모듈 가져오기 import numpy as np import pandas as pd import tensorflow as tf from tensorflow import keras x, y 분리 target = '컬럼명' x = data.drop(target, axis=1) y = data.loc[:, target] 학습, 평가 데이터 분리 from sklearn.model_selection import train_test_split x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=1) x_train.shape, x_test.shape, y_train.shape, y_test.shape 회귀 문제 - .. 2023. 2. 28.
KT AIVLE School 4주차 정리 - Regularization 불필요한 x (변수, feature) 의 가중치를 규제를 통해 조절해주어 성능을 향상시키는 방법입니다! 중요한 x 만 가중치를 주도록 하게 됩니다. 학습 성능 : model.score(x_train, y_train) 평가 성능 : model.score(x_test, y_test) Linear Regression x 값이 많아지면 모델이 복잡해져서 학습성능은 높으나 평가성능은 낮은 과적합이 발생할 수 있다. Ridge, RidgeCV Linear Regression의 과적합을 막기 위해 가중치의 크기를 줄이면서 제어 가능 줄이는 방법은 알파값을 조절, 불필요한 가중치를 0으로 바꾸지 않음. RidgeCV를 통해 최선의 알파값을 찾아서 과적합을 줄여서 평가성능을 높임 Lasso, LassoCV 필요없는 가중.. 2023. 2. 27.
KT AIVLE School 4주차 정리 - 앙상블(Ensenble) 앙상블 (Ensemble) - 여러 개의 모델을 결합하여 성능 향상 앙상블 종류 보팅 하드 보팅 - 여러 모델의 예측들을 다수결의 원칙으로 최종 예측 값 도출 소프트 보팅 - 여러 모델의 예측 확률을 따져서 최종 예측 값 도출 배깅 하나의 모델로 분할하여 샘플링한 데이터들을 각각 주어서 학습하여 예측한 결과를 보팅 범주형 데이터는 보팅, 연속형 데이터는 평균으로 집계 데이터 분할 시 중복 허용 ex) 랜덤 포레스트 부스팅 학습 후 나온 예측의 오차를 가지고 또다시 학습하는 것을 반복 Gradient Boost ex) XGBoost, LightGBM, CatBoost 스태킹 여러 모델들을 가지고 예측값들을 도출한 후, 예측값들을 가지고 다시 마지막 모델을 가지고 예측 랜덤 포레스트 결정트리를 앙상블한 것 .. 2023. 2. 27.
KT AIVLE School 4주차 정리 - 지도 학습 지도학습 - 분류(Classification), 회귀(Regression) 찾고자 하는 변수(y, target, 종속변수, 결과, 목표)가 범주형인지 연속형인지에 따라서 분류, 회귀를 구분해서 사용한다. 필요한 용어 정리 모델 추정, 예측, 추론 변수(Variable), 필드(Field), 속성(Attribute), 특성(Feature) 개체(Instance), 관측치(Observed Value), 기록(Record), 경우(Case) 독립변수, 종속변수 학습용, 검증용, 평가용 데이터셋 과대적합(Overfitting), 과소적합(Underfitting) 오차 = 실제값 - 예측값 / 이탈도(Deviance) y: 실제값 / y-hat: 예측값 / y-bar: 평균값 회귀 평가 지표 (오차 줄이기) 오차.. 2023. 2. 21.
KT AIVLE School 3주차 - 알고리즘 스터디 기록 알고리즘 스터디 정보 - 현재 스터디원은 총 9명 - 스터디 방식은 주마다 3 문제 이상 푸는 방식이고, 1 문제는 공통 문제로 1 명씩 돌아가면서 담당을 바꿉니다! - 푼 문제들을 가지고 Pull request 기록에 코멘트를 달거나 스터디로 학습 공유를 할 예정입니다! - 혹시 스터디방식을 참고하실 분들은 저희의 README.md 파일을 참고하셔서 새로 만드셔도 좋을 것 같아요 :) https://github.com/AIVLE-School-3-1/algorithm-study 학습내용 - 2월 19일 20시~22시에 4명이서 게더 타운에서 진행 - github desktop 만 쓰던 저는 git의 이해도가 부족해서 다시 한 번 forked repository를 이용한 협업 세팅 방법을 새로 스터디원이 .. 2023. 2. 19.