본문 바로가기
반응형

머신러닝6

KT AIVLE School 10주차 정리 - 미니프로젝트 4차 이번에는 에이블스쿨 2기 분들의 1대1 문의 텍스트 데이터들을 유형 분류하는 문제를 일주일 간 진행했습니다. 5일간 진행했으며 마지막 금요일에는 조별로 케글 대회를 진행했습니다. 두 번째 케글 대회로 미니프로젝트 2차 때의 기억이 떠올라 열심히하자는 마음가짐으로 임했습니다. 1일차 첫날에는 자연어처리 딥러닝 맛보기를 9주차에 했던 것을 건너뛰고, 뜬금 toknizer와 vertorize 하는 것과 임베딩까지, nlp에 대해서 알아야 진행이 가능한 프로젝트다보니 대부분의 에이블러들이 당황을 많이 했던 것 같습니다. 저의 경우에 페어프로그래밍을 하는 DX트랙분이 계셔서 가끔 학습공유를 하다보니 nlp 에 대한 이해가 조금 있어서 따라갈만 했습니다! 일단 텍스트 데이터에 대한 이해와 분석을 진행했습니다. 그래.. 2023. 4. 9.
[CatBoost] 알아보기 KT AIVLE School에서 미니 프로젝트 2차 때 저에게 현자타임을 안겨준 엄청난 분류 성능을 가진 CatBoost를 정리합니다. Pool 사용하기 train_pool = Pool(x_train, y_train) eval_pool = Pool(x_val, y_val) test_pool = Pool(x_test) model = CBC(iterations=100, # depth=2, # learning_rate=1, loss_function='Logloss', random_seed=1, task_type="GPU", verbose=True) model.fit( train_pool, # cat_features=cat_features, eval_set=eval_pool, plot=True ) y_pred .. 2023. 3. 9.
KT AIVLE School 6주차 정리 - 미니프로젝트 후기 2주 전에 배운 머신러닝을 활용하여 데이터 전처리, 크롤링, 피처엔지니어링, 모델 학습 및 성능 평가, 하이퍼 파라미터 튜닝을 하는 실습을 3일동안 했습니다! 1일차 이 날엔 개별 프로젝트로 미세먼지 데이터 EDA를 진행 후 다음날 미세먼지 정도를 예측하는 모델을 만들고 시각화 및 평가를 했습니다! 저는 이날 아주 수월하게 실습을 하고, 다른 복습도 진행할 수 있었습니다. 2일차 사다리타기로 조장이 되어서 1차 미니프로젝트 경험을 살려서 구글 드라이브로 ppt를 공유하여 각자 실습했던 내용들 중에 특이상항들을 체크 후 역할분담을 시켜서 빠르게 피피티를 만들었습니다. KT에이블스쿨 측에서 피피티 만드는 시간을 일부러 짧게 잡아주었지만 저는 역할분담을 잘 해서 성공적으로 피피티의 퀄리티를 높일 수 있어서 뿌.. 2023. 3. 8.
KT AIVLE School 6주차 정리 - 전처리 고급 누락된 값 분석 import missingno as msno ax = msno.matrix(df) plt.show() # 파일 저장 # from time import time, localtime # today = localtime(time()) # ax.get_figure().savefig(f'images/mlpr_{today.tm_mon}{today.tm_mday}.png') fig, ax = plt.subplots(figsize=(16, 6)) (1 - df.isna().mean()).abs().plot.bar(ax=ax) # 파일 저장 # from time import time, localtime # today = localtime(time()) # fig.savefig(f'images/mlpr_{.. 2023. 3. 7.
KT AIVLE School 4주차 정리 - 회귀, 분류 모델 선택 방법 미니프로젝트를 진행하면서 코드 스니펫은 매우 중요합니다. 다른 사람들은 성능을 평가하고 있을 때, 키보드를 뚝딱이고 있다면 반성하고 미리미리 복습하면서 코드 스니펫을 만듭시다! 실습을 하면서 제공해준 자료는 내가 만든 것이 아니기 때문에 소화가 안된 코드 입니다! 강사님께서 정말 회귀와 분류에 대해서 찰떡처럼 쉽고 이해가 잘 되게 설명을 해주셔서 19년도에 혼자 처음 배웠던 머신러닝을 왜 어려워했나 싶은 마음도 듭니다! 아무튼 아래의 코드는 회귀 문제와 분류 문제를 위한 모델 선택을 할때 반복을 돌려서 어느정도 성능이 나오는지만 체크하는 코드입니다! 정성드려서 코드를 정리한 만큼 가져가신다면.. 댓글로 반응해주시면 큰 힘이됩니다! 회귀 모듈 불러오기 from sklearn.linear_model impo.. 2023. 3. 6.
KT AIVLE School 4주차 정리 - 지도 학습 지도학습 - 분류(Classification), 회귀(Regression) 찾고자 하는 변수(y, target, 종속변수, 결과, 목표)가 범주형인지 연속형인지에 따라서 분류, 회귀를 구분해서 사용한다. 필요한 용어 정리 모델 추정, 예측, 추론 변수(Variable), 필드(Field), 속성(Attribute), 특성(Feature) 개체(Instance), 관측치(Observed Value), 기록(Record), 경우(Case) 독립변수, 종속변수 학습용, 검증용, 평가용 데이터셋 과대적합(Overfitting), 과소적합(Underfitting) 오차 = 실제값 - 예측값 / 이탈도(Deviance) y: 실제값 / y-hat: 예측값 / y-bar: 평균값 회귀 평가 지표 (오차 줄이기) 오차.. 2023. 2. 21.
반응형