Swimmer

[HDAT-DA] 데이터 분석 과정 본문

개념공부/기타

[HDAT-DA] 데이터 분석 과정

Zach Choi 2023. 4. 6. 08:17

HDAT-DA 시험을 준비하며 데이터 분석 과정 정리

시험에서 자주 출제되는 데이터 분석과정은 예측 모델 생성

 

데이터 분석 과정

  1. 라이브러리 임포트
    • pandas, numpy, os, random : seed 고정 함수 추가하기
    • matplot, sns ..
    • warning 출력 안하도록 세팅
  2. 데이터 불러오기
  3. 기초 통계 분석 및 EDA
    • 목적 : 데이터 특성 파악
    • 데이터 목록 확인 : print(train.columns)
    • 데이터 통계치 확인 : train.describe()
    • 예측 타겟 값의 분포 확인 : train.['Column'].value_counts()
    • 데이터 결측치 확인 : temp = train.isna().sum(), temp[temp > 0]
      • 결측 데이터는 삭제하거나 평균 값으로 채워줄 수 있다.
    • 변수 간 상관 관계 확인 (by heatmap)
    • 다중공선성을 유발하는 변수 확인
  4. 데이터 전처리
    • 다중공선성을 유발하는 변수 삭제
      • VIF 지수 계산해 10 넘는 값 삭제
    • 데이터 결측치가 있을 경우 평균 값 대체 혹은 삭제 (Train 데이터의 평균 으로 Test 데이터 값 대체)
  5. 분석 모델 설계 (정형 및 이산 데이터에 적용 가능)
    • Logistic Regression
    • Random Forest
    • XGBoost
    • LightGBM
  6. 테스트 데이터의 20%를 검증 데이터 셋으로 만든 후 각 모델 검증
  7. 가장 좋은 성능을 보인 모델에 GridSearchCV를 적용해 최적 파라미터 찾기
    • 1차적으로는 2~3개 변수에 대해서만 Grid Search CV 수행
    • 1번 과정에서 도출한 최적 파라미터를 좀 더 세분화 해서 테스트 수행
  8. 모델 학습 진행 및 예측 값 생성
  9. 제출 파일 생성

 

Comments