[HDAT-DA] 데이터 분석 과정

개념공부/기타

Zach Choi 2023. 4. 6. 08:17

728x90

HDAT-DA 시험을 준비하며 데이터 분석 과정 정리

시험에서 자주 출제되는 데이터 분석과정은 예측 모델 생성

라이브러리 임포트
- pandas, numpy, os, random : seed 고정 함수 추가하기
- matplot, sns ..
- warning 출력 안하도록 세팅
데이터 불러오기
기초 통계 분석 및 EDA
- 목적 : 데이터 특성 파악
- 데이터 목록 확인 : print(train.columns)
- 데이터 통계치 확인 : train.describe()
- 예측 타겟 값의 분포 확인 : train.['Column'].value_counts()
- 데이터 결측치 확인 : temp = train.isna().sum(), temp[temp > 0]
  - 결측 데이터는 삭제하거나 평균 값으로 채워줄 수 있다.
- 변수 간 상관 관계 확인 (by heatmap)
- 다중공선성을 유발하는 변수 확인
데이터 전처리
- 다중공선성을 유발하는 변수 삭제
  - VIF 지수 계산해 10 넘는 값 삭제
- 데이터 결측치가 있을 경우 평균 값 대체 혹은 삭제 (Train 데이터의 평균 으로 Test 데이터 값 대체)
분석 모델 설계 (정형 및 이산 데이터에 적용 가능)
- Logistic Regression
- Random Forest
- XGBoost
- LightGBM
테스트 데이터의 20%를 검증 데이터 셋으로 만든 후 각 모델 검증
가장 좋은 성능을 보인 모델에 GridSearchCV를 적용해 최적 파라미터 찾기
- 1차적으로는 2~3개 변수에 대해서만 Grid Search CV 수행
- 1번 과정에서 도출한 최적 파라미터를 좀 더 세분화 해서 테스트 수행
모델 학습 진행 및 예측 값 생성
제출 파일 생성

728x90