728x90
반응형
HDAT-DA 시험을 준비하며 데이터 분석 과정 정리
시험에서 자주 출제되는 데이터 분석과정은 예측 모델 생성
데이터 분석 과정
- 라이브러리 임포트
- pandas, numpy, os, random : seed 고정 함수 추가하기
- matplot, sns ..
- warning 출력 안하도록 세팅
- 데이터 불러오기
- 기초 통계 분석 및 EDA
- 목적 : 데이터 특성 파악
- 데이터 목록 확인 : print(train.columns)
- 데이터 통계치 확인 : train.describe()
- 예측 타겟 값의 분포 확인 : train.['Column'].value_counts()
- 데이터 결측치 확인 : temp = train.isna().sum(), temp[temp > 0]
- 결측 데이터는 삭제하거나 평균 값으로 채워줄 수 있다.
- 변수 간 상관 관계 확인 (by heatmap)
- 다중공선성을 유발하는 변수 확인
- 데이터 전처리
- 다중공선성을 유발하는 변수 삭제
- VIF 지수 계산해 10 넘는 값 삭제
- 데이터 결측치가 있을 경우 평균 값 대체 혹은 삭제 (Train 데이터의 평균 으로 Test 데이터 값 대체)
- 다중공선성을 유발하는 변수 삭제
- 분석 모델 설계 (정형 및 이산 데이터에 적용 가능)
- Logistic Regression
- Random Forest
- XGBoost
- LightGBM
- 테스트 데이터의 20%를 검증 데이터 셋으로 만든 후 각 모델 검증
- 가장 좋은 성능을 보인 모델에 GridSearchCV를 적용해 최적 파라미터 찾기
- 1차적으로는 2~3개 변수에 대해서만 Grid Search CV 수행
- 1번 과정에서 도출한 최적 파라미터를 좀 더 세분화 해서 테스트 수행
- 모델 학습 진행 및 예측 값 생성
- 제출 파일 생성
728x90
반응형
'개념공부 > 기타' 카테고리의 다른 글
Visual Studio Solution Build, Rebuild, Clean(정리) 기능 정리 (0) | 2023.05.13 |
---|---|
2022 Tesla AI day FSD Planning 정리 [작성 중] (0) | 2023.05.09 |
PyTorch nn.Linear (0) | 2023.02.06 |
XOR 비트 연산의 특징 및 코딩 문제들 (0) | 2023.01.29 |
파이토치 버전 확인 PyTorch Version Check (0) | 2023.01.25 |