본문 바로가기

카테고리 없음

[EDU]머신러닝 프로젝트 진행 과정

STEP 00. 프로젝트 정의

1. 프로젝트 주제 선정 or 수집할 데이터 선정

2. 분석 목적 정의

3. 결과 예측 & 가정

 

STEP 01. 데이터 수집

1. 크롤링

2. API

3. 내부 DB

4. 구입한 DATA

 

STEP 02. 데이터 전처리

1. 데이터 로딩

2. 데이터 이해

ㄴ info, shape, head 등을 이용해 데이터의 형태, 속성, null 값 유무를 파악

ㄴ 시각화를 이용해 분포 체크 : boxplot - 이상치, scatterplot - 데이터 모양, histogram - 분포

3. 전처리 1 - 데이터 이해를 기반으로

ㄴ 분석의 오류를 발생시킬 Outllier를 제거 or Scailng (ex. robust scailer 사용)

ㄴ null 값 제거할 것인지, 다른 값으로 바꿀 것인지 선택해서 변경(보통 비슷한 특성을 가진 값의 평균)

ㄴ 어떤 Scailer를 사용할 것인가 : minmax - 이상치가 없을 때, robust - 이상치가 크거나 or 많을 때

4. 전처리 2 

ㄴ PCA를 이용해 차원축소

ㄴ 변수제거

 

STEP 03. 데이터 학습(model_selection)

1. 학습 데이터와 테스트 데이터 나누기 - train_test_split : stratify 옵션과 random_state 옵션 이해

2. 선정한 Scaler로 Scaling

3. 모델(Algorithm) 선정

4. 모델 훈련(fit) by X_train, y_train

5. 모델 최적화 

ㄴ Grid Search CV를 통해 'alpha', 'C', 'gamma', 'solver', 'kernal' 등을 최적화

ㄴ 이를 그래프로 체크

6. 모델 검증 

ㄴ Train_Accuracy, Test_Accuracy

ㄴ Cross_Validation : K-fold 교차 검증(cross_val_score)

ㄴ confusion matrix

ㄴ Precision, Recall, F1_score

7. 모델 검증 점수가 충분하지 않을 경우 상황에 따라 STEP 01이나 STEP 02로 돌아가 반복수행

 

STEP 04. 결과물 도출 - 가정 검증

1. 분류를 통한 범주화

2. 회귀 분석을 통한 예측

3. 기타